Lec2 Tienxulydulieu

&
VC
BB
1
&
VC
BB
Nội dung
1. Mô tả tóm tắt dữ liệu

2. Các vấn đề về cơ sở dữ liệu
3. Giai đoạn tiền xử lý dữ liệu
4. Làm sạch dữ liệu
5. Tích hợp/Chọn lọc dữ liệu
6. Biến đổi dữ liệu
7. Thu giảm dữ liệu
8. Rời rạc hóa dữ liệu
9. Tạo cây phân cấp ý niệm
10. Tóm tắt
2
&
VC
BB
Mô tả tóm tắt tập dữ liệu
❖ Một tập dữ liệu (dataset) là một tập
hợp các đối tượng (objects) và các
thuộc tính (attributes) của chúng
❖ Mỗi thuộc tính (attribute) mô tả một
đặc điểm của một đối tượng
▪ Vd: Các thuộc tính Refund,
Marital Status, Taxable Income,
Cheat
❖ Một tập các giá trị của các thuộc tính
mô tả một đối tượng
▪ Khái niệm “đối tượng” còn được
tham chiếu đến với các tên gọi
khác: bản ghi (record), điểm dữ
liệu (data point), trường hợp
(case), mẫu (sample), thực thể
(entity), hoặc thể hiện (instance)
3
&
VC
BB
Các kiểu tập dữ liệu
❖ Dữ liệu dạng thuộc tinh –
giá trị (attribute – value data)
❖ Các kiểu dữ liệu
▪ Số (numeric), phi số
(categorical)
▪ Tĩnh, động (thời gian)
❖ Các dạng dữ liệu khác
▪ Dữ liệu phân tán
▪ Dữ liệu văn bản
▪ Dữ liệu web, siêu dữ liệu
▪ Hình ảnh, audio/video
▪ …
4
&
VC
BB
Các kiểu tập dữ liệu
❖ Bản ghi (Record)
▪ Các bản ghi trong csdl quan hệ
▪ Ma trận dữ liệu
▪ Biểu diễn văn bản (document)
▪ Dữ liệu giao dịch
❖ Đồ thị (Graph)
▪ World Wide Web
▪ Mạng thông tin, hoặc mạng xã hội
▪ Các cấu trúc phân tử (Molecular
structures)
❖ Có trật tự (Ordered)
▪ Dữ liệu không gian (vd: bản đồ)
▪ Dữ liệu thời gian (vd: time-series data)
▪ Dữ liệu chuỗi (vd: chuỗi giao dịch)
▪ Dữ liệu chuỗi di truyền (genetic
5
sequence data)
&
VC
BB
Các kiểu giá trị thuộc tính
❖ Kiểu định danh/chuỗi (norminal): không có thứ tự
▪ Lấy giá trị từ một tập không có thứ tự các giá trị (định danh)
▪ Vd: Các thuộc tính như: Name, Profession, …
❖ Kiểu nhị phân (binary): là một trường hợp đặc biệt của
kiểu định danh
▪ Tập các giá trị chỉ gồm có 2 giá trị (Y/N, 0/1, T/F)
❖ Kiểu có thứ tự (ordinal): Lấy giá trị từ một tập có thứ tự
các giá trị
▪ Ví dụ 1: Các thuộc tính lấy giá trị số như Age, Height, …
▪ Ví dụ 2: Thuộc tính Income lấy giá trị từ tập {low, medium, high}
6
&
VC
BB
Kiểu thuộc tính rời rạc vs. liên tục
❖Kiểu thuộc tính rời rạc (Discrete-valued
attributes)
▪ Tập các giá trị là một tập hữu hạn
▪ Bao gồm cả các thuộc tính có kiểu giá trị là các số
nguyên
▪ Bao gồm cả các thuộc tính nhị phân (binary
attributes)
❖Kiểu thuộc tính liên tục (Continuous-valued
attributes)
▪ Các giá trị là các số thực (real numbers)
7
&
VC
BB
Các đặc tính mô tả dữ liệu
❖ Mục đích: Để hiểu rõ về dữ liệu có được
❖ Xác định các thuộc tính (properties) tiêu biểu của dữ
liệu về xu hướng chính (central tendency), sự biến
thiên và sự phân bố (dispersion) của dữ liệu
▪ Các độ đo về xu hướng chính: mean, median, mode,
midrange
▪ Các độ đo về sự phân bố: quartiles, interquartile
range (IQR), variance
❖ Làm nổi bật các giá trị dữ liệu nên được xem như nhiễu
(noise) hoặc phần tử biên (outliers), cung cấp cái nhìn
tổng quan về dữ liệu
8
&
VC
BB
❖ Dữ liệu mẫu về đơn giá của các mặt hàng đã được

bán
9
&
VC
BB
❖ Các độ đo về xu hướng chính của dữ liệu

▪ Mean
i.e Mean = Σ(count[i]*price[i])/Σ(count[i])

▪ Weighted arithmetic mean
▪ Median
 x N / 2  if N odd
Median = 
( xN / 2 + xN / 2+1 ) / 2 if N even 10
&
VC
BB
❖ Các độ đo về xu hướng chính của dữ liệu

▪ Mode: giá trị xuất hiện thường xuyên nhất trong tập
dữ liệu
Mode = price[i] nếu count[i] lớn nhất
▪ Midrange: giá trị trung bình của các giá trị lớn nhất
và nhỏ nhất trong tập dữ liệu
Midrange = (Σ(count[i]*price[i]) +
Σ(count[j]*price[j]))/(Σ(count[i]) + Σ(count[j]))
nếu price[i] lớn nhất và price[j] nhỏ nhất
11
&
VC
BB
❖ Các độ đo về sự phân tán của dữ liệu
▪ Quartiles
• The first quartile (Q1): the 25th percentile
• The second quartile (Q2): the 50th percentile (median)
• The third quartile (Q3): the 75th percentile
▪ Interquartile Range (IQR) = Q3 – Q1

• Outliers (the most extreme observations): giá trị nằm cách
trên Q3 hay dưới Q1 một khoảng 1.5xIQR
▪ Variance
12
VC
&
Hiển thị hóa dữ liệu (Data visualization)
BB
❖ Biểu diễn dữ liệu bằng các phương pháp hiển thị đồ

họa, giúp hiểu rõ các đặc điểm của dữ liệu
❖ Cung cấp cái nhìn định tính đối với các tập dữ liệu lớn
❖ Có thể chỉ ra các mẫu, các xu hướng, các cấu trúc, các
bất thường, và các quan hệ trong dữ liệu
❖ Hỗ trợ xác định các vùng dữ liệu quan trọng và các

tham số phù hợp cho các phân tích định lượng tiếp theo
❖ Trong một số trường hợp, có thể cung cấp các chứng

minh trực quan đối với các biểu diễn (tri thức) thu được
13
&
VC
BB
Dữ liệu cân đối vs. lệch
❖ Giá trị trung bình, giá trị
trung vị, và giá trị xuất
hiện nhiều nhất đối với a) Symmetric data
▪ Dữ liệu cân đối
▪ Dữ liệu lệch
Q1 Q2 Q3
b) Positivety skewed data c) Negatively skewed data
14
&
VC
BB
Biểu đồ histogram
❖Biều đồ histogram là
cách biểu diễn dựa
trên đồ thị
❖Được sử dụng rất phổ

biến
❖Hiển thị các mô tả

thống kê xuất hiện
(counts/frequencies)
theo một thuộc tính
nào đó 15
&
VC
BB
Đồ thị rải rác (Scatter plot)
❖ Cho phép hiển thị quan hệ 2 chiều (giữa 2 thuộc tính)
của dữ liệu
❖ Cho phép quan sát (trực quan) các nhóm điểm, các
ngoại lại,…
❖ Mỗi cặp giá trị của 2 thuộc tính được xét tương ứng với
2 tọa độ của điểm được hiển thị trên mặt phẳng
16
Các vấn đề về cơ sở dữ liệu
&
VC
BB
❖Dữ liệu trong thực tế có chất lượng xấu

▪ DL thiếu, không đầy đủ : thiếu giá trị của thuộc tính,
thiếu các thuộc tính quan tâm, hoặc chỉ chứa DL tích
hợp
• VD : tuổi, cân nặng = “”
▪ DL bị tạp, nhiễu (noise) : chứa lỗi hoặc các sai biệt
• VD : Lương =“-100 000”
▪ DL mâu thuẫn : có sự không thống nhất trong mã
hoặc trong tên
• VD : Tuổi =42 , Ngày sinh = 03/07/1997; US=USA?
17
Các vấn đề về cơ sở dữ liệu
&
VC
BB
❖DL không chất lượng, không cho kết quả

khai thác tốt”
▪ Quyết định đúng đắn phải dựa trên các DL
chính xác
• VD : việc trùng lắp hoặc thiếu DL có thể dẫn tới
việc thống kê không chính xác, thậm chí làm lạc
lối.
▪ Nhà kho DL cần sự tích hợp đồng nhất các
DL chất lượng
18
&
VC
BB
Giai đoạn tiền xử lý dữ liệu
Pattern Evaluation/
Presentation
Data Mining Patterns
Task-relevant Data
Data Warehouse Selection/Transformation
Data
Cleaning
Data Integration
19
Data Sources
Giai đoạn tiền xử lý dữ liệu
&
VC
BB
❖Giai đoạn tiền xử lý dữ liệu

▪ Quá trình xử lý dữ liệu thô/gốc (raw/original
data) nhằm cải thiện chất lượng dữ liệu
(quality of the data) và do đó, cải thiện chất
lượng của kết quả khai phá.
• Dữ liệu thô/gốc
– Có cấu trúc, bán cấu trúc, phi cấu trúc
– Được đưa vào từ các nguồn dữ liệu trong các hệ thống
xử lý tập tin (file processing systems) và/hay các hệ
thống cơ sở dữ liệu (database systems)
• Chất lượng dữ liệu (data quality): tính chính xác,
tính hiện hành, tính toàn vẹn, tính nhất quán
20
Các bước của quá trình tiền xử lý dữ liệu
&
VC
BB
21
&
VC
BB
❖ Các kỹ thuật tiền xử lý dữ liệu

▪ Làm sạch dữ liệu (data cleaning/cleansing): điền các giá trị
thiếu, loại bỏ nhiễu (remove noise), hiệu chỉnh những phần dữ
liệu không nhất quán (correct data inconsistencies) → xác định
và loại bỏ DL sai biệt, DL nhiễu và giải quyết DL mâu thuẫn.
▪ Chọn lọc/Tích hợp dữ liệu (data selection/data integration): tổng
hợp, trộn dữ liệu (merge data) từ nhiều nguồn khác nhau vào
một kho dữ liệu
▪ Biến đổi dữ liệu (data transformation): chuẩn hoá dữ liệu (data
normalization) và tổng hợp dữ liệu (data aggregation)
▪ Thu giảm dữ liệu (data reduction): thu giảm kích thước dữ liệu
(nghĩa là giảm số phần tử) bằng kết hợp dữ liệu (data
aggregation), loại bỏ các đặc điểm dư thừa (redundant
features) (nghĩa là giảm số chiều/thuộc tính dữ liệu), gom cụm
dữ liệu nhưng vẫn đảm bảo kết quả phân tích 22
&
VC
BB

▪ Làm sạch dữ liệu (data cleaning/cleansing)
• Tóm tắt hoá dữ liệu: nhận diện đặc điểm chung của dữ liệu và sự hiện
diện của nhiễu hoặc các phần tử kì dị (outliers)
• Xử lý dữ liệu bị thiếu (missing data)
• Xử lý dữ liệu bị nhiễu (noisy data)
▪ Tích hợp dữ liệu (data integration)

• Tích hợp lược đồ (schema integration) và so trùng đối tượng (object
matching)
• Vấn đề dư thừa (redundancy)
• Phát hiện và xử lý mâu thuẫn giá trị dữ liệu (detection and resolution
of data value conflicts)
23
&
VC
BB
▪ Biến đổi dữ liệu (data transformation)
• Làm trơn dữ liệu (smoothing)
• Kết hợp dữ liệu (aggregation)
• Tổng quát hóa dữ liệu (generalization)
• Chuẩn hóa dữ liệu (normalization)
• Xây dựng thuộc tích (attribute/feature construction)
▪ Thu giảm dữ liệu (data reduction)
• Kết hợp khối dữ liệu (data cube aggregation)
• Chọn tập con các thuộc tính (attribute subset selection)
• Thu giảm chiều (dimensionality reduction)
• Thu giảm lượng (numerosity reduction)
• Tạo phân cấp ý niệm (concept hierarchy generation) và rời rạc hóa
(discretization)
24
&
VC
BB
Làm sạch dữ liệu (data cleaning)
❖ Làm sạch DL là vấn đề quan trọng bậc nhất của

nhà kho DL
❖ Các nhiệm vụ của công đoạn làm sạch DL:
▪ Xử lý dữ liệu bị thiếu (missing data)
▪ Nhận diện phần tử biên (outliers) và giảm thiểu

nhiễu (noisy data) – Xác định các sai
▪ Xử lý dữ liệu không nhất quán (inconsistent

data)
25
&
VC
BB
Làm sạch dữ liệu
❖ Xử lý dữ liệu bị thiếu (missing data)
▪ Định nghĩa của dữ liệu bị thiếu
• Dữ liệu không có sẵn khi cần được sử dụng
▪ Nguyên nhân gây ra dữ liệu bị thiếu
• Khách quan (không tồn tại lúc được nhập liệu, sự cố, …)
• Chủ quan (tác nhân con người)
▪ Giải pháp cho dữ liệu bị thiếu
• Bỏ qua
• Xử lý tay (không tự động, bán tự động)
• Dùng giá trị thay thế (tự động): hằng số toàn cục, trị phổ biến
nhất, trung bình toàn cục, trung bình cục bộ, trị dự đoán, …
• Ngăn chặn dữ liệu bị thiếu: thiết kế tốt CSDL và các thủ tục nhập
liệu (các ràng buộc dữ liệu) 26
&
VC
BB
❖ Tình huống
▪ Thu thập DL về sinh viên thuộc tất cả các

trường của ĐH trong Tp.HCM (Vd : để phân
tích mức sống SV).
▪ Các thuộc tính nào có thể có trong CSDL ?
▪ Ví dụ thuộc tính bị thiếu giá trị là thuộc
tính “Tiền thuê nhà”
▪ Cách giải quyết?
27
&
VC
BB
❖Nhận diện phần tử biên (outliers) và giảm thiểu
nhiễu (noisy data)
▪ Định nghĩa
• Outliers: những dữ liệu (đối tượng) không tuân theo
đặc tính/hành vi chung của tập dữ liệu (đối tượng).
• Noisy data: outliers bị loại bỏ (rejected/discarded
outliers) như là những trường hợp ngoại lệ
(exceptions).
▪ Nguyên nhân
• Khách quan (công cụ thu thập dữ liệu, lỗi trên
đường truyền, giới hạn công nghệ, …)
28
• Chủ quan (tác nhân con người)
&
VC
BB
❖ Nhận diện phần tử biên (outliers) và giảm thiểu nhiễu
(noisy data)
▪ Giải pháp nhận diện phần tử biên
• Dựa trên phân bố thống kê (statistical distribution-based)
• Dựa trên khoảng cách (distance-based)
• Dựa trên mật độ (density-based)
• Dựa trên độ lệch (deviation-based)
▪ Giải pháp giảm thiểu nhiễu
• Phương pháp chia giỏ (Binning)
• Phương pháp hồi quy (Regression)
• Gom nhóm (Clustering)
29
&
VC
BB
❖Phương pháp chia giỏ (Binning):
▪ Sắp xếp và chia DL vào các giỏ với
phương pháp rời rạc hóa
• Chia giỏ theo độ rộng (Equal width – khoảng cách)
• Chia giỏ theo độ sâu (Equal depth – tần suất)
▪ Khử nhiễu (làm trơn) bằng giá trị TB,

trung tuyến, biên giỏ,…
30
&
VC
BB
❖ Phương pháp rời rạc hóa: chia giỏ (Binning):
▪ Chia giỏ theo độ rộng (Equal width – khoảng cách):
• Chia vùng giá trị thành N khoảng cùng kích thước
• Độ rộng của từng khoảng = (giá trị lớn nhất – giá trị nhỏ nhất)/N
31
&
VC
BB
❖ Phương pháp rời rạc hóa: chia giỏ (Binning):
▪ Chia giỏ theo độ rộng (Equal width – khoảng cách):
Không tốt cho dữ liệu bị lệnh
32
&
VC
BB
❖Phương pháp rời rạc hóa: chia giỏ (Binning):
▪ Chia giỏ theo độ sâu (Equal depth – tần suất):
• Chia vùng giá trị thành N khoảng mà mỗi khoảng có
chứa gần như cùng số lượng mẫu
33
&
VC
BB
❖Ví dụ phương pháp Binning: Cho DL sắp xếp
giá ($): 4, 8, 15, 21, 21, 24, 25, 28, 34
▪ Phân chia thành giỏ có cùng độ sâu (equal-depth): độ
sâu = 3
- Bin 1: 4, 8, 15
- Bin 2: 21, 21, 24
- Bin 3: 25, 28, 34
▪ Làm trơn:
Bằng giá trị TB giỏ: Bằng biên giỏ: Bằng trung tuyến giỏ:
- Bin 1: 9, 9, 9 - Bin 1: 4, 4, 15 - Bin 1: 4, 4, 15
- Bin 2: 22, 22, 22 - Bin 2: 21, 21, 24 - Bin 2: 21, 21, 24
- Bin 3: 29, 29, 29 - Bin 3: 25, 25, 34 - Bin 3: 25, 25, 34
34
&
VC
BB
❖Bài tập phương pháp chia giỏ:
▪ Cho DL sắp xếp giá ($):
15, 17, 19, 25, 29, 31, 33, 41, 42, 45, 45, 47, 52, 52, 64
SỐ GIỎ : 4
▪ Dùng phương pháp phân chia giỏ lần lượt theo độ
rộng và theo độ sâu.
▪ Tính giá trị của giỏ theo phương pháp làm trơn theo
trung tuyến
▪ Tính giá trị của giỏ theo phương pháp làm trơn theo
biên giỏ
▪ So sánh kết quả hai phương pháp phân chia
35
&
VC
BB
❖Nhận diện phần tử biên (outliers) và giảm thiểu
nhiễu (noisy data)
• Hồi quy (regression)
y
Y1
Y1’ y=x+1
X1 x
36
&
VC
BB
❖Nhận diện phần tử biên (outliers) và giảm
thiểu nhiễu (noisy data)
• Gom nhóm (clustering)
37
&
VC
BB
❖Xử lý dữ liệu không nhất quán
▪ Định nghĩa của dữ liệu không nhất quán
• Dữ liệu được ghi nhận khác nhau cho cùng một đối tượng/thực
thể → discrepancies from inconsistent data representations
– 2004/12/25 và 25/12/2004
• Dữ liệu được ghi nhận không phản ánh đúng ngữ nghĩa cho
các đối tượng/thực thể
– Ràng buộc khóa ngoại
▪ Nguyên nhân
• Sự không nhất quán trong các qui ước đặt tên hay mã dữ liệu
• Định dạng không nhất quán của các vùng nhập liệu
• Thiết bị ghi nhận dữ liệu, …
38
&
VC
BB
❖Xử lý dữ liệu không nhất quán (inconsistent
data)
▪ Giải pháp
• Tận dụng siêu dữ liệu, ràng buộc dữ liệu, sự
kiểm tra của nhà phân tích dữ liệu cho việc nhận
diện
• Điều chỉnh dữ liệu không nhất quán bằng tay
• Các giải pháp biến đổi/chuẩn hóa dữ liệu tự
động
39
&
VC
BB
Tích hợp dữ liệu
❖ Tích hợp/Chọn lọc dữ liệu: quá trình trộn dữ liệu từ các
nguồn khác nhau vào một kho dữ liệu sẵn sàng cho
quá trình khai phá dữ liệu
▪ Vấn đề nhận dạng thực thể (entity identification problem), chỉ
chọn những dữ liệu cần thiết cho tiến trình khai thác DL
• Tích hợp lược đồ (schema integration)
• So trùng đối tượng (object matching)
▪ Loại bỏ DL trùng lặp và dư thừa (redundancy)
▪ Phát hiện và giải quyết các vấn đề mâu thuẫn giá trị dữ liệu
(data value conflicts)
→ Liên quan đến cấu trúc và tính không thuần nhất
(heterogeneity) về ngữ nghĩa (semantics) của dữ liệu
→ Hỗ trợ việc giảm và tránh dư thừa và không nhất quan
về dữ liệu → cải thiện tính chính xác và tốc độ quá
40
trình khai phá dữ liệu
&
VC
BB
❖ Vấn đề nhận dạng thực thể:
▪ Các thực thể (object/entity/attribute) đến từ nhiều nguồn
dữ liệu.
▪ Hai hay nhiều thực thể khác nhau diễn tả cùng một thực
thể thực.
▪ Ví dụ ở mức lược đồ (schema): customer_id trong
nguồn S1 và cust_number trong nguồn S2.
▪ Ví dụ ở mức thể hiện (instance): “R & D” trong nguồn S1
và “Research & Development” trong nguồn S2. “Male”
và “Female” trong nguồn S1 và “Nam” và “Nữ” trong
nguồn S2.
→ Làm thế nào để các thực thể từ nhiều nguồn gữ liệu
khác nhau trở nên tương xứng → sử dụng vai trò của siêu
41
dữ liệu (metadata)
&
VC
BB
❖ Loại bỏ dữ liệu trùng lắp, dư thừa
▪ Hiện tượng: giá trị của một thuộc tính có thể được dẫn ra/tính từ
một/nhiều thuộc tính khác, vấn đề trùng lắp dữ liệu (duplication).
▪ Nguyên nhân: tổ chức dữ liệu kém, không nhất quán trong việc
đặt tên chiều/thuộc tính.
▪ Phát hiện dư thừa: dùng phép phân tích tương quan (correlation
analysis)
• Dựa trên dữ liệu hiện có, kiểm tra khả năng dẫn ra một thuộc tính B
từ thuộc tính A.
• Đối với các thuộc tính số (numerical attributes), đánh giá tương
quan giữa hai thuộc tính với các hệ số tương quan (correlation
coefficient, aka Pearson’s product moment coefficient).
• Đối với các thuộc tính rời rạc (categorical/discrete attributes), đánh
giá tương quan giữa hai thuộc tính với phép kiểm thử chi-square
(2).
42
&
VC
BB
Phân tích tương quan giữa hai thuộc tính số A và B
▪ rA,B  [-1, 1]
▪ rA,B > 0: A và B tương quan thuận với nhau, trị số

của A tăng khi trị số của B tăng, rA,B càng lớn thì
mức độ tương quan càng cao, A hoặc B có thể
được loại bỏ vì dư thừa.
▪ rA,B = 0: A và B không tương quan với nhau (độc
lập).
▪ rA,B < 0: A và B tương quan nghịch với nhau, A và
B loại trừ lẫn nhau. 43
&
VC
BB
❖ Phân tích tương quan giữa hai thuộc tính số A và B
A A
B B
A A A
B B B
44
44
&
VC
BB
Phân tích tương quan giữa hai thuộc tính rời rạc A và B
▪ A có c giá trị phân biệt, a1, a2, …, ac.
▪ B có r giá trị phân biệt, b1, b2, …, br.
▪ oij: số lượng đối tượng (tuples) có trị thuộc tính A là ai và trị thuộc
tính B là bj.
▪ count(A=ai): số lượng đối tượng có trị thuộc tính A là ai.
▪ count(B=bj): số lượng đối tượng có trị thuộc tính B là bj.
45
45
&
VC
BB
❖ Phân tích tương quan giữa hai thuộc tính rời rạc A và B
▪ Phép kiểm thống kê chi-square kiểm tra giả thuyết
liệu A và B có độc lập với nhau dựa trên một mức
quan trọng (significance level) với độ tự do (degree of
freedom).
• Nếu giả thuyết bị loại bỏ thì A và B có sự liên hệ với nhau
dựa trên thống kê.
▪ Độ tự do (degree of freedom): (r-1)*(c-1)

• Tra bảng phân bố chi-square để xác định giá trị 2.
• Nếu giá trị tính toán được lớn hơn hay bằng trị tra bảng
được thì hai thuộc tính A và B độc lập nhau (giả thuyết
đúng).
46
&
VC
BB
❖ Vấn đề mâu thuẫn giá trị dữ liệu
▪ Cho cùng một thực thể thật, các giá trị thuộc tính đến
từ các nguồn dữ liệu khác nhau có thể khác nhau về
cách biểu diễn (representation), đo lường (scaling),
và mã hóa (encoding).
• Representation: “2004/12/25” với “25/12/2004”.
• Scaling: thuộc tính weight trong các hệ thống đo khác nhau

với các đơn vị đo khác nhau, thuộc tính price trong các hệ
thống tiền tệ khác nhau với các đơn vị tiền tệ khác nhau.
• Encoding: “yes” và “no” với “1” và “0”.
47
&
VC
BB
Biến đổi dữ liệu
❖Biến đổi dữ liệu: quá trình biến đổi hay kết hợp
dữ liệu vào những dạng thích hợp cho quá trình
khai phá dữ liệu
▪ Làm trơn dữ liệu (smoothing)
▪ Kết hợp dữ liệu (aggregation)
▪ Tổng quát hoá (generalization)
▪ Chuẩn hoá (normalization)
▪ Xây dựng thuộc tính/đặc tính (attribute/feature

construction) 48
&
VC
BB
❖Làm trơn dữ liệu (smoothing)
▪ Các phương pháp binning (bin means, bin

medians, bin boundaries)
▪ Hồi quy
▪ Các kỹ thuật gom cụm (phân tích phần tử biên)
▪ Các phương pháp rời rạc hóa dữ liệu (các

phân cấp ý niệm)
→ Loại bỏ/giảm thiểu nhiễu khỏi dữ liệu.

49
&
VC
BB
❖Kết hợp dữ liệu (aggregation)
▪ Các tác vụ kết hợp/tóm tắt dữ liệu
▪ Chuyển dữ liệu ở mức chi tiết này sang dữ

liệu ở mức kém chi tiết hơn
▪ Hỗ trợ việc phân tích dữ liệu ở nhiều độ mịn

thời gian khác nhau
→ Thu giảm dữ liệu (data reduction)
50
&
VC
BB
❖Tổng quát hóa (generalization)
▪ Chuyển đổi dữ liệu cấp thấp/nguyên tố/thô

sang các khái niệm ở mức cao hơn thông qua
các phân cấp ý niệm
→ Thu giảm dữ liệu (data reduction)
51
&
VC
BB
❖Chuẩn hóa (normalization)
▪ min-max normalization
▪ z-score normalization
▪ Normalization by decimal scaling
→Các giá trị thuộc tính được chuyển đổi vào

một miền trị nhất định được định nghĩa trước.
52
&
VC
BB
▪ min-max normalization
• Giá trị cũ: v [minA, maxA]
• Giá trị mới: v’  [new_minA, new_maxA]

→Ví dụ: chuẩn hóa điểm số từ 0-4.0 sang 0-10.0.
→Đặc điểm của phép chuẩn hóa min-max?
53
&
VC
BB
▪ z-score normalization
• Giá trị cũ: v tương ứng với mean Ā và standard
deviation бA
• Giá trị mới: v’
→ Đặc điểm của chuẩn hóa z-score?
54
&
VC
BB
▪ Normalization by decimal scaling

• Giá trị cũ: v
• Giá trị mới: v’ với j là số nguyên nhỏ nhất sao cho

Max(|v’|) < 1
55
&
VC
BB
❖Xây dựng thuộc tính/đặc tính (attribute/feature
construction)
▪ Các thuộc tính mới được xây dựng và thêm

vào từ tập các thuộc tính sẵn có.
▪ Hỗ trợ kiểm tra tính chính xác và giúp hiểu cấu

trúc của dữ liệu nhiều chiều.
▪ Hỗ trợ phát hiện thông tin thiếu sót về các mối

quan hệ giữa các thuộc tính dữ liệu.
→ Các thuộc tính dẫn xuất

56
&
VC
BB
Thu giảm dữ liệu
❖Tập dữ liệu được biến đổi đảm bảo các toàn vẹn, nhưng
nhỏ/ít hơn nhiều về số lượng so với ban đầu.
❖Các phương pháp
▪ Tổng hợp và tổng quát hóa
▪ Giảm chiều dữ liệu
▪ Nén dữ liệu
▪ Giảm số lượng
▪ Rời rạc hóa
→ Thu giảm dữ liệu: lossless và lossy
57
&
VC
BB
❖Tổng hợp và tổng quát hóa
▪ Tổ hợp từ 2 thuộc tính (đối tượng) trở lên
thành 1 thuộc tính ( đối tượng)
• VD : các thành phố tổng hợp vào vùng, khu
vực, nước, …
▪ Tổng hợp/ tổng quát DL cấp thấp vào DL
cấp cao :
• Giảm kích thước tập DL : giảm số thuộc tinh
• Tăng tính lý thú của mẫu
58
&
VC
BB
❖ Giảm chiều dữ liệu

▪ Chọn lựa đặc trưng ( tập con các thuộc tính)
• Chọn m từ n thuộc tính, m ≤ n
• Loại bỏ các thuộc tính không liên quan, dư
thừa
▪ Cách xác định thuộc tính không liên quan ?

• Số liệu thống kê
• Độ lợi thông tin
59
&
VC
BB
❖ Giảm chiều dữ liệu bằng cách nào?

▪ Vét cạn
• Có 2d tập con thuộc tính của d thuộc tính
• Độ phức tạp tính toán quá cao
▪ PP Heuristic
• Stepwise forward selection
• Stepwise backward elimitatio
• Kết hợp cả hai
• Cây quyết định qui nạp
60
&
VC
BB
❖ PP Heuristic - Stepwise forward:

▪ Đầu tiên : chọn thuộc tính đơn tốt nhất
▪ Chọn tiếp thuộc tính tốt nhất trong số còn
lại, …..
▪ Ví dụ : tập thuộc tính ban đầu
{A1,A2,A3,A4,A5,A6}
• Tập rút gọn ban đầu ={}
B1= {A1}
B2= {A1,A4}
B3= {A1,A4, A6}
61
&
VC
BB
❖ PP Heuristic - Stepwise backward:

▪ Đầu tiên : loại thuộc tính đơn xấu nhất
▪ Loại tiếp thuộc tính xấu nhất trong số còn
lại, …
{A1,A2,A3,A4,A5,A6}
• Tập rút gọn ban đầu ={A1,A2,A3,A4,A5,A6}
B1= {A1,A3,A4,A5,A6}
B2= {A1,A4,A5,A6}
B3= {A1,A4, A6}
62
&
VC
BB
❖ PP Heuristic - Kết hợp:

▪ Đầu tiên : chọn thuộc tính đơn tốt nhất và
loại thuộc tính đơn xấu nhất
▪ Chọn tiếp thuộc tính tốt nhất và loại tiếp
thuộc tính xấu nhất trong số còn lại, …
{A1,A2,A3,A4,A5,A6}
• Tập rút gọn ban đầu ={A1,A2,A3,A4,A5,A6}
B1= {A1,A3,A4,A5,A6}
B2= {A1,A4,A5,A6}
B3= {A1,A4, A6} 63
&
VC
BB
❖ PP Heuristic – Cây quyết định qui nạp:
▪ Đầu tiên : xây dựng cây quyết định
▪ Loại các thuộc tính không xuất hiện trên cây
{A1,A2,A3,A4,A5,A6}
→ Tập rút gọn = {A1, A4, A6}
64
&
VC
BB
❖Chọn một số thuộc tính (attribute subset selection)
65
&
VC
BB
❖Nén DL
▪ Mã hoá hoặc biến đổi dữ liệu
▪ Nén không mất thông tin
(lossless)
• DL có thể phục hồi lại
▪ Nén có mất thông tin (lossy)

• DL không thể phục hồi lại hoàn
toàn
▪ Dùng biến đổi wavelet, phân

tích thành phần cơ bản
(principal component analysis-
PCA)
66
&
VC
BB
❖Giảm số lượng (numerosity reduction):
▪ Chọn dạng biểu diễn DL khác, “nhỏ hơn”
▪ PP tham số:
• Sử dụng mô hình toán học để lưu giữ các tham
số ( của DL)
• Mô hình hồi qui và log-tuyến tinh
▪ PP không tham số:

• Không sử dụng mô hình toán học mà lưu
biểu diễn rút gọn
67
• Biểu đồ, gom nhóm, lấy mẫu
&
VC
BB
▪ PP hồi qui tuyến tính :Y =  + X (chỉ
lưu , )
▪ PP hồi qui bội : Y = b0 + b1 X1 + b2 X2
▪ Mô hình log-tuyến tính :
• Xác suất : p(a, b, c, d) = ab ac ad bcd
68
&
VC
BB
▪ PP biểu đồ (histogram)
• PP thông dụng để rút gọn DL
• Phân chia DL vào các giỏ và chiều cao của cột là số đối
tượng nằm trong mỗi giỏ. Chỉ lưu giá trị trung bình của mỗi
giỏ.
• Hình dáng của biểu đồ tùy thuộc vào số lượng giỏ
▪ Ví dụ : Chiều dài cánh hoa ( 10 và 20 giỏ)
69
&
VC
BB
❖Giảm số lượng
(numerosity reduction):
▪ PP gom nhóm
• Phân chia DL vào các
nhóm và lưu biểu diễn
của nhóm.
• Rất hiệu quả nếu DL tập
trung thành nhóm nhưng
ngược lại khi DL rải rác
• Rất nhiều thuật toán
gom nhóm.
70
&
VC
BB
▪ PP lấy mẫu (sampling)
• Dùng tập mẫu ngẫu nhiên nhỏ hơn nhiều
để thay thế cho tập DL lớn.
• PP lấy mẫu ngẫu nhiên không thay thế
(SRSWOR)
• PP lấy mẫu ngẫu nhiên có thay thế
(SRSWR )
• PP lấy mẫu theo nhóm/phân cấp
71
&
VC
BB
72
&
VC
BB
73
&
VC
BB
Mã hóa dữ liệu
❖ Chuyển đổi DL thành dạng phù hợp và thuận
tiện cho các thuật toán KTDL
▪ Rời rạc hóa: Biến đổi miền giá trị thuộc tính
(liên tục) bằng cách chia miền giá trị thành
từng khoảng. Lưu nhãn của khoảng thay cho
các giá trị thực.
▪ Phân cấp khái niệm: Tập hợp và thay thế
khái niệm cấp thấp bằng khái niệm cấp cao
hơn.
74
&
VC
BB
❖PP mã hóa:
▪ DL dạng số:
• Chia giỏ
• Phân tích biểu đồ
• Gom nhóm
• Rời rạc hoá theo entropy
• Phân đoạn tự nhiên
▪ DL dạng phi số:

• Tạo sơ đồ phân cấp 75
&
VC
BB
❖Ví dụ:
▪ Chuyển đổi giá trị logic thành 1,0
▪ Chuyển đổi giá trị ngày tháng thành số
▪ Chuyển đổi các cột có giá trị số lớn thành
tập các giá trị trong vùng nhỏ hơn, chẳng
hạn chia chúng cho hệ số nào đó
▪ Nhóm các giá trị có cùng ngữ nghĩa như:
Hoạt động trước CMT8 là nhóm 1; từ
01/08/45 – 31/06/54 ; nhóm 2; từ 01/07/54 –
30/4/75 là nhóm 3, …
▪ Thay thế giá trị của Tuổi = trẻ, trung niên, già
76
&
VC
BB
Tạo cây phân cấp ý niệm
❖Dữ liệu phân loại (categorical data)
▪ Dữ liệu rời rạc (discrete data)
▪ Miền trị thuộc tính phân loại (categorical

attribute)
• Số giá trị phân biệt hữu hạn
• Không có thứ tự giữa các giá trị
→ Tạo phân cấp ý niệm cho dữ liệu rời rạc
77
&
VC
BB
❖Các phương pháp tạo phân cấp ý niệm cho dữ

liệu rời rạc (categorical/discrete data)
▪ Đặc tả thứ tự riêng phần (partial ordering)/thứ

tự toàn phần (total ordering) của các thuộc
tính tường minh ở mức lược đồ bởi người sử
dụng hoặc chuyên gia
▪ Đặc tả một phần phân cấp bằng cách nhóm

dữ liệu tường minh
78
&
VC
BB
❖Các phương pháp tạo phân cấp ý niệm cho dữ

liệu rời rạc (categorical/discrete data)
▪ Đặc tả một tập các thuộc tính, nhưng không

bao gồm thứ tự riêng phần của chúng
▪ Đặc tả chỉ một tập riêng phần các thuộc tính

(partial set of attributes)
▪ Tạo phân cấp ý niệm bằng cách dùng các kết

nối ngữ nghĩa được chỉ định trước
79
&
VC
BB
Tóm tắt
❖ Dữ liệu thực tế: không đầy đủ (incomplete/missing), nhiễu
(noisy), không nhất quán (inconsistent)
❖ Quá trình tiền xử lý dữ liệu là vấn đề quan trọng của KTDL
❖ Chuẩn bị dữ liệu gồm:
▪ làm sạch dữ liệu: xử lý dữ liệu bị thiếu, làm trơn dữ liệu
nhiễu, nhận dạng các phần tử biên, hiệu chỉnh dữ liệu
không nhất quán
▪ tích hợp dữ liệu: vấn đề nhận dạng thực thể, vấn đề dư
thừa, vấn đề mâu thuẫn giá trị dữ liệu
▪ biến đổi dữ liệu: làm trơn dữ liệu, kết hợp dữ liệu, tổng
quát hóa, chuẩn hóa, xây dựng thuộc tính/đặc tính
▪ thu giảm dữ liệu: kết hợp khối dữ liệu, chọn một số thuộc
tính, thu giảm chiều, rời rạc hóa và tạo phân cấp ý niệm
80
&
VC
BB
Tóm tắt
❖Rời rạc hóa dữ liệu
▪ Thu giảm số trị của một thuộc tính liên tục (continuous
attribute) bằng cách chia miền trị thành các khoảng
(interval) có dán nhãn. Các nhãn này được dùng thay cho
các giá trị thực.
▪ Tiến hành theo hai cách: trên xuống (top down) và dưới
lên (bottom up), có giám sát (supervised) và không có
giám sát (unsupervised).
▪ Tạo phân hoạch phân cấp/đa phân giải (multiresolution)
trên các trị thuộc tính → phân cấp ý niệm cho thuộc tính
số (numerical attribute)
81
&
VC
BB
Tóm tắt
❖ Tạo cây phân cấp ý niệm
▪ Hỗ trợ khai phá dữ liệu ở nhiều mức trừu trượng
▪ Cho thuộc tính số (numerical attributes): binning, histogram analysis,
entropy-based discretization, 2-merging, cluster analysis,
discretization by intuitive partitioning
▪ Cho thuộc tính phân loại/rời rạc (categorical/discrete attributes): chỉ
định tường minh bởi người sử dụng hay chuyên gia, nhóm dữ liệu
tường minh, dựa trên số lượng trị phân biệt (khác nhau) của mỗi thuộc
tính
❖ Dữ liệu tốt là chìa khóa tạo ra các mô hình giá trị và đáng tin
cậy
❖ Đây là lĩnh vực nghiên cứu còn nhiều thách thức
82
&
VC
BB
Bài tập
1. Tại sao chuẩn bị DL là công việc cấp thiết và tốn nhiều thời
gian?
2. Các cách giải quyết vần đề thiếu giá trị trong các mẫu tin
của CSDL?
3. Giả sử CSDL có thuộc tính Tuổi với các giá trị trong các
mẫu tin (tăng dần):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33, 33,35,35,
35,35,36,40,45,46,52,70.
a. Khử nhiễu DL trên bằng giá trị TB của giỏ. Nhận xét hiệu
quả của kỹ thuật này với DL trên.
b. Có thể áp dụng các kỹ thuật nào để khử nhiễu DL ?
c. Dùng DL trên vẽ biểu đồ cùng chiều rộng (equalwidth
histogram) với độ rộng = 10 83
&
VC
BB
Hỏi & Đáp …
84

Lec2 Tienxulydulieu

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Lec2 Tienxulydulieu

Uploaded by

Copyright:

Available Formats

&

1. Mô tả tóm tắt dữ liệu

❖ Dữ liệu mẫu về đơn giá của các mặt hàng đã được

❖ Các độ đo về xu hướng chính của dữ liệu

i.e Mean = Σ(count[i]*price[i])/Σ(count[i])

❖ Các độ đo về xu hướng chính của dữ liệu

❖ Các độ đo về sự phân tán của dữ liệu

• The second quartile (Q2): the 50th percentile (median)

• The third quartile (Q3): the 75th percentile

▪ Interquartile Range (IQR) = Q3 – Q1

❖ Biểu diễn dữ liệu bằng các phương pháp hiển thị đồ

❖ Hỗ trợ xác định các vùng dữ liệu quan trọng và các

❖ Trong một số trường hợp, có thể cung cấp các chứng

▪ Dữ liệu cân đối

b) Positivety skewed data c) Negatively skewed data

❖Được sử dụng rất phổ

❖Hiển thị các mô tả

❖Dữ liệu trong thực tế có chất lượng xấu

❖DL không chất lượng, không cho kết quả

Data Mining Patterns

Data Warehouse Selection/Transformation

❖Giai đoạn tiền xử lý dữ liệu

❖ Các kỹ thuật tiền xử lý dữ liệu

❖ Các kỹ thuật tiền xử lý dữ liệu

▪ Tích hợp dữ liệu (data integration)

❖ Làm sạch DL là vấn đề quan trọng bậc nhất của

❖ Các nhiệm vụ của công đoạn làm sạch DL:

▪ Xử lý dữ liệu bị thiếu (missing data)

▪ Nhận diện phần tử biên (outliers) và giảm thiểu

▪ Xử lý dữ liệu không nhất quán (inconsistent

▪ Thu thập DL về sinh viên thuộc tất cả các

▪ Khử nhiễu (làm trơn) bằng giá trị TB,

▪ rA,B > 0: A và B tương quan thuận với nhau, trị số

▪ Độ tự do (degree of freedom): (r-1)*(c-1)

• Scaling: thuộc tính weight trong các hệ thống đo khác nhau

• Encoding: “yes” và “no” với “1” và “0”.

▪ Làm trơn dữ liệu (smoothing)

▪ Kết hợp dữ liệu (aggregation)

▪ Tổng quát hoá (generalization)

▪ Chuẩn hoá (normalization)

▪ Xây dựng thuộc tính/đặc tính (attribute/feature

▪ Các phương pháp binning (bin means, bin

▪ Các kỹ thuật gom cụm (phân tích phần tử biên)

▪ Các phương pháp rời rạc hóa dữ liệu (các

→ Loại bỏ/giảm thiểu nhiễu khỏi dữ liệu.

❖Kết hợp dữ liệu (aggregation)

▪ Các tác vụ kết hợp/tóm tắt dữ liệu

▪ Chuyển dữ liệu ở mức chi tiết này sang dữ

▪ Hỗ trợ việc phân tích dữ liệu ở nhiều độ mịn

→ Thu giảm dữ liệu (data reduction)

❖Tổng quát hóa (generalization)

▪ Chuyển đổi dữ liệu cấp thấp/nguyên tố/thô

→ Thu giảm dữ liệu (data reduction)

❖Chuẩn hóa (normalization)

▪ Normalization by decimal scaling

→Các giá trị thuộc tính được chuyển đổi vào

• Giá trị mới: v’  [new_minA, new_maxA]

→Đặc điểm của phép chuẩn hóa min-max?

❖Chuẩn hóa (normalization)

• Giá trị mới: v’

→ Đặc điểm của chuẩn hóa z-score?

❖Chuẩn hóa (normalization)

▪ Normalization by decimal scaling