Professional Documents
Culture Documents
Chuong 2
Chuong 2
CHƯƠNG 2
1
9/4/2020
I. QUÁ TRÌNH
1. Khám phá tri thức
I. QUÁ TRÌNH
2. Các bước KDD
2
9/4/2020
I. QUÁ TRÌNH
I. QUÁ TRÌNH
3
9/4/2020
I. QUÁ TRÌNH
I. QUÁ TRÌNH
Bước 5: Đánh giá kết quả mẫu: kiểm tra, đánh giá
để trích xuất ra các tri thức cần thiết.
4
9/4/2020
Phân loại:
Ăn được hoặc
Có độc?
Ví dụ:
◦ Dự báo lứa tuổi trưởng thành (A), vị thành niên (J) từ cân
nặng và chiều cao
10
5
9/4/2020
◦ Học có giám sát còn được chia nhỏ thành: Phân lớp và hồi
qui.
12
6
9/4/2020
13
14
7
9/4/2020
16
8
9/4/2020
◦ Dữ liệu thô/gốc:
◦ Có cấu trúc, bán cấu trúc, phi cấu trúc;
◦ Được đưa vào từ các nguồn khác nhau.
17
◦ Là quá trình xử lý các giá trị thiếu, xác định và loại bỏ dữ liệu
sai biệt, dữ liệu nhiễu và giải quyết dữ liệu mâu thuẫn.
18
9
9/4/2020
19
20
10
9/4/2020
21
11
9/4/2020
Dữ liệu nhiễu
◦ Nhiễu dữ liệu là một lỗi ngẫu nhiên hoặc sự ghi chép nhầm
lẫn không được kiểm soát.
◦ Dùng các phương pháp đo lường sự tập trung của dữ liệu
xử lý nhiễu như: chia giỏ, hồi qui, gom cụm.
23
với N = 7 khoảng, Biên trái <= giá trị < biên phải
64 67 67 70 70 73 73 76 76 79 79 82 82 85
12
9/4/2020
25
◦ Ví dụ: Dãy 4 8 15 21 21 24 25 28 34
4 8 15 21 21 24 25 28 34
13
9/4/2020
27
◦ 4 8 15 21 21 24 25 28 34
◦ Chia giỏ theo độ sâu với N = 3
◦ Bin 1: 4 8 15 • Khử nhiễu: theo giá trị
trung vị
◦ Bin 2: 21 21 24
• Bin 1: 8 8 8
◦ Bin 3: 25 28 34
• Bin 2: 21 21 21
• Bin 3: 28 28 28
28
14
9/4/2020
◦ 4 8 15 21 21 24 25 28 34
◦ Chia giỏ theo độ sâu với N = 3
◦ Bin 1: 4 8 15 • Khử nhiễu: theo giá trị
◦ Bin 2: 21 21 24 trung bình
◦ Bin 3: 25 28 34 • Bin 1: 9 9 9
• Bin 2: 22 22 22
• Bin 3: 29 29 29
29
◦ 4 8 15 21 21 24 25 28 34
◦ Chia giỏ theo độ sâu với N = 3
◦ Bin 1: 4 8 15 • Khử nhiễu: theo giá trị
◦ Bin 2: 21 21 24 biên
◦ Bin 3: 25 28 34 • Bin 1: 4 4 15
• Bin 2: 21 21 24
• Bin 3: 25 25 34
30
15
9/4/2020
Bài tập: Cho dữ liệu giá cả ($) 15, 17, 19, 25, 29, 31, 33, 41, 42,
45, 45, 47, 52, 52, 64
Tiến hành khử nhiễu theo trung vị, trung bình, biên và nhận
xét kết quả đạt được.
31
Dữ liệu nhiễu
32
16
9/4/2020
X1 x
33
Dữ liệu nhiễu
34
17
9/4/2020
35
Là quá trình trộn dữ liệu từ các nguồn khác nhau vào một
kho dữ liệu sẵn sàng cho quá trình khai thác.
Để đảm bảo tính tương đương của thông tin giữa các
nguồn khi tích hợp cần xem xét các vấn đề sau:
◦ Vấn đề nhận dạng thực thể
◦ Vấn đề dư thừa
◦ Vấn đề mâu thuẫn giá trị dữ liệu
36
18
9/4/2020
19
9/4/2020
𝑛 ∑ 𝐴𝐵 − (∑ 𝐴)(∑ 𝐵)
𝑟 , =
𝑛(∑ 𝐴 ) − ∑ 𝐴 𝑛(∑ 𝐵 ) − ∑ 𝐵
Ta có −1 ≤ 𝑟 , ≤1
39
20
9/4/2020
41
21
9/4/2020
ĐỐI TƯỢNG X Y XY X2 Y2
1 43 99 4257 1849 9801
2 21 65 1365 441 4225
3 25 79 1975 625 6241
4 42 75 3150 1764 5625
5 57 87 4959 3249 7569
6 59 81 4779 3481 6561
Tổng 247 486 20485 11409 40022
43
6𝑥20485 − 247𝑥486
𝑟 , =
6𝑥11409 − 61009 𝑥 6𝑥40022 − 236196
= 0,209
44
22
9/4/2020
Husband (x) 36 72 37 36 51 50 47 50 37 41
Wife (y) 35 67 33 35 50 46 47 42 36 41
45
23
9/4/2020
o −e
=
e
Trong đó:
o là tần xuất quan sát được (đếm) các trường hợp
(Ai, Bj)
e là tần xuất mong đợi được tính toán dựa trên phân
bố dữ liệu của hai thuộc tính Ai, Bj theo công thức
48
24
9/4/2020
count A = a × count B = b
e =
N
49
◦ Nếu giá trị tính toán được lớn hơn hay bằng giá trị tra
bảng thì giả thuyết hai thuộc tính A và B độc lập nhau
bị bác bỏ.
50
25
9/4/2020
Như vậy ở đây có hai thuộc tính “giới tính” và “sở thích
đọc”
51
Số lần xuất hiện các trường hợp cho trong bảng sau
Nam Nữ Tổng
Hư cấu 250 200 450
Viễn tưởng 50 1000 1050
Tổng 300 1200 1500
52
26
9/4/2020
Tính:
53
Nam Nữ Tổng
Hư cấu 250 (90) 200 (360) 450
Viễn tưởng 50 (210) 1000 (840) 1050
Tổng 300 1200 1500
= + + +
= 507.93
54
27
9/4/2020
55
56
28
9/4/2020
◦ Bài tập: phân tích sự tương quan của bảng số liệu sau
với giả thuyết thuộc tính A độc lập thuộc tính B là 𝛼 =
5% bằng chi – bình phương.
A B
T/c 1 6 6
T/c 2 14 15
T/c 3 4 3
57
◦ Cùng một thực thể, các giá trị thuộc tính đến từ các nguồn
khác nhau có thể khác nhau về cách biểu diễn hay mã hóa.
◦ Ví dụ:
29
9/4/2020
◦ Quá trình biến đổi hay kết hợp dữ liệu vào những dạng
thích hợp cho quá trình khai phá dữ liệu
59
◦ Một thuộc tính được chuẩn hóa bằng cách ánh xạ một cách
có tỉ lệ dữ liệu về một khoảng xác định ví dụ như 0.0 đến
1.0.
60
30
9/4/2020
◦ Giả sử rằng minA và maxA là giá trị tối thiểu và tối đa của thuộc
tính A. Chuẩn hóa min-max sẽ ánh xạ giá trị v của thuộc tính A
thành v’ trong khoảng [new_minA, new_maxA]
61
. .
◦v = 1.0 − 0 + 0 = 0.716
. .
62
31
9/4/2020
◦ Một giá trị v của thuộc tính A được ánh xạ thành v’ như sau:
v =
63
= = 1.1875
64
32
9/4/2020
◦ Trong đó j là giá trị nguyên nhỏ nhất để thỏa mãn max(|v’|) < 1
65
66
33
9/4/2020
◦ Nén dữ liệu
◦ Giảm số lượng
67
Sum()
68
34
9/4/2020
◦ Chỉ chọn những thuộc tính phù hợp cho bài toán
phân tích cụ thể.
69
70
35
9/4/2020
◦ Kết hợp giữa phương pháp loại bớt và lựa chọn tăng dần bằng
cách tại mỗi bước ngoài việc lựa chọn thêm các thuộc tính tốt nhất
đưa vào tập thì cũng đồng thời loại bỏ đi các thuộc tính tồi nhất
khỏi tập đang xét.
◦ Cây quyết định: Cây được xây dựng từ nguồn dữ liệu ban đầu. Tất
cả thuộc tính không xuất hiện trên cây được coi là không hữu ích.
71
Tập thuộc tính ban đầu Tậpthuộc tính ban đầu Tậpthuộc tính ban đầu
{A1, A2, A3, A4, A5, A6} {A1, A2, A3, A4, A5, A6} {A1, A2, A3, A4, A5, A6}
Tập rút gọn ban đầu => Kết quả {A1, A4, A6}
{} => {A1, A3, A4, A5, A6}
=> {A1} => {A1, A4, A5, A6}
=> {A1, A4} => Kết quả {A1, A4, A6}
=> Kết quả {A1, A4, A6}
72
36
9/4/2020
73
Y = {1.17, 2.59, 3.38, 4.23, 2.67, 1.73, 2.53, 3.28, 3.44}. Sau đó biểu
diễn tập thu được với các độ chính xác:
◦ 0.1
◦ 1.
74
37
9/4/2020
Nếu miền xác định của tất cả các thuộc tính là [0, 1, 2], hãy xác định
các giá trị bị thiếu biết rằng các giá trị đó có thể là một trong số các xác
trị của miền xác định? Hãy giải thích những cái được và mất nếu rút
gọn chiều của kho dữ liệu lớn trong quá trình tiền xử lý dữ liệu?
75
38