You are on page 1of 40

Phân Loại Dữ Liệu

Hà Lê Hoài Trung

4/20/2021 1
Nội Dung
1. Tổng quan về phân lớp dữ liệu
2. Cây quyết định
3. Mạng Bayesian
4. Mạng Neura

4/20/2021 2
Mạng Bayesian
• Đặt vấn đề
• Thuật toán Bayes
• Nhận xét

4/20/2021 3
Đặt vấn đề
• Phân loại dựa trên xác suất
• Áp dụng định lý Bayes (1763)
 Thomas Bayes (1702-1761)
 Học từ dữ liệu để dự đoán xác suất phân lớp cho một mẫu dữ liệu mới

4/20/2021 4
Thuật toán Bayes
• Một số khái niệm:
 X: một mẫu (đối tượng), thuộc về một phân lớp C
 C: phân lớp (ví dụ phân lớp là Yes hay No)

4/20/2021 5
Thuật toán Bayes
Outlook Temperature Humidity Wind Play ball
Sunny Hot High Weak No
Sunny Hot High Strong No
Overcast Hot High Weak Yes
Rainy Mild High Weak Yes
Rainy Cool Normal Weak Yes
Rainy Cool Normal Strong No
Overcast Cool Normal Strong Yes
Sunny Mild High Weak No
Sunny Cool Normal Weak Yes
Rainy Mild Normal Weak Yes
Sunny Mild Normal Strong Yes
Overcast Mild High Strong Yes
Overcast Hot Normal Weak Yes
4/20/2021 Rainy Mild High Strong No 6
Thuật toán Bayes
• Một số khái niệm:
 P(C): prior probability
oXác suất của H trên tập dữ liệu
oP(Playball=Yes) = 9/14
oP(Playball=No) = 5/14
 P(X): prior probability
oXác suất của X trên tập dữ liệu
oP(Outlook=Sunny) = 5/14

4/20/2021 7
Thuật toán Bayes
• Một số khái niệm:
 P(C|X): posterior probability (xác xuất/thông tin hậu định)
o Xác suất có điều kiện của H đối với X
o P(Playball=Yes | Outlook=sunny, wind=weak): xác suất đi chơi bóng
của người chơi khi outlook=sunny và wind =weak
 P(X|C): posterior probability
o Xác suất có điều kiện của X đối với H
o P(Outlook=sunny, wind=weak | Playball=Yes) =1/9: xác suất người
chơi đi chơi bóng khi outlook=sunny và wind =weak

4/20/2021 8
Thuật toán Bayes
• Công thức Bayes:
𝑃 𝑋 𝐶) 𝑃 (𝐶)
𝑃 𝐶 𝑋) =
𝑃 (𝑋)

• Với: P(X|C), P(C) và P(X) được tính từ dữ liệu


 Phân lớp của mẫu X sao cho P(C|X) lớn nhất

4/20/2021 9
Thuật toán Bayes
• Công thức Bayes:
𝑃 𝑋 𝐶) 𝑃 (𝐶)
𝑃 𝐶 𝑋) =
𝑃 (𝑋)

• P(X|C) được tính theo tính chất độc lập điều kiện. Giả sử X=(x1,
x2,…, xk)
P(x1,…,xk|C) = P(x1|C)·…·P(xk|C)

4/20/2021 10
Thuật toán Bayes – Ví dụ
Outlook Temperature Humidity Wind Play ball
Sunny Hot High Weak No
Sunny Hot High Strong No
Overcast Hot High Weak Yes
Rainy Mild High Weak Yes
Rainy Cool Normal Weak Yes
Rainy Cool Normal Strong No
Overcast Cool Normal Strong Yes
Sunny Mild High Weak No
Sunny Cool Normal Weak Yes
Rainy Mild Normal Weak Yes
Sunny Mild Normal Strong Yes
Overcast Mild High Strong Yes
Overcast Hot Normal Weak Yes
Rainy Mild High Strong No
4/20/2021 11
Thuật toán Bayes – Ví dụ
• Phân lớp mẫu X=(Outlook=Rainy, Temp=Cool, Humidity=Normal,
Wind=Weak)
• Cần tính
1. P(Play=Yes) *P(X|Play=Yes) = P(Play=Yes) * P(Outlook=Rainy|Play=Yes)
*P(Temp=Cool|Play=Yes) * P(Humidity=Normal|Play=Yes) *
P(Wind=Weak|Play=Yes)
2. P(Play=No) *P(X|Play=No) = P(Play=No) *
P(Outlook=Rainy|Play=No) * P(Temp=Cool|Play=No) *
P(Humidity=Normal|Play=No)* P(Wind=Weak|Play=No)

4/20/2021 12
Thuật toán Bayes – Ví dụ
1. P(Play=Yes) = 9/14
2. P(Play=No) = 5/14
3. P(Outlook=Rainy|Play=Yes) = 3/9
4. P(Outlook=Rainy|Play=No) = 2/5

4/20/2021 13
Bài tập nhóm
• Phân nhóm 2-4 sinh viên.
• Thời gian: 5 phút.
• Tính:
1. P(Temp=Cool|Play=Yes) =
2. P(Temp=Cool|Play=No) =
3. P(Humidity=Normal|Play=Yes) =
4. P(Humidity=Normal|Play=No) =
5. P(Wind=Weak|Play=Yes) =
6. P(Wind=Weak|Play=No) =

4/20/2021 14
Bài tập nhóm
• Phân nhóm 2-4 sinh viên.
• Thời gian: 5 phút.
• Tính:
1. P(Temp=Cool|Play=Yes) = 3/9
2. P(Temp=Cool|Play=No) = 1/5
3. P(Humidity=Normal|Play=Yes) = 6/9
4. P(Humidity=Normal|Play=No) = 1/5
5. P(Wind=Weak|Play=Yes) = 6/9
6. P(Wind=Weak|Play=No) = 2/5

4/20/2021 15
Thuật toán Bayes – Ví dụ
• Phân lớp mẫu X=(Outlook=Rainy, Temp=Cool,
Humidity=Normal, Wind=Weak)
• Cần tính
1. P(Play=Yes) *P(X|Play=Yes) = (9/14) * (3/9) * (3/9) * (6/9) * (6/9) =
0.032
2. P(Play=No) *P(X|Play=No) = (5/14) * (2/5) * (1/5) * (1/5) * (2/5) =
0.002
• Vậy mẫu X=(Outlook=Rainy, Temp=Cool, Humidity=Normal,
Wind=Weak) thuộc phân lớp Play = Yes
4/20/2021 16
Bài tập nhóm
• Phân nhóm 2-4 sinh viên.
• Thời gian: 5 phút.
• Phân lớp cho mẫu sau:
X=(Outlook=Sunny, Temp=Hot, Humidity=Normal, Wind=Strong)

4/20/2021 17
Thuật toán Bayes – Nhận xét công thức
• Phân lớp mẫu X=(Outlook=Rainy, Temp=Cool, Humidity=Normal,
Wind=Weak)
P(X|Play=Yes)=
P(Outlook=Rainy|Play=Yes) * P(Temp=Cool|Play=Yes) *
P(Humidity=Normal|Play=Yes) * P(Wind=Weak|Play=Yes)
= (3/9) * (3/9) * (6/9) * (6/9) = 0.032

4/20/2021 18
Thuật toán Bayes – Làm trơn Laplace
• Để tránh trường hợp P(Xk|Ci)=0, áp dụng công thức Laplace
• P(Ci)=(|Ci,D|+1)/(|D|+m)
• P(Xk|Ci)=(# Ci,D {xk}+1)/(|Ci,D|+r)
Với
• m: số phân lớp
• r: số giá trị rời rạc của thuộc tính

4/20/2021 19
Thuật toán Bayes – Làm trơn Laplace
Outlook Temperature Humidity Wind Play ball
Sunny Hot High Weak No
Sunny Hot High Strong No
Overcast Hot High Weak Yes
Rainy Mild High Weak Yes
Rainy Cool Normal Weak Yes
Rainy Cool Normal Strong No
Overcast Cool Normal Strong Yes
Sunny Mild High Weak No
Sunny Cool Normal Weak Yes
Rainy Mild Normal Weak Yes
Sunny Mild Normal Strong Yes
Overcast Mild High Strong Yes
Overcast Hot Normal Weak Yes
Rainy Mild High Strong No
4/20/2021 20
Thuật toán Bayes – Làm trơn Laplace
• Áp dụng công thức làm trơn Laplace, phân lớp mẫu
X=(Outlook=Overcast, Temp=Cool, Humidity=High,
Wind=Strong)
1. P(Play=Yes) = (9+1)/(14+2) = 10/16
2. P(Play=No) = (5+1)/(14+2) = 6/16
3. P(Outlook=Overcast|Play=Yes)=(4+1)/(9+3)=5/12
4. P(Outlook=Overcast|Play=No) = 1/8

4/20/2021 21
Bài tập về nhà
• Áp dụng công thức làm trơn Laplace, phân lớp mẫu
X=(Outlook=Overcast, Temp=Cool, Humidity=High,
Wind=Strong)
• Áp dụng công thức tính các giá trị còn lại.
• X thuộc phân lớp Yes hay No?

4/20/2021 22
Nhận xét
• Ưu điểm
 Dễ cài đặt
 Cơ sở lý thuyết rõ ràng
 Kết quả tốt cho nhiều trường hợp
• Hạn chế
 Giả thiết rằng các thuộc tính là độc lập  thực tế thường có liên quan
với nhau.

4/20/2021 23
Mạng Neural
• Đặt vấn đề
• Mạng Neural

4/20/2021 24
Mạng Neural
• Nervous system

4/20/2021 25
Mạng Neural
• Neural

4/20/2021 26
Đặt vấn đề

4/20/2021 27
Mạng Neural
• Artificial Neuron Model
McCulloch-Pitts neuron (1943)
oTrọng số (weights) Wij
oNet input 𝑛𝑒𝑡𝑖 = 𝑗 𝑤𝑖𝑗 𝑥𝑗
oActivation function f

4/20/2021 28
Mạng Neural
• Artificial Neuron Model
 Các hàm kích hoạt (Activation functions)

4/20/2021 29
Mạng Neural
• Artificial Neuron Model
• Các hàm kích hoạt (Activation functions)

4/20/2021 30
Mạng Neural
• Artificial Neuron Model
Mạng neural đa tầng

4/20/2021 31
Mạng Neural
• Ưu điểm
 Độ chính xác cao
 Output đa dạng: giá trị rời rạc, giá trị thực hoặc vector
• Hạn chế
 Thời gian học lâu
 Thuật toán khó giải thích

4/20/2021 32
NỘI DUNG
1. Tổng quan về phân lớp dữ liệu
2. Cây quyết định
3. Mạng Bayesian
4. Mạng Neural

4/20/2021 33
4/20/2021 34
Tài liệu tham khảo
1. Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2012.
2. Đỗ Phúc, Slide Bài giảng Khai thác dữ liệu, ĐHQG TPHCM.
3. Khoa Khoa học và Kỹ thuật máy tính, Bài giảng Khai phá dữ
liệu, Trường Đại học Bách khoa Tp. Hồ Chí Minh, 2019.
4. Hồ Tú Bảo, Introduction to knowledge discovery and data mining,
IOIT, 2001.
5. Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining
Concepts and Techniques, 3 edition, Morgan Kaufmann
Publishers, 2011.
6. X. Wu, V. Kumar, J. Ross Quinlan, Top 10 Algorithms in Data
Mining, Chapman & Hall/CRC, Taylor & Francis Group, LLC, 2009.
7. Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006
4/20/2021 35
Ví dụ (ID 3)
Day Outlook Temperature Humidity Wind Play ball
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rainy Mild High Weak Yes
D5 Rainy Cool Normal Weak Yes
D6 Rainy Cool Normal Strong No
D7 Overcast Cool Normal Strong Yes
D8 Sunny Mild High Weak No
D9 Sunny Cool Normal Weak Yes
D10 Rainy Mild Normal Weak Yes
D11 Sunny Mild Normal Strong Yes
D12 Overcast Mild High Strong Yes
D13 Overcast Hot Normal Weak Yes
D14 Rainy Mild High Strong No
4/20/2021 36
Ví dụ (ID 3)
Day Outlook Temperature Humidity Wind Play ball
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rainy Mild High Weak Yes
D5 Rainy Cool Normal Weak Yes
D6 Rainy Cool Normal Strong No
D7 Overcast Cool Normal Strong Yes
D8 Sunny Mild High Weak No
D9 Sunny Cool Normal Weak Yes
D10 Rainy Mild Normal Weak Yes
D11 Sunny Mild Normal Strong Yes
D12 Overcast Mild High Strong Yes
D13 Overcast Hot Normal Weak Yes
4/20/2021 D14 Rainy Mild High Strong No 37
4/20/2021 38
4/20/2021 39
4/20/2021 40

You might also like