Professional Documents
Culture Documents
Báo cáo trí tuệ nhân tạo thực hành
Báo cáo trí tuệ nhân tạo thực hành
ĐỒ ÁN THỰC HÀNH
2
PHẦN 1: CHẠY TAY CÂY QUYẾT ĐỊNH
STT Sepal Sepal Petal Petal Class
length width length width
1 5.1 3.5 1.4 0.2 Iis-setosa
2 4.9 3 1.4 0.2 Iis-setosa
3 4.7 3.2 1.3 0.2 Iis-setosa
4 4.6 3.1 1.5 0.2 Iis-setosa
5 5 3.6 1.4 0.2 Iis-setosa
6 7 3.2 4.7 1.4 Iris-Versicolor
7 6.4 3.2 4.5 1.5 Iris-Versicolor
8 6.9 3.1 4.9 1.5 Iris-Versicolor
9 5.5 2.3 4 1.3 Iris-Versicolor
10 6.4 2.8 5.6 2.2 Iris-Virginica
11 6.3 2.8 5.1 1.5 Iris-Virginica
12 6.1 2.6 5.6 1.4 Iris-Virginica
13 7.7 3 6.1 2.3 Iris-Virginica
14 6.3 3.4 5.6 2.4 Iris-Virginica
15 6.7 3.3 5.7 2.5 Iris-Virginica
16 6.7 3 5.2 2.3 Iris-Virginica
17 6.3 2.5 5 1.9 Iris-Virginica
18 6.5 3 5.2 2 Iris-Virginica
19 6.2 3.4 5.4 2.3 Iris-Virginica
20 5.9 3 5.1 1.8 Iris-Virginica
Bảng dữ liệu
Chuẩn hoá thuộc tính liên tục thành dữ liệu rời rạc:
3
Giá trị thuộc tính
Setosa Versicolor Virginica
(Petal width)
(-, 0.967] 5 0 0
(0.967, 1.733] 0 4 2
(1.733, +) 0 0 9
ĐỘ ĐO (INFORMATION GAIN):
Công thức chung:
4
Gain(S, Petal length):
SPetal length = [Se, Ve, Vi] Entropy
(-, 2.9] [5, 0, 0] 0
(2.9, 4.5] [0, 2, 0] 0
(4.5, +) [0, 2,11] 0.619
5
Tương tự như vậy, ta có thể tiến hành triển khai các nút ở bước tiếp theo:
Petal width (S(-, 0.967]) S = [5, 0, 0] Entropy = 0
STT Sepal length Sepal width Petal length Petal width Class
1 5.1 3.5 1.4 0.2 Iris-Setosa
2 4.9 3 1.4 0.2 Iris-Setosa
3 4.7 3.2 1.3 0.2 Iris-Setosa
4 4.6 3.1 1.5 0.2 Iris-Setosa
5 5 3.6 1.4 0.2 Iris-Setosa
Nhận xét: Vì các thuộc tính Sepal length, Sepal width và Petal length đều nhận duy nhất
Class Iris-Setosa trong quá trình khai triển nên với Petal width (S(-, 0.967]) nhận kết quả trả về
là Iris-Setosa
6
Hình 2 : Khai triển cây theo thuộc tính "Iris Setosa"
Tương tự như vậy, ta có thể tiến hành triển khai các nút ở bước tiếp theo:
Petal width (S0.967,1,733]) S = [0, 4, 2] Entropy = 0,918
STT Sepal length Sepal width Petal length Petal width Class
6 7 3.2 4.7 1.4 Iris-Versicolor
7 6.4 3.2 4.5 1.5 Iris-Versicolor
8 6.9 3.1 4.9 1.5 Iris-Versicolor
9 5.5 2.3 4 1.3 Iris-Versicolor
11 6.3 2.8 5.1 1.5 Iris-Virginica
12 6.1 2.6 5.6 1.4 Iris-Virginica
Gain=0,918-3/6*0,918=0,46
Gain=0,918-2/6*1-2/6*1=0,25
Nhận xét: Từ đây ta thấy độ đo của S(2.7, 3.2] đối với thuộc tính "sepal length" là lớn
nhất. Như vậy ta có thể quyết định chọn "sepal length" làm thuộc tính tiếp theo để khai triển
cây.
Tương tự như vậy, ta có thể tiến hành triển khai các nút ở bước tiếp theo:
S
Sepal Sepal Petal Petal
T Class
length width length width
T
10 6.4 2.8 5.6 2.2 Iris-
8
Virginica
Iris-
13 7.7 3 6.1 2.3 Virginica
Iris-
14 6.3 3.4 5.6 2.4 Virginica
Iris-
15 6.7 3.3 5.7 2.5 Virginica
Iris-
16 6.7 3 5.2 2.3 Virginica
Iris-
17 6.3 2.5 5 1.9 Virginica
Iris-
18 6.5 3 5.2 2 Virginica
Iris-
19 6.2 3.4 5.4 2.3 Virginica
Iris-
20 5.9 3 5.1 1.8 Virginica
Nhận xét: Vì các thuộc tính Sepal length, Sepal width và Petal length đều nhận duy nhất
Class Iris- Virginica trong quá trình khai triển nên với Petal width (S(1,733, +U]) nhận kết quả trả
về là Iris-Virginica
9
Tương tự như vậy, ta có thể tiến hành triển khai các nút ở bước tiếp theo:
S
Sepal Sepal Petal Petal
T Class
length width length width
T
Iris-
9 5.5 2.3 4 1.3 Versicolor
Nhận xét: Vì các thuộc tính Sepal length nhận duy nhất Class Iris-Versicolor trong
quá trình khai triển nên với Sepal lenght : : (S(-u,5.63) nhận kết quả trả về là Iris-Versicolor
10
Iris-
10 6.4 2.8 5.6 2.2 Virginica
Iris-
11 6.3 2.8 5.1 1.5 Virginica
Iris-
12 6.1 2.6 5.6 1.4 Virginica
Iris-
14 6.3 3.4 5.6 2.4 Virginica
Iris-
15 6.7 3.3 5.7 2.5 Virginica
Iris-
16 6.7 3 5.2 2.3 Virginica
Iris-
17 6.3 2.5 5 1.9 Virginica
Iris-
18 6.5 3 5.2 2 Virginica
Iris-
19 6.2 3.4 5.4 2.3 Virginica
Iris-
20 5.9 3 5.1 1.8 Virginica
nhận xét: Vì các thuộc tính Sepal length nhận duy nhất Class Sepal width trong
quá trình khai triển nên với Sepal lenght : (S(5.6,6.7]) nhận kết quả trả về là Sepal width
Hình 5 : Khai triển cây theo thuộc tính " sepal width “
11
§ Sepal length: (S(6.667,+u)) S = [0, 2, 0] Entropy = 0,97
S
Sepal Sepal Petal Petal
T Class
length width length width
T
Iris-
6 7 3.2 4.7 1.4 Versicolor
Iris-
8 6.9 3.1 4.9 1.5 Versicolor
Nhận xét: Vì các thuộc tính Sepal length nhận duy nhất Class Iris-Versicolor trong
quá trình khai triển nên với Sepal lenght : (S(6.667,+u)) nhận kết quả trả về là Iris-Versicolor
S
Sepal Sepal Petal Petal
T Class
length width length width
T
Iris-
12 6.1 2.6 5.6 1.4 Virginica
Nhận xét: Vì các thuộc tính Sepal width nhận duy nhất Class Iris-Vinginica tron
quá trình khai triển nên với Sepal width: (S(-u,2.7)) nhận kết quả trả về là Iris-Vinginica
12
Hình 7 : Khai triển cây theo thuộc tính " Iris-Vinginica “
S
Sepal Sepal Petal Petal
T Class
length width length width
T
Iris-
11 6.3 2.8 5.1 1.5 Virginica
Nhận xét: Vì các thuộc tính Sepal width nhận duy nhất Class Iris-Vinginica tron
quá trình khai triển nên với Sepal width: : (S(2.7,3.2]) nhận kết quả trả về là Iris-Vinginica
13
Hình 8 : Khai triển cây theo thuộc tính " Iris-Vinginica “
S
Sepal Sepal Petal Petal
T Class
length width length width
T
Iris-
7 6.4 3.2 4.5 1.5 Versicolor
Nhận xét: Vì các thuộc tính Sepal width nhận duy nhất Class Iris-Versicolor tron
quá trình khai triển nên với Sepal width: : : (S(3.167,+u]) nhận kết quả trả về là Iris-Versicolor
14
Hình 9 : Khai triển cây theo thuộc tính " Iris-Versicolor “
15
PHẦN 2: CHẠY CÂY QUYẾT ĐỊNH TRÊN WEKA
1. Nội dung File *arff:
2. Thực nghiệm cây quyết định: Chọn thuật toán ID3, Vẽ lại cây quyết định:
a. Kết quả chạy thuật toán ID3 trên Weka:
16
b. Vẽ cây quyết định:
3. Test cây đã tạo sử dụng cross-validation (=20) . Hãy cho biết tỉ lệ chính xác của bộ phân lớp, số
mẫu phân lớp đúng/ sai/ không phân lớp được. Diễn giải lại phân bố dữ liệu thông tin từ
Confusion Matrix. (Chụp ảnh màn hình )
17
Trong đó
Correctly Classified Instances 14 70 % // Là tỷ lệ % độ chính xác của Phân lớp
Incorrectly Classified Instances 4 20 % // Là tỷ lệ % độ không chính xác của Phân lớp
Kappa statistic 0.625
Mean absolute error 0.1481 // Là tỷ lệ % lỗi tuyệt đối của Phân lớp
Root mean squared error 0.3849
Relative absolute error 38.8889 % // Lỗi tương đối tuyệt đối
Root relative squared error 86.7077 %
UnClassified Instances 2 20% // Là tỷ lệ % không Phân lớp được
Total Number of Instances 20 // Tổng số thuộc tính đã được phân lớp
18
Ý nghĩa: Tổng cộng có 20 trường hợp phân lớp được trong đó có 14 phân lớp đúng
và 4 phân lớp sai và 2 trường hợp không phân lớp được.
- Trong 14 trường hợp phân lớp đúng thì:
+ Có 5 trường là hợp hoa Iris Setosa
+ Có 1 trường hợp là hoa Iris Versicolor
+ Có 8 trường hợp là hoa Iris Virginica
- Trong 4 trường hợp phân lớp sai thì:
+ Có 3 trường hợp là hoa Iris Versicolor
+ Có 1 trường hợp là hoa Iris Virginica
- Còn 2 trường hợp không phân lớp được là của hoa Iris Virginica
19