Thuc Hanh 1

THỰC HÀNH KHAI PHÁ DỮ LIỆU
Bài 1. Thực hành trên weka

Giáo viên: TS. Trần Mạnh Tuấn
Bộ môn: Hệ thống thông tin
Khoa: Công nghệ thông tin
Email: tmtuan@tlu.edu.vn
Điện thoai: 0983.668.841
1
Nội dung
1 ➢ Giới thiệu về weka
2 Tiền xử lý dữ liệu trên weka
3 ➢ KPDL trên weka
2
➢ GIỚI THIỆU VỀ WEKA
✓Giao diện weka 3.9.5:

Chức năng explorer chính của weka, thao tác cơ bản:

✓ Tiền xử lý dữ liệu
✓ Phân lớp
✓ Phân cụm
✓ Khai phá luật kết hợp
✓ Lựa chọn thuộc tính
✓ Trực quan hóa
Chức năng Experimenter:

✓ Thiết kế các thí nghiệm
✓ Lựa chọn thuật toán và tập dữ liệu
✓ Chạy thí nghiệm
✓ Phân tích kết quả (so sánh các kết quả,…)
Chức năng KnowlegeFlow:

✓ Thiết kế quá trình khai phá dữ liệu 1 cách trực quan
✓ Từ xử lý dữ liệu -> chạy mô hình -> trình bày kết quả
Chức năng Workbench:

✓ Tổng hợp các chức năng ở trên vào trong một ứng dụng
✓ Cung cấp cho người sử dụng công cụ mạnh để khai phá dữ
liệu
Chức năng Simple CLI:

✓ Cho phép người dùng tương tác với WEKA bằng cách gõ
lệnh
➢ Tiền xử lý dữ liệu trên weka
Tập tin ARFF:

✓ Mô tả đối tượng trong không gian n- chiều
✓ Tập tin ARFF có phần header
✓ Tập tin ARFF có phần data
✓ Các kiểu dữ liệu
Tập tin ARFF:

✓ Là một văn bản theo bảng mã ASCII
✓ Mô tả các đối tượng có cùng chung tập thuộc tính
✓ Được sử dụng làm định dang chuẩn cho dữ liệu được dùng
bới các mô hình của weka
Tập tin ARFF:

➢Đọc dữ liệu dưới nhiều hình thức

➢Hiệu chỉnh dữ liệu
➢Biểu diễn thông tin về tập dữ liệu
➢Lưu trữ dữ liệu
➢Đọc dữ liệu từ file: open file

➢Đọc dữ liệu từ địa chỉ URL: open URL
➢Đọc dữ liệu từ 1 CSDL: open DB
➢Đọc dữ liệu phát sinh (phát sinh dữ liệu từ các bộ
phát sinh dữ liệu DataGenerators): Generators
➢Edit: biểu diễn dữ liệu dưới dạng bảng.

➢Nhấn chuột phải ra các chức năng weka hỗ trợ
tiền xử lý dữ liệu.
➢Các thao tác trên dữ liệu:

➢Các thao tác trên dữ liệu:

➢Lọc dữ liệu:
➢ Biểu diễn thông tin về tập dữ liệu:

➢ Cung cấp thông tin về tập dữ liệu (Curent relation): tên quan
hệ, số mẫu, số thuộc tính
➢ Danh sách các thuộc tính (Attribute): danh sách các thuộc tính
có thứ tự
➢ Thông tin về 1 thuộc tính chọn (selected attribute): tên thuộc
tính, tỉ lệ thiếu, loại dữ liệu, các giá trị và số lần xuất hiện
➢ Biểu diễn trực quan từng thuộc tính (class)
➢ Người dùng có thể sử dụng các chức năng của Preprocessing để

điều chỉnh từng giá trị của thuộc tính
➢ Convert từ file *.csv sang file *.arff
➢ Convert từ file *.txt sang file *.arff
➢ Thực hành trên bộ dữ liệu: tính các độ đo cho các trường
Giới thiệu về phân lớp dữ liệu
❖ Mục đích: để dự đoán những nhãn phân lớp cho các bộ

dữ liệu/mẫu mới
❖ Đầu vào: một tập các mẫu dữ liệu huấn luyện, với một
nhãn phân lớp cho mỗi mẫu dữ liệu
❖ Đầu ra: mô hình (bộ phân lớp) dựa trên tập huấn luyện
và những nhãn phân lớp
Các bước phân lớp dữ liệu

➢ Bước 1: Xây dựng mô hình từ tập huấn luyện:
✓ Mỗi bộ/mẫu dữ liệu được phân vào một lớp được xác định trước
✓ Lớp của một bộ/mẫu dữ liệu được xác định bởi thuộc tính gán nhãn lớp
✓ Tập các bộ/mẫu dữ liệu huấn luyện - tập huấn luyện tập huấn luyện được
dùng để xây dựng mô hình
✓ Mô hình được biểu diễn bởi các phương pháp phân lớp
➢ Bước 2: Sử dụng mô hình - kiểm tra tính đúng đắn của mô hình và
dùng nó để phân lớp dữ liệu mới:
✓ Phân lớp cho những đối tượng mới hoặc chưa được phân lớp
✓ Đánh giá độ chính xác của mô hình
▪ lớp biết trước của một mẫu/bộ dữ liệu đem kiểm tra được so sánh với kết
quả thu được từ mô hình
▪ tỉ lệ chính xác = phần trăm các mẫu/bộ dữ liệu được phân lớp đúng bởi
mô hình trong số các lần kiểm tra
Các mô hình phân lớp dữ liệu

➢ Cây quyết định
➢ Naïve Bayes
➢ Mô hình thống kê
➢ Mạng nơ ron
➢ Mô hình SVM
➢ Mô hình KNN
➢ Các mô hình khác
Phân lớp dữ liệu trên weka
❖ Là một chức năng của Explorer

❖ Hỗ trợ người dùng huấn luyện và kiểm
chứng các mô hình phân lớp cơ bản
Các bước thực hiện phân lớp dữ liệu
❖ Bước 1: tại tab Preprocess, chọn tập dữ liệu

và tiền xử lý dữ liệu
❖ Bước 2: Chọn thuật toán phân lớp và xác
định tham số
❖ Bước 3: Chọn kiểu test và tập dữ liệu test
(nếu cần)
❖ Bước 4: Tiến hành phân lớp dữ liệu
❖ Bước 5: Ghi nhận và phân tích kết quả
Chọn kiểu test phân lớp dữ liệu

❖ Sử dụng chính tập huấn luyện làm tập test:
use traning set
❖ Chỉ định tập test mới: supplied test set
❖ Chia tỉ lệ test theo k-folds: Cross validation
❖ Chia tỷ lệ phần trăm trên data: Precentage
split
❖ Các lựa chọn chỉnh sửa khác: more options
Kết quả phân lớp dữ liệu


❖ Classifier mode (full training set): cho biết mô hình
phân lớp dựa trên cả tập huấn luyện, cây quyết định,
thời gian chạy môn hình

❖ Tổng kết: số liệu thống kê cho biết độ chính xác của
bộ phân lớp, theo kiểu test cụ thể: Số mẫu
Kiểu test phân
lớp
đúng
Số mẫu
phân
lớp sai
Các thông số
khác

❖ Độ chính xác của từng phân lớp với các độ đo phân
lớp:

❖ Confusion Matrix: cho biết bao nhiễu mẫu được gán
vào từng lớp. Các phần tử của ma trận thể hiện số mẫu
test có lớp thật sự là dòng, lớp dự đoán là cột
Tổng hợp so sánh phân lớp dữ liệu

❖ Chạy trên cùng 1 bộ dữ liệu: Iris
❖ Phương pháp:
▪ Cây quyết định J48, RadomForest
▪ Naïve Bayes
▪ AdaBoostM1
▪ LWL
▪ Jrip
Giới thiệu về phân cụm dữ liệu
Phân cụm dữ liệu
❖ Phân cụm rõ: các điểm dữ liệu được chia vào các cụm, trong đó
mỗi điểm dữ liệu thuộc vào chính xác một cụm.
❖ Phân cụm mờ: các điểm dữ liệu có thể thuộc vào nhiều hơn một
cụm với độ thuộc tương ứng.
Phân cụm dữ liệu trên weka

chứng các mô hình phân cụm cơ bản
Các bước thực hiện phân lớp dữ liệu

và tiền xử lý dữ liệu
❖ Bước 2: Chọn thuật toán phân cụm và xác
định tham số
❖ Bước 3: Chọn tập phân cụm
❖ Bước 4: Tiến hành phân cụm dữ liệu
Tổng hợp so sánh phân cụm dữ liệu

❖ Chạy 1 bộ dữ liệu với các phương pháp phân cụm khác
nhau
❖ Chạy thuật toán K-mean với các bộ dữ liệu khác nhau
➢ Giới thiệu về luật kết hợp
Khai phá luật kết hợp:

– Tìm tần số mẫu, mối kết hợp, sự tương quan, hay
các cấu trúc nhân quả giữa các tập đối tượng trong
các cơ sở dữ liệu giao tác, cơ sở dữ liệu quan hệ, và
những kho thông tin khác.
Tính hiểu được: dễ hiểu
Tính sử dụng được: Cung cấp thông tin thiết
thực
Tính hiệu quả: Đã có những thuật toán khai
thác hiệu quả
Các ứng dụng:
– Phân tích bán hàng trong siêu thị, cross-marketing,
thiết kế catalog, loss-leader analysis, gom cụm, phân
lớp, ...
Çc kh¸i niÖm
Cho I = {I1 , I2 , . . . , Im } lµ tËp çc ®¬n vÞ dự liÖu. Cho D lµ tËp

çc giao t¸c, mçi giao t¸c T lµ tËp çc ®¬n vÞ d dữ liÖu sao cho
TI
đÞnh nghÜa 1: Ta gäi giao t¸c T chøa X, víi X lµ tËp çc ®¬n vÞ
dữ liÖu cña I, nÕu X  T
đÞnh nghÜa 2: Mét luËt kÕt hîp lµ mét phÐp suy diÔn cã d¹ng X
→ Y, trong ®ã X  I, Y  I vµ XY = 
đÞnh nghÜa 3: Ta gäi luËt X → Y cã møc x¸c nhËn(support) lµ s
trong tËp giao t¸c D, nÕu cã s% giao t¸c trong D chøa XY.
Ký hiÖu: Supp(X → Y) = s
ÑÞnh nghÜa 4:Ta gäi luËt X → Y lµ cã ®é tin cËy c (Confidence) trªn tËp
giao t¸c D,
Ký hiÖu: c= Conf(X → Y) = Supp(X →Y)/Supp(X)
NhËn xÐt: Çc x¸c nhËn vµ ®é tin cËy chÝnh lµ çc x¸c suÊt sau:
Supp(X → Y)= P(XY) : X¸c suÊt cña XY trong D
Conf(X → Y) = P(Y/X): X¸c suÊt cã ®iÒu kiÖn
ÑÞnh nghÜa 5: Cho tríc Min_Supp=s0 vµ Min_Conf=c0
Ta gäi luËt X → Y lµ xaû ra nÕu tháa:
Supp(X → Y) > s0 vµ Conf(X → Y)>c0
▪ Thuật toán Apriori

▪ Thuật toán FP-growth
Luật kết hợp trên weka

chứng các thuật toán luật kết hợp cơ bản
Các bước thực hiện luật kết hợp

và tiền xử lý dữ liệu: các trường dữ liệu dạng
Nominal. Nếu ở dạng khác thì dùng bộ lọc để
chuyển về: NumericToNominal
❖ Bước 2: Chọn thuật toán luật kết hợp và
tham số
❖ Bước 3: Tiến hành thực hiện thuật toán
Tổng hợp so sánh luật kết hợp
❖ Chạy 1 bộ dữ liệu với các phương pháp thuật toán khác

nhau
❖ Chạy thuật toán Apriori với các bộ dữ liệu khác nhau
Giới thiệu về Hồi quy dữ liệu
➢ Chủ yếu dùng để dự đoán đầu ra (định

lượng)
➢ Đầu vào và đầu ra có mối quan hệ dưới
dạng 1 hàm bậc nhất (tuyến tính):
Trong đó:
 là hệ số chặn;  là độ dốc (hệ số hồi quy)
i là một biến số theo luật phân phối
chuẩn
➢ Mô hình chỉ có 1 biến dùng để dự đoán biến

đích
➢ Dễ dàng xác định được đường thẳng “phù hợp
nhất”
➢ Trong mô hình:
Các hệ số  và  được xác định theo

phương pháp bình phương cực tiểu
Trao đổi, câu hỏi?
49

Thuc Hanh 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Thuc Hanh 1

Uploaded by

Copyright:

Available Formats

THỰC HÀNH KHAI PHÁ DỮ LIỆU

Bài 1. Thực hành trên weka

1 ➢ Giới thiệu về weka

2 Tiền xử lý dữ liệu trên weka

3 ➢ KPDL trên weka

✓Giao diện weka 3.9.5:

Chức năng explorer chính của weka, thao tác cơ bản:

Chức năng Experimenter:

Chức năng KnowlegeFlow:

Chức năng Workbench:

Chức năng Simple CLI:

Tập tin ARFF:

Tập tin ARFF:

Tập tin ARFF:

➢Đọc dữ liệu dưới nhiều hình thức

➢Đọc dữ liệu từ file: open file

➢Edit: biểu diễn dữ liệu dưới dạng bảng.

➢Các thao tác trên dữ liệu:

➢Các thao tác trên dữ liệu:

➢ Biểu diễn thông tin về tập dữ liệu:

➢ Người dùng có thể sử dụng các chức năng của Preprocessing để

❖ Mục đích: để dự đoán những nhãn phân lớp cho các bộ

Các bước phân lớp dữ liệu

Các mô hình phân lớp dữ liệu

Phân lớp dữ liệu trên weka

❖ Là một chức năng của Explorer

Các bước thực hiện phân lớp dữ liệu

❖ Bước 1: tại tab Preprocess, chọn tập dữ liệu

Chọn kiểu test phân lớp dữ liệu

Kết quả phân lớp dữ liệu

Kết quả phân lớp dữ liệu

Kết quả phân lớp dữ liệu

Kết quả phân lớp dữ liệu

Kết quả phân lớp dữ liệu

Tổng hợp so sánh phân lớp dữ liệu

Phân cụm dữ liệu

Phân cụm dữ liệu trên weka

❖ Là một chức năng của Explorer

Các bước thực hiện phân lớp dữ liệu

Tổng hợp so sánh phân cụm dữ liệu

Khai phá luật kết hợp:

C¸c kh¸i niÖm

Cho I = {I1 , I2 , . . . , Im } lµ tËp c¸c ®¬n vÞ dự liÖu. Cho D lµ tËp

▪ Thuật toán Apriori

Luật kết hợp trên weka

❖ Là một chức năng của Explorer

Các bước thực hiện luật kết hợp

❖ Bước 1: tại tab Preprocess, chọn tập dữ liệu

Tổng hợp so sánh luật kết hợp

❖ Chạy 1 bộ dữ liệu với các phương pháp thuật toán khác

➢ Chủ yếu dùng để dự đoán đầu ra (định

➢ Mô hình chỉ có 1 biến dùng để dự đoán biến

Các hệ số  và  được xác định theo

You might also like