You are on page 1of 15

Sử

dụng weka để phân cụm dữ liệu:

- Cài đặt weka download từ link: https://filehippo.com/download_weka/

- Chạy weka:


Các chức năng chính của weka:

+ Chức năng explorer

- Tiền xử lý dữ liệu

- Phân lớp

- Phân cụm

- Khai phá luật kết hợp

- Lựa chọn thuộc tính

- Trực quan hóa



+ Chức năng Experimenter:

- Thiết kế các thí nghiệm

- Lựa chọn thuật toán và tập dữ liệu

- Chạy thí nghiệm

- Phân tích kết quả (so sánh các kết quả,…)



+ Chức năng KnowlegeFlow:

- Thiết kế quá trình khai phá dữ liệu 1 cách trực quan

- Từ xử lý dữ liệu -> chạy mô hình -> trình bày kết quả



+ Chức năng Workbench:

- Tổng hợp các chức năng ở trên vào trong một ứng dụng

- Cung cấp cho người sử dụng công cụ mạnh để khai phá dữ liệu


+ Chức năng Simple CLI:
- Cho phép người dùng tương tác với WEKA bằng cách gõ lệnh


Tập tin xử lý chính của weka dạng ARFF:

- Mô tả đối tượng trong không gian n- chiều

- Tập tin ARFF có phần header

- Tập tin ARFF có phần data

- Các kiểu dữ liệu

- Là một văn bản theo bảng mã ASCII

- Mô tả các đối tượng có cùng chung tập thuộc tính

- Được sử dụng làm định dang chuẩn cho dữ liệu được dùng bới các mô hình của weka

Người dùng có thể đọc các loại tập tin đầu vào khác như: csv, xls,…

Các bước xử lý bài toán phân cụm:

Bước 1: Chọn chức năng explorer



Bước 2: Đọc dữ liệu từ Preprocess

- Đọc dữ liệu từ file: open file

- Đọc dữ liệu từ địa chỉ URL: open URL

- Đọc dữ liệu từ 1 CSDL: open DB

- Đọc dữ liệu phát sinh (phát sinh dữ liệu từ các bộ phát sinh dữ liệu DataGenerators): Generators

Chọn đọc dữ liệu là open file, sau đó chọn đường dẫn đến nơi chứa file, chọn kiểu file cần mở.

Bước 3: Chỉnh sửa dữ liệu, chọn Edit

- Edit: biểu diễn dữ liệu dưới dạng bảng.

- Nhấn chuột phải ra các chức năng weka hỗ trợ tiền xử lý dữ liệu: thay đổi tên thuộc tính, thay đổi
giá trị thuộc tính, chọn thuộc tính làm nhãn,….

Bước 4: Chọn Cluster



Bước 5: Chọn thuật toán sử dụng: choose

Chọn SimpleKmean

Bước 6: thay đổi các tham số của thuật toán (nhấn chuột vào thuật toán, chọn số cụm)

Bước 7: Chọn mode để test:

- Use training set: toàn bộ tập training dùng để test.

- Supplied test set: chọn 1 tập tin để test.

- Precentage split: chọn theo tỷ lyệ của tập training.

- Classes to clusters visualization: đánh giá theo thuộc tính phân lớp

Bước 8: kết quả đầu ra


- Nếu chọn Use training set (số cụm là 5)


- Classes to clusters visualization: đánh giá theo thuộc tính phân lớp (số cụm là 5 = số nhãn của thuộc
tính gán nhãn)


Bộ dữ liệu FIMS1: Dự báo delay

Mô tả dữ liệu: gồm 16 thuộc tính, 31793 bản ghi:

STT Tên thuộc tính Diễn giải

1 LEG_NO ID chuyến bay (Netlines)

2 CAUSE N/A (blank)

3 FIGHT_TYPE Loại chuyến bay( QT ,QN)

4 SDEP Điểm xuất phát

5 SARR Điếm đến theo lịch

6 AARR Điểm đến thực tế

7 STD Thời gian khởi hành theo lịch

8 STA Thời gian đến theo lịch

9 ETD ETD: thời gian khởi hành dự kiến

10 ETA ETA: thời gian đến dự kiến

11 OUT_TIME Thời điểm rút chèn

12 OFF_TIME Thời điểm cất cánh

13 ON_TIME Thời điểm hạ cánh

14 IN_TIME Thời điểm đóng chèn

15 DELAY_TIME Thời gian chậm chuyến

16 DELAY_CODE Mã chậm chuyến


DELAY_GROUP Nhóm chậm chuyến
17

Chọn thuộc tính gán nhãn là DELAY_Group (có 11 nhóm chậm chuyến khác nhau với độ delay khác
nhau)

Chọn Cluster: SimpleKmeans: việc sử dụng toàn bộ dữ liệu, với số cụm là 11, kết quả thu được như
sau:

Chọn Cluster: SimpleKmeans: với số cụm là 11 tương ứng với thuộc tính gán lớp, kết quả thu được
như sau:


Chọn phân cum với thuật toán EM:

You might also like