Professional Documents
Culture Documents
- Chạy weka:
Các chức năng chính của weka:
- Tiền xử lý dữ liệu
- Phân lớp
- Phân cụm
- Tổng hợp các chức năng ở trên vào trong một ứng dụng
- Cung cấp cho người sử dụng công cụ mạnh để khai phá dữ liệu
+ Chức năng Simple CLI:
- Cho phép người dùng tương tác với WEKA bằng cách gõ lệnh
Tập tin xử lý chính của weka dạng ARFF:
- Được sử dụng làm định dang chuẩn cho dữ liệu được dùng bới các mô hình của weka
Người dùng có thể đọc các loại tập tin đầu vào khác như: csv, xls,…
- Đọc dữ liệu phát sinh (phát sinh dữ liệu từ các bộ phát sinh dữ liệu DataGenerators): Generators
Chọn đọc dữ liệu là open file, sau đó chọn đường dẫn đến nơi chứa file, chọn kiểu file cần mở.
- Nhấn chuột phải ra các chức năng weka hỗ trợ tiền xử lý dữ liệu: thay đổi tên thuộc tính, thay đổi
giá trị thuộc tính, chọn thuộc tính làm nhãn,….
Bước 6: thay đổi các tham số của thuật toán (nhấn chuột vào thuật toán, chọn số cụm)
Bước 7: Chọn mode để test:
- Classes to clusters visualization: đánh giá theo thuộc tính phân lớp
- Classes to clusters visualization: đánh giá theo thuộc tính phân lớp (số cụm là 5 = số nhãn của thuộc
tính gán nhãn)
Bộ dữ liệu FIMS1: Dự báo delay
Chọn thuộc tính gán nhãn là DELAY_Group (có 11 nhóm chậm chuyến khác nhau với độ delay khác
nhau)
Chọn Cluster: SimpleKmeans: việc sử dụng toàn bộ dữ liệu, với số cụm là 11, kết quả thu được như
sau:
Chọn Cluster: SimpleKmeans: với số cụm là 11 tương ứng với thuộc tính gán lớp, kết quả thu được
như sau:
Chọn phân cum với thuật toán EM: