You are on page 1of 19

PHƯƠNG PHÁP

KHAI THÁC DỮ LIỆU


THỰC HÀNH TRÊN ORANGE
FILE WIDGET

 Dùng để nạp dữ liệu từ các nguồn như .xlsx


(Excel), .txt, .csv
 Khi double-click vào biểu tượng File, ta sẽ mở dialog để
xem và tinh chỉnh định nghĩa của bảng dữ liệu: nạp file
dữ liệu ở đâu, thống kê sợ bộ số dòng, số cột dữ liệu,
danh sách tên các thuộc tính (tên, kiểu dữ liệu, chức
năng: feature, target, meta, skip) và mẫu dữ liệu quan
sát.
FILE WIDGET
FILE WIDGET

 Name: tên thuộc tính


 Kiểu dữ liệu: numeric, nominal, text, datetime
 Role: meta, target, skip, feature
 Meta: dữ liệu mô tả
 Target: nhãn
 Skip: bỏ qua
 Feature: đặc trưng
 Value: miền giá trị của thuộc tính
DATA TABLE WIDGET

 Dùng để quan sát dữ liệu bảng biểu bằng cách nối File widget vào
Data table widget. Khi double-click vào ta sẽ quan sát được dữ
liệu.
DATA TABLE WIDGET
DISTRIBUTION WIDGET

 Dùng biểu diễn phân bố của một thuộc tính xác định. Ta nối File
widget đến Distribution widget
 double-click vào widget này để quan sát dữ liệu. Widget này tự
động dùng bar-chart cho kiểu dữ liệu category và histogram cho
kiểu dữ liệu số.
DISTRIBUTION WIDGET
DISTRIBUTION WIDGET
LÀM SẠCH DỮ LIỆU

 Trong tập dữ liệu horse-colic.csv có cả thuộc tính số (numeric) và


thuộc tính rời rạc (nominal) tuy nhiên tất cả đều biểu diễn dưới
dạng số. Như vậy, ta cần:
 Xử lý dữ liệu bị thiếu
 Rời rạc hóa các thuộc tính số
 Chuẩn hóa các thuộc tính số về đoạn [0;1]
 Chuyển thuộc tính numeric  nominal
PREPROCESSING WIDGET

 Từ Data table widget, ta có thể thấy có 19.8% dữ liệu bị thiếu.


 Do đó, ta sẽ tiến hành tiền xử lý dữ liệu thông qua Preprocessing
widget
PREPROCESSING WIDGET

 Normalize Features: chuẩn hoá dữ liệu về đoạn [0-1]


 Impute Missing Values: điền giá trị trung bình cho kiểu dữ liệu
dạng số và giá trị phổ biến cho kiểu dữ liệu dạng category.
 Discretize Continuous Variables: chia giỏ dữ liệu 10 bins và mỗi
bin có sai biệt đều nhau.
PREPROCESSING WIDGET
IMPUTE WIDGET

Khác với Preprocessing widget, Impute widget dùng riêng cho


tác vụ xử lý dữ liệu bị thiếu gồm các chiến lược:
 Don’t impute: không làm gì cả.
 Average/Most-frequent: điền giá trị trung bình đối với dữ
liệu dạng số, điền giá trị phổ biến đối với dữ liệu dạng
category.
 As a distinct value: điền giá trị được tự ta quy định.
 Model-based impute: sử dụng mô hình 1-NN để tìm mẫu
dữ liệu gần giống mẫu dữ liệu có thuộc tính bị thiếu.
 Random values: điền giá trị ngẫu nhiên thông qua thống kê
của trường dữ liệu đó.
IMPUTE WIDGET
RÚT GỌN DỮ LIỆU

 BÀI TẬP 1 - LMS

 Tìm hiểu và chọn phương pháp rút gọn dữ liệu phù hợp cũng như lựa
chọn các phương pháp biểu diễn trực quan bằng các Widget đã học
trong slide này.
 Bộ dữ liệu Credit-Screening (Đổi đuôi file từ data thành csv)
 File nộp: chụp kết quả thu được vào file word, và nộp cả file word
lẫn file Orange.
SAVE DATA WIDGET

 Dùng để lưu dữ liệu sau khi đã được xử lý. Lưu ý: ta cần chọn
những dòng dữ liệu để lưu và bấm nút Save as để xác định địa chỉ
lưu file.
LUYỆN TẬP

BÀI TẬP 2 - LMS

 Tiền xử lý dữ liệu cho dữ liệu: agaricus-lepiota.data


(Chuyển sang định dạng CVS  thực hiện tiền xử lý)
 File nộp: chụp kết quả thu được vào file word, và nộp cả file
word lẫn file Orange.

You might also like