You are on page 1of 7

BÀI THU HOẠCH NHÓM

NHÓM 1
Hồ Như Thuận
Nguyễn Hoàng Mỹ
Nguyễn Ngọc Hoàng Thơ
Dư Mỹ Dung
Hồ Diệu Linh
Yêu cầu : Chọn 2 widget của orange và phân tích
I. Phương pháp cây quyết định Decision Tree
 Khái niệm
- Cây quyết định là một sơ đồ hoặc biểu đồ giúp xác định một quá trình hành động hoặc
hiện thị một xác suất thống kê
- Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả đi kèm
nhằm hỗ trợ quá trình ra quyết định
- Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại
và tổng quát hóa tập dữ liệu cho trước
- Tree là một thuật toán đơn giản phân chia dữ liệu thành các nút bởi các lớp dữ liệu. Nó là
tiền thân của Random Forest. Tree trong phần mềm Orange được thiết kế bên trong và có
thể xử lý cả bộ dữ liệu rời rạc và liên tục. Nó cũng có thể được sử dụng cho cả nhiệm vụ
phân loại và hồi quy
 Tổng quát về mô hình tree
- Đầu vào
+ Dữ liệu: dữ liệu đầu vào
+ Đầu ra : phương pháp tiền xử lý
- Đầu ra
+ Learner : thuật toán quyết định Tree
+ Mô hình : mô hình được đào tạo
1. Name : Người học có thể được đặt tên theo ý muốn. Tên mặc định là Tree
2. Thông số
Induce binary tree : xây dựng cây nhị phân ( chia thành hai nút con )
Min.number of instances in leaves ( số tối thiểu các ví dụ ) : nếu được chọn,
thuật toán sẽ không bao giờ đặt số nút ít hơn số dữ liệu tham khảo
Do not split subsets smaller than ( không phân chia các tập hợp nhỏ hơn ) :
cấm thuật toán phân chia các nút ít hơn số lượng ví dụ đã cho
Limit the maximal tree depth ( giới hạn độ sâu cây tối đa ) : giới hạn độ sâu
của cây phân loại ở số cấp nút được chỉ định
3. Stop when majority reaches [%] ( dừng khi đã đạt số lượng % ) : dừng phân
chia các nút sau khi đạt đến ngưỡng đa số được chỉ định
4. Tạo một báo cáo
5. Nhấp váo apply sau khi thay đổi. Nếu bạn đánh dấu vào ô bên trái nút apply,
các thay đổi sẽ tự động lưu
 Ví dụ

Sử dụng dữ liệu Iris từ dataset và chuyển tới Tree. Nút cây đã chọn từ Tree
Viewer được trình bày trong Scatter Plot
 Ưu điểm
- Dễ hiểu
- Không đòi hỏi việc chuẩn hóa dữ liệu
- Có thể xử lý trên nhiều kiểu dữ liệu khác nhau
- Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn
 Khuyết điểm
- Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian
- Chi phí xây dựng mô hình cao
II. Data Table
 Khái niệm
Công cụ Data Table nhận đầu vào là một hoặc nhiều bộ dữ liệu và hiển thị
chúng trên bảng tính. Công cụ cũng cho phép sắp xếp các dữ liệu theo thuộc
tính hay cũng trợ giúp chúng ta lựa chọn dữ liệu
 Chức năng
Hiển thị dữ liệu thành một bảng tính
 Tổng quát về Data Table
- Đầu vào: Dữ liệu từ Dataset
- Đầu ra : Dữ liệu thể hiện trong máy tính

1. Tên của tệp dữ liệu


2. Tên của các biến nằm ở các hàng và giá trị các biến nằm ở các cột
3. Thông tin về kích thước tập dữ liệu hiện tại, số lượng và loại biến. Giá trị của
biến liên tục có thể biểu hiện bằng các thanh với màu sắc được quy về các mức
độ khác nhau
4. Các biến ( ở hàng ) có thể được chọn và đưa vào đầu ra của công cụ
5. Sử dụng công cụ Restrore Original Order để khôi phục lại thứ tự ban đầu sau khi
sắp xếp dựa trên thuộc tính
6. Tạo bản báo cáo
7. Trong khi Auto - send được chọn, tất cả thay đổi đều được liên kết với các công
cụ khác. Trong trường hợp không để tất cả thay đổi đều liên quan đến công cụ
khác, hãy nhấn Send Select Rows
 Ví dụ
Sử dụng Dataset để đọc dữ liệu Iris và Adult và gửi chúng đến Data Table

Dữ liệu đã chọn trong Bảng dữ liệu đầu tiên được chuyển sang Bảng dữ liệu thứ
hai. Lưu ý rằng, chúng ta có thể chọn tập dữ liệu nào để xem. Việc thay đổi từ tập
dữ liệu này sang tập dữ liệu khác sẽ làm thay đổi việc lựa chọn các thông tin dữ
liệu được truyền đạt nếu cam kết về bất kỳ thay đổi nào được chọn

You might also like