You are on page 1of 7

Chapter 16

Trong chương này ta tìm hiểu về 3 mục chính là:

 Coefficients

Ví dụ về tầm quan trọng của Feature với hồi quy tuyến tính (linear regression.)

 Decision Tree

Có hai loại là :

 regression trees CART(cây hồi quy)


Ví dụ về tầm quan trọng của regression trees CART(cây hồi qui) với hồi quy tuyến tính
(linear regression.)

 Random Forest(rừng ngẫu nhiên

Ví dụ về Random Forest(rừng ngẫu nhiên

 Permutation feature importance

Permutation feature importance là một kỹ thuật để đo lường độ quan trọng của các đặc
trưng với mô hình được sử dụng. Đầu tiên, một mô hình phù hợp với tập dữ liệu, chẳng
hạn như một mô hình không hỗ trợ điểm quan trọng của tính năng gốc. Sau đó, mô hình
được sử dụng để đưa ra dự đoán trên tập dữ liệu, mặc dù các giá trị của một đối tượng
(cột) trong tập dữ liệu được xáo trộn. Đây là lặp lại cho từng tính năng trong tập dữ liệu.
Sau đó toàn bộ quá trình này được lặp lại 3, 5, 10 hoặc hơn. Kết quả là điểm quan trọng
trung bình cho từng tính năng đầu vào (và phân bổ điểm đưa ra sự lặp lại).

Ví dụ về Permutation feature importance

Feature Selection with Importance

quá trình chọn lọc các đặc trưng quan trọng có thể được sử dụng để giúp diễn giải dữ
liệu, nhưng chúng cũng có thể được sử dụng trực tiếp để giúp chọn lọc các tính năng hữu
ích nhất cho mô hình dự đoán.
Ví dụ về Feature Selection with Importance

Chapter 17
MinMaxScaler là điều chỉnh lại tỷ lệ các biến trong phạm vi [0,1]

Tạo biến chia tỷ lệ


Chuẩn hóa dữ liệu từ dataset

Standardizing một tập dữ liệu là quá trình biến đổi dữ liệu sao cho chúng có trung bình
bằng 0 và độ lệch chuẩn bằng 1

Ví dụ biển đổi dữ liệu(Standardizing)

Chapter 18
RobustScaler là một phương pháp chuẩn hóa dữ liệu trong xử lý dữ liệu và machine
learning. Nó tương tự như StandardScaler, nhưng thay vì sử dụng trung bình và độ lệch
chuẩn, RobustScaler sử dụng trung vị và phạm vi tương ứng. Phương pháp này làm cho
dữ liệu trở nên ổn định hơn đối với các giá trị ngoại lệ (outliers) trong tập dữ liệu, bằng
cách sử dụng trung vị để giảm ảnh hưởng của các giá trị ngoại lệ và sử dụng phạm vi để
chuẩn hóa dữ liệu.

IQR Robust Scaler Transform là một phương pháp chuẩn hóa dữ liệu trong xử lý dữ
liệu và machine learning, sử dụng IOR

IQR là sự chênh lệch giữa phần tư thứ ba (Q3) và phần tư thứ nhất (Q1) của tập dữ liệu,
và nó được sử dụng để đo lường sự biến đổi của dữ liệu một cách ổn định hơn so với
phương pháp trung bình và độ lệch chuẩn, đặc biệt là khi dữ liệu chứa nhiều giá trị ngoại
lệ

Hiển thị data sau khi RobustScaler transform.


Đánh giá mô hình sau khi RobustScaler transform.

You might also like