You are on page 1of 6

1.

Cây ra quyết định


- Import thư viện để sử dụng các hàm khai phá thuật toán cây

Code: #import thư viện


import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt
- Đọc file dữ liệu để thực hành

Code: # đọc file dữ liệu để thực hành


df =
pd.read_csv("C:/Users/tiena/Downloads/archive/ParisHousingClass.csv")
- Xem các mẫu và thuộc tính

Code: # Xem số lượng quan sát và số lượng thuộc tính trong DataFrame
print("Số lượng quan sát:", df.shape[0]) # Số lượng hàng trong DataFrame
print("Số lượng thuộc tính:", df.shape[1]) # Số lượng cột trong DataFrame
- Kiểm tra các giá trị NaN( Tiền xử lý dữ liệu)
Code: #df.isnull(): Phương thức này tạo ra một DataFrame mới có cùng
kích thước với df, trong đó mỗi phần tử là True nếu giá trị tương ứng trong
df là NaN và False nếu không phải.
#.sum(): Tính tổng số giá trị True (tức là số giá trị NaN) trong mỗi cột.
#.sort_values(ascending=False): Sắp xếp các giá trị theo thứ tự giảm dần (từ
cao đến thấp).
df.isnull().sum().sort_values(ascending=False)
- Chọn 5 thuộc tính để ra quyết định mua nhà

Category là biến mục tiêu có nghĩa là mục tiêu ra quyết định mua nhà.
Code: # Tạo tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
random_state=101)
- Tạo tập huấn luyện và kiểm tra
X_train: Tập dữ liệu huấn luyện cho các đặc trưng (features). Đây là một tập dữ
liệu con của biến X, chứa các điểm dữ liệu mà mô hình sẽ được huấn luyện dựa
trên các đặc trưng này.

X_test: Tập dữ liệu kiểm tra cho các đặc trưng (features). Đây là một tập dữ
liệu con của biến X, được sử dụng để kiểm tra hiệu suất của mô hình sau khi đã
huấn luyện.

y_train: Tập nhãn cho dữ liệu huấn luyện. Đây là một tập dữ liệu con của biến
y, chứa các nhãn tương ứng với dữ liệu huấn luyện.

y_test: Tập nhãn cho dữ liệu kiểm tra. Đây là một tập dữ liệu con của biến y,
chứa các nhãn tương ứng với dữ liệu kiểm tra, được sử dụng để đánh giá hiệu
suất của mô hình.

test_size=0.3: Tham số này xác định tỷ lệ của dữ liệu được sử dụng cho việc
kiểm tra. Trong trường hợp này, 30% của dữ liệu sẽ được sử dụng cho việc
kiểm tra và 70% còn lại sẽ được sử dụng cho việc huấn luyện.

random_state=101: Tham số này xác định một giá trị ngẫu nhiên để đảm bảo
tính nhất quán khi chia dữ liệu thành các tập huấn luyện và kiểm tra. Sử dụng
cùng một random_state sẽ đảm bảo rằng việc chia dữ liệu là nhất quán khi mã
được chạy lại nhiều lần.

Code: # Tạo tập huấn luyện và tập kiểm tra


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
random_state=101)
- Huấn luyện mô hình cây quyết định
Code: # Huấn luyện mô hình cây quyết định
tree_model = DecisionTreeClassifier()
tree_model.fit(X_train, y_train)
- Vẽ cây ra quyết định

Code: # Vẽ cây quyết định


plt.figure(figsize=(20,10))
plot_tree(tree_model, feature_names=selected_features,
class_names=tree_model.classes_, filled=True)
plt.show()

You might also like