Professional Documents
Culture Documents
Code: # Xem số lượng quan sát và số lượng thuộc tính trong DataFrame
print("Số lượng quan sát:", df.shape[0]) # Số lượng hàng trong DataFrame
print("Số lượng thuộc tính:", df.shape[1]) # Số lượng cột trong DataFrame
- Kiểm tra các giá trị NaN( Tiền xử lý dữ liệu)
Code: #df.isnull(): Phương thức này tạo ra một DataFrame mới có cùng
kích thước với df, trong đó mỗi phần tử là True nếu giá trị tương ứng trong
df là NaN và False nếu không phải.
#.sum(): Tính tổng số giá trị True (tức là số giá trị NaN) trong mỗi cột.
#.sort_values(ascending=False): Sắp xếp các giá trị theo thứ tự giảm dần (từ
cao đến thấp).
df.isnull().sum().sort_values(ascending=False)
- Chọn 5 thuộc tính để ra quyết định mua nhà
Category là biến mục tiêu có nghĩa là mục tiêu ra quyết định mua nhà.
Code: # Tạo tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
random_state=101)
- Tạo tập huấn luyện và kiểm tra
X_train: Tập dữ liệu huấn luyện cho các đặc trưng (features). Đây là một tập dữ
liệu con của biến X, chứa các điểm dữ liệu mà mô hình sẽ được huấn luyện dựa
trên các đặc trưng này.
X_test: Tập dữ liệu kiểm tra cho các đặc trưng (features). Đây là một tập dữ
liệu con của biến X, được sử dụng để kiểm tra hiệu suất của mô hình sau khi đã
huấn luyện.
y_train: Tập nhãn cho dữ liệu huấn luyện. Đây là một tập dữ liệu con của biến
y, chứa các nhãn tương ứng với dữ liệu huấn luyện.
y_test: Tập nhãn cho dữ liệu kiểm tra. Đây là một tập dữ liệu con của biến y,
chứa các nhãn tương ứng với dữ liệu kiểm tra, được sử dụng để đánh giá hiệu
suất của mô hình.
test_size=0.3: Tham số này xác định tỷ lệ của dữ liệu được sử dụng cho việc
kiểm tra. Trong trường hợp này, 30% của dữ liệu sẽ được sử dụng cho việc
kiểm tra và 70% còn lại sẽ được sử dụng cho việc huấn luyện.
random_state=101: Tham số này xác định một giá trị ngẫu nhiên để đảm bảo
tính nhất quán khi chia dữ liệu thành các tập huấn luyện và kiểm tra. Sử dụng
cùng một random_state sẽ đảm bảo rằng việc chia dữ liệu là nhất quán khi mã
được chạy lại nhiều lần.