You are on page 1of 3

PHẦN LÝ THUYẾT

1. Giả sử khi dùng Batch gradient descent và vẽ learning curve của nó (đường validation
error theo epoch), ta thấy validation error chỉ tăng lên chứ không giảm. Nguyên nhân của
hiện tượng này có thể là gì? Làm sao khắc phục?

+ Validation error chỉ tăng lên có thể do hiện tượng overfitting.

+ Cách khắc phục: sử dụng kỹ thuật early stopping để đến khi validation error có xu
hướng tăng lên thì dừng lại và quay lại sử dụng mô hình tương ứng với điểm và
validation error đạt giá trị nhỏ.

2. Để tránh overfitting của Stochastic gradient descent do train quá lâu ta có thể sử dụng
phương pháp nào? Mô tả cách cài đặt phương pháp này cho SGD.

Theo em nghĩ ta có thể sử dụng phương pháp Softmax regression.

3. Khi huấn luyện một Polynomial regression ta thấy learning curves theo training error
và validation error có khoảng cách lớn. Hiện tượng gì đã xảy ra? Nêu các cách khắc phục.

- Khi huấn luyện một Polynomial regression ta thấy learning curves theo training error và
validation error có khoảng cách lớn là đặc điểm của mô hình overfitting. Khoảng cách
lớn tồn tại đơn giản vì training error thấp hơn validation error.

- Cách để khắc phục hiện tượng overfitting:

+ Cung cấp thêm dữ liệu đào tạo.

+ Giảm độ phức tạp của mô hình. Có thể giảm số lượng tính năng trong dữ liệu

+ Giảm mức độ đa thức (ở đây em sẽ giảm bậc tự do) bằng cách thêm regularization hoặc
L2 (ridge regression) hoặc L1 (lasso) vào hàm chi phí(cost function).

4. [Không bắt buộc] High bias và high variance error là gì?

+ Bias là sự sai khác giữa trung bình dự đoán của mô hình chúng ta xây dựng với giá trị
chính xác đang cố gắng để dự đoán. Một mô hình với trị số bias cao đồng nghĩa với việc
mô hình đó không quan tâm nhiều tới dữ liệu huấn luyện, khiến cho mô hình trở nên đơn
giản quá. Nó thường dẫn đến việc mô hình có mức độ lỗi cao cả trên tập huấn luyện và
tập kiểm thử.

+ Variance đặc trưng cho mức độ tản mát của giá trị dự đoán cho điểm dữ liệu. Mô hình
với mức độ variance cao tập trung chú ý nhiều vào dữ liệu huấn luyện và không mang
được tính tổng quát trên dữ liệu chưa gặp bao giờ. Từ đó dẫn đến mô hình đạt được kết
quả cực kì tốt trên tập dữ liệu huấn luyện, tuy nhiên kết quả rất tệ với tập dữ liệu kiểm
thử.

Do khái niệm high bias và high variance khá trìu tượng và dễ nhầm lẫn nên khái niệm
được dùng nhiều hơn là underfitting(high bias) và overfitting(high variance error).

=> Nếu model quá đơn giản thì ta sẽ bị high bias và low variance. Tuy nhiên nếu model
quá phức tạp thì sẽ bị high variance và low bias. Do đó để train được model tốt ta cần cân
bằng giữa bias và variance.

5. Khi huấn luyện một Ridge regression model ta thấy training error và validation error
gần như bằng nhau và có gia trị khá cao. Model của chúng ta đã bị vấn đề gì? Để giải
quyêt ta nên tăng hay giảm hệ số regularization alpha?

- Khi huấn luyện một Ridge regression model ta thấy training error và validation error
gần như bằng nhau và có gia trị khá cao, điều đó có nghĩa là mô hình này đã bị
underfitting (high bias).

- Để giải quyết thì chúng ta nên giảm hệ số alpha

- Ngoài ra ta cũng có thể tăng độ phức tạp của model:

+ Tăng số lượng hidden layer và số node trong mỗi hidden layer.

+ Dùng nhiều epochs hơn để train model.

6. Tại sao ta nên dùng Ridge regression hoặc các regularization models khác hơn là dùng
Linear regression hoặc Polinomial regression?

Nên dùng Ridge regression hoặc các regularization models khác hơn là dùng Linear
regression hoặc Polinomial regression vì sẽ tránh được overfitting. Ngoài ra Nomal
Equation yêu cầu tính toán ma trận nghịch đảo nhưng ma trận không phải lúc nào cũng
khả nghịch trong khi đó ma trận trong Ridge regression luôn khả nghịch
7. So sánh Ridge regression, Lasso regression và Elastic net: điểm giống nhau, khác
nhau,ưu điểm, khuyết điểm.

- Giống nhau: Lasso, Ridge và ElasticNet đều là một phần của họ Hồi quy tuyến tính.

STT Ridge regression Lasso regression Elastic net


Khác Ridge sẽ giảm tác Lasso sẽ loại bỏ nhiều tính Elastic Net kết hợp việc
nhau động của các tính năng và giảm overfitting loại bỏ tính năng khỏi
năng không quan trong mô hình Lasso và giảm hệ số
trọng trong việc dự tính năng khỏi mô hình
đoán giá trị y Ridge để cải thiện các
dự đoán của mô hình .
Khuyết Tuy làm giảm độ + Đôi khi gặp khó khăn với Một bất lợi là chi phí
điểm phức tạp của một mô một số loại dữ liệu. Nếu số tính toán.Cần cross-
hình nhưng không lượng predictors (p) lớn hơn validate trọng số tương
làm giảm số lượng số lượng observations (n), đối của L1 so với L2,
biến vì nó không bao Lasso sẽ chọn nhiều nhất n và điều đó làm tăng chi
giờ dẫn đến hệ số predictors là khác 0, ngay cả phí tính toán theo số
bằng 0 mà chỉ giảm khi tất cả dự đoán đều có liên lượng giá trị α. Một
thiểu nó. Do đó, mô quan (hoặc có thể được sử nhược điểm khác
hình này không tốt dụng tập test). (nhưng đồng thời cũng
cho việc giảm tính + Nếu có hai hoặc nhiều biến là một ưu điểm) là tính
năng. cộng tuyến cao thì Lasso linh hoạt của công cụ
chọn ngẫu nhiên một trong số ước tính.
chúng, điều này không tốt
cho việc giải thích dữ liệu

8. Nếu cần phải phân loại hình ảnh thành theo nhóm nơi chụp( trong nhà/ngoài trời) và
thời gian chụp(ban ngày/ban đêm) ta nên sử dụng 2 Logistic regression classifiers hay
Softmax regression classifier? Tại sao?

Softmax regression không xử lý nhiều lớp đầu ra (tức là [trong nhà, ban ngày],……). Vì
vậy, nên sử dụng 2 Logistic regression classifiers.

You might also like