You are on page 1of 2

ỨNG DỤNG PCA TRONG HỒI QUY TUYẾN TÍNH

I. Định nghĩa
- Hồi quy tuyến tính là một phương pháp thống kê dùng để phân tích mối quan hệ tuyến
tính giữa một biến phụ thuộc y dựa vào một hay nhiều biến độc lập x . Giá trị biến phụ
thuộc y phải liên tục, còn giá trị biến độc lập x có thể liên tục hoặc rời rạc. Nhiều lĩnh
vực ứng dụng phương pháp này để dự đoán, giải thích số liệu, kiểm soát kết quả đầu ra...
 Một biến phụ thuộc y và một biến độc lập x (Hồi quy tuyến tính đơn biến)
Ví dụ: chiều cao và cân nặng con người, chiều dài và chiều rộng phong thư...
Công thức:
y=β 0 + β 1 x + ε
Trong đó,
y : giá trị biến phụ thuộc
x : giá trị biến độc lập
β 0: điểm cắt của đường thẳng hồi quy và trục y
β 1: hệ số góc
ε : sai số

 Một biến phụ thuộc y và nhiều biến độc lập x (Hồi quy tuyến tính đa biến)
Ví dụ: năng suất vụ mùa dựa vào lượng nitrogen, phosphorus, potassium trong phân
bón
Công thức:
y=β 0 + β 1 x 1 + β 2 x 2 +…+ β k x k + ε

- Để xác định đường biểu diễn phù hợp nhất cho bộ dữ liệu, phương pháp bình phương tối
thiểu được sử dụng phổ biến. Nội dung cơ bản của phương pháp là tổng bình phương
khoảng cách giữa giá trị y ước lượng trên đường hồi quy tuyến tính và giá trị y thực tế là
nhỏ nhất.
- Đối với các mô hình hồi quy tuyến tính phức tạp có quá nhiều biến số, hiện tượng đa
cộng tuyến (sự tương quan cao giữa hai hoặc nhiều biến độc lập), phương pháp PCA
được ứng dụng vào hồi quy tuyến tính để giảm số chiều của không gian chứa dữ liệu mà
vẫn đảm bảo tính chính xác của dữ liệu, làm xuất hiện các liên kết tiềm ẩn của dữ liệu. Từ
đó giúp người đọc dễ hiểu hơn và nắm được thông tin chính của dữ liệu.
II. Vận dụng

Nguồn:
https://www.utstat.toronto.edu/~brunner/books/LinearModelsInStatistics.pdf
https://vi.wikipedia.org/wiki/Hồi_quy_tuyến_tính
https://www.investopedia.com/terms/m/multicollinearity.asp
https://vi.wikipedia.org/wiki/Phép_phân_tích_thành_phần_chính

You might also like