You are on page 1of 2

INTRODUCTION

Partial least squares or PLS regression is used in many applied sciences. Wold’ gives a survey of PLS methods
with emphasis on social and economic sciences. In chemometrics these methods have been found valuable in
numerous situations.
An important question is ‘What situations are typical of those where PLS methods can be expected to be good
for modelling purposes?’. They are the ones where there are many variables but not necessarily many samples
or observations. This is a common situation in many laboratories. Typically it may take some time to get a new
sample, but each sample may give a large amount of information (variables).
Bình phương nhỏ nhất một phần hoặc hồi quy PLS được sử dụng trong nhiều ngành khoa học ứng dụng. Wold
’đưa ra một cuộc khảo sát về các phương pháp PLS với trọng tâm là khoa học kinh tế và xã hội. Trong phép đo
hóa học, các phương pháp này đã được tìm thấy có giá trị trong nhiều tình huống.
Một câu hỏi quan trọng là "Những tình huống nào là điển hình trong đó các phương pháp PLS có thể được
mong đợi là tốt cho mục đích mô hình hóa?". Chúng là những biến có nhiều biến nhưng không nhất thiết phải
có nhiều mẫu hoặc quan sát. Đây là một tình huống phổ biến ở nhiều phòng thí nghiệm. Thông thường, có thể
mất một thời gian để lấy mẫu mới, nhưng mỗi mẫu có thể cung cấp một lượng lớn thông tin (biến).
The next important question is ‘Why can one expect PLS regression methods to perform better than multiple
linear regression, ridge regression and other well known regression techniques?’. The answer is the stability of
predictors derived from PLS methods. It turns out that the essential crieteria for the predictability of models is
the number of variables included in the models. The uncertainty of the estimated parameters quickly becomes
the dominating factor in the variability of predictors. Thus it is important to keep the number of variables as low
as possible. In PLS components are selected that give ‘maximal’ reduction in the covariance XrYof the data. In
that sense PLS will give the minimum number of variables that is necessary. Criteria that give penalties on the
number of variables, like the Akaike criteria, or those where the model performance is evaluated, like the
Mallows Cp criteria, all give rise to more variables than the PLS method.
Câu hỏi quan trọng tiếp theo là "Tại sao người ta có thể mong đợi các phương pháp hồi quy PLS hoạt động tốt
hơn hồi quy nhiều tuyến tính, hồi quy sườn núi và các kỹ thuật hồi quy nổi tiếng khác?". Câu trả lời là tính ổn
định của các yếu tố dự báo xuất phát từ phương pháp PLS. Nó chỉ ra rằng hạn chế cần thiết cho khả năng dự
đoán của các mô hình là số lượng các biến được bao gồm trong các mô hình. Sự không chắc chắn của các tham
số ước tính nhanh chóng trở thành yếu tố chi phối sự biến thiên của các yếu tố dự báo. Vì vậy, điều quan trọng
là phải giữ số lượng biến càng thấp càng tốt. Trong PLS, các thành phần được chọn làm giảm ‘tối đa’ hiệp
phương sai XrY của dữ liệu. Theo nghĩa đó, PLS sẽ cung cấp số lượng biến tối thiểu cần thiết. Các tiêu chí đưa
ra hình phạt về số lượng biến, như tiêu chí Akaike hoặc những tiêu chí mà hiệu suất mô hình được đánh giá,
như tiêu chí Mallows Cp, tất cả đều làm phát sinh nhiều biến hơn so với phương pháp PLS.
An integral part of the PLS method is the way in which the associated data analysis is done. With the aid of
careful data analysis, outliers and groups of data or variables can be detected. An account of the data analysis
aspect of PLS methods, with examples from chemistry, is given in the tutorial papers of Geladi and Kowalski’
and Geladi.3
Một phần không thể thiếu của phương pháp PLS là cách thức thực hiện phân tích dữ liệu liên quan. Với sự hỗ
trợ của phân tích dữ liệu cẩn thận, các ngoại lệ và nhóm dữ liệu hoặc biến có thể được phát hiện. Tài khoản về
khía cạnh phân tích dữ liệu của các phương pháp PLS, với các ví dụ từ hóa học, được đưa ra trong các bài báo
hướng dẫn của Geladi và Kowalski ’và Geladi.3
One of the reviewers has drawn the author’s attentionto the works of Helland4and Manne,s which also treat structural questions of
PLS regression. Some of the results of this paper may be found in their works, although the emphasis of this work is very different
from theirs. Some of the results of this work are also mentioned in Wold et aL6

Một trong những người đánh giá đã thu hút sự chú ý của tác giả đối với các tác phẩm của Helland4and Manne,
tác phẩm cũng xử lý các câu hỏi cấu trúc của hồi quy PLS. Một số kết quả của bài báo này có thể được tìm thấy
trong các công trình của họ, mặc dù điểm nhấn của công việc này rất khác so với của họ. Một số kết quả của
công việc này cũng được đề cập trong Wold et aL6
The PLS regression algorithm

The basic algorithm of PLS regression as developed by Wold et al.’ is as follows.

The starting point is two data matrices X and Y.X is an N x M matrix and Y an N x K matrix. No assumption is needed concerning
the dimensions of X and Y. Before the algorithm starts, the matrices may be scaled or centred. Scaling can correspond to working
with correlation matrices, and centring to subtracting mean values from each of the column values.

The algorithm is as follows.

Thuật toán hồi quy PLS


Thuật toán cơ bản của hồi quy PLS do Wold và cộng sự phát triển như sau.
Điểm xuất phát là hai ma trận dữ liệu X và Y.X là ma trận N x M và Y là ma trận N x K. Không cần giả định
liên quan đến kích thước của X và Y. Trước khi thuật toán bắt đầu, các ma trận có thể được chia tỷ lệ hoặc căn
giữa. Chia tỷ lệ có thể tương ứng với việc làm việc với ma trận tương quan và căn giữa để trừ các giá trị trung
bình từ mỗi giá trị cột.
Thuật toán như sau.

You might also like