You are on page 1of 13

Machine Translated by Google

TẠP CHÍ HÓA ĐÁNH J. Chemometrics

2000; 14: 643–655

Ứng dụng thuật toán di truyền-PLS để lựa chọn đặc trưng


trong tập dữ liệu phổ

Riccardo Leardi*

Khoa Công nghệ và Hóa dược, Thực phẩm, Đại học Genova, Via Brigata Salerno
(Ponte), I-16147 Genova, Ý

BẢN TÓM TẮT

Sau khi sửa đổi phù hợp, thuật toán di truyền có thể là một công cụ hữu ích trong bài toán lựa chọn bước sóng trong trường hợp
hiệu chuẩn đa biến được thực hiện bởi PLS. Không giống như những gì xảy ra với phần lớn các phương pháp lựa chọn tính năng
được áp dụng cho dữ liệu phổ, các biến được thuật toán chọn thường tương ứng với các vùng phổ đặc trưng và được xác định rõ
ràng thay vì là các biến đơn lẻ nằm rải rác trong phổ. Điều này dẫn đến một mô hình có khả năng dự đoán tốt hơn mô hình toàn
phổ; hơn nữa, việc phân tích các vùng được chọn có thể giúp ích rất nhiều trong việc tìm hiểu đâu là phần liên quan của quang
phổ. Sau khi trình bày thuật toán, một số trường hợp thực tế được hiển thị. Bản quyền 2000 John Wiley & Sons, Ltd.

TỪ KHÓA: thuật toán di truyền; lựa chọn tính năng; PLS hồi quy; dữ liệu quang phổ

1. GIỚI THIỆU

Ngày nay, dữ liệu quang phổ có lẽ là loại dữ liệu phổ biến nhất được áp dụng các kỹ thuật đo hóa học. Nhờ sự
phát triển của các công cụ mới, có thể dễ dàng thu được các tập dữ liệu trong đó mỗi đối tượng được mô tả bởi
hàng trăm biến. Các phương pháp như bình phương nhỏ nhất một phần (PLS) hoặc hồi quy thành phần chính (PCR),
dựa trên các biến tiềm ẩn, cho phép người ta tính đến toàn bộ phổ mà không cần phải thực hiện lựa chọn tính
năng trước đó [1,2].
Nhờ khả năng trích xuất phần thông tin liên quan và tạo ra các mô hình đáng tin cậy, cho đến cách đây không
lâu, người ta vẫn cho rằng các phương pháp toàn phổ này hầu như không nhạy cảm với nhiễu và do đó người ta
thường tuyên bố rằng không có lựa chọn đặc điểm nào cả. được yêu cầu [2]. Thay vào đó, trong vài năm gần đây,
người ta đã nhận ra rằng việc lựa chọn tính năng hiệu quả có thể mang lại lợi ích cao cả trong việc cải thiện
khả năng dự đoán của mô hình và giảm đáng kể độ phức tạp của nó [3].
Trong vài năm gần đây, một số kỹ thuật dành cho việc lựa chọn tính năng trong mô hình PLS áp dụng cho dữ
liệu phổ đã được trình bày. Ba trong số các phương pháp này là lựa chọn biến lặp (IVS) [4], loại bỏ biến không
chính xác (UVE) [5] và trọng số dự đoán lặp (IPW) [6].

* Liên hệ: R. Leardi, Khoa Công nghệ và Hóa dược, Thực phẩm, Đại học Genova, Via Brigata Salerno (Ponte), I-16147 Genova,
Ý.
E-mail: riclea@dictfa.unige.it
Nhà tài trợ hợp đồng/trợ cấp: Bộ Đại học và Nghiên cứu Khoa học Ý.
Nhà tài trợ hợp đồng/trợ cấp: CNR (Hội đồng nghiên cứu quốc gia Ý), Comitato Scienze e Tecnologia Informazione.

Bản quyền 2000 John Wiley & Sons, Ltd. Nhận ngày 13 tháng 9 năm 1999
Được chấp nhận ngày 20 tháng 3 năm 2000
Machine Translated by Google

644 R. LEARDI

Hạn chế của các kỹ thuật lựa chọn đặc trưng khi áp dụng cho dữ liệu quang phổ là thường

các đặc điểm được chọn (bước sóng) nằm rải rác trong phổ.

Người ta đã chứng minh rằng thuật toán di truyền (GA) [7–10] có thể được sử dụng thành công như một kỹ thuật lựa

chọn tính năng [11–14]. Một bài báo trước đây [14] cũng đã chứng minh rằng GA, sau khi sửa đổi phù hợp, sẽ tạo ra các

kết quả dễ hiểu hơn vì các bước sóng được chọn ít bị phân tán hơn so với các phương pháp khác. Thuật toán này đã được

sửa đổi thêm với mục tiêu làm cho nó trở nên đặc biệt mạnh mẽ trong trường hợp dữ liệu quang phổ, theo cách mà mô hình

cuối cùng bao gồm càng nhiều bước sóng liền kề càng tốt.

Các kỹ thuật lựa chọn đặc trưng thường giả định rằng không có hiện tượng tự tương quan giữa các biến. Mặc dù điều

này đúng trong trường hợp tập dữ liệu phi phổ, nhưng nó không đúng trong trường hợp dữ liệu quang phổ. Điều này có

nghĩa là nếu bước sóng n được chọn phù hợp thì bước sóng n1 và n1 cũng sẽ có xác suất được chọn cao.

2. LÝ THUYẾT

Thuật toán được sử dụng trong bài viết này là sự phát triển của thuật toán được mô tả trong Tài liệu tham khảo [14],

có các tham số được báo cáo trong Bảng I.

Rủi ro lớn nhất của việc áp dụng GA là trang bị quá mức. Rủi ro này tăng lên khi số lượng mô hình được thử nghiệm

tăng lên, vì xác suất tìm thấy một mô hình có hiệu suất tốt chỉ là ngẫu nhiên (tức là do tương quan ngẫu nhiên) trở nên

lớn hơn. Xác thực chéo không phải là một biện pháp bảo vệ hoàn toàn chống lại việc trang bị quá mức, vì các đối tượng

mà hiệu suất của mô hình được kiểm tra cũng giống như các đối tượng mà việc lựa chọn tính năng được thực hiện.

Việc xem xét cơ bản này ảnh hưởng rất nhiều đến kiến trúc của GA. Tất cả các tham số được đặt theo cách đạt được mức

khai thác cao nhất, do đó có nghĩa là mục tiêu chính của thuật toán là có phản hồi tăng rất nhanh và do đó có giải pháp

rất tốt trong giai đoạn đầu của quá trình quá trình. Đây là lý do tại sao chủ nghĩa tinh hoa cao nhất có thể, quy mô

dân số khá hạn chế một cách bất thường và xác suất đột biến khá cao đã được áp dụng.

Dù sao, tính năng chính của thuật toán được mô tả trong Tài liệu tham khảo [14] là để giảm hơn nữa nguy cơ trang bị

quá mức, mô hình cuối cùng thu được từ kết quả của 100 lần chạy GA rất ngắn, độc lập, trong khi thông thường mô hình

thu được từ một lần duy nhất, rất lâu dài.

Bảng I. Thông số của GA

Quy mô quần thể: 30 nhiễm sắc thể

Trung bình, có 5 biến thể trên mỗi nhiễm sắc thể trong quần thể ban đầu

Phương pháp hồi quy: PLS

Phản hồi: % phương sai được giải thích được xác thực chéo (năm nhóm xóa; số lượng thành phần được xác định bằng

xác thực chéo)


Số lượng biến tối đa được chọn trong cùng một nhiễm sắc thể: 30

Xác suất đột biến: 1%

Số lượng thành phần tối đa: số lượng thành phần tối ưu được xác định bằng xác thực chéo trên mô hình chứa tất cả

các biến (không cao hơn 15)


Số lần chạy: 100

Loại bỏ ngược sau mỗi lần đánh giá thứ 100 và khi kết thúc (nếu số lần đánh giá không phải là bội số của 100)

Kích thước cửa sổ để làm mịn: 3

Bản quyền 2000 John Wiley & Sons, Ltd. J. Hóa học 2000; 14: 643–655
Machine Translated by Google

Thuật toán di truyền – PLS ĐỂ LỰA CHỌN ĐẶC ĐIỂM PHỔ 645

Trong đó, mỗi lần chạy thực sự bắt đầu lại từ đầu mà không tính đến kết quả thu được từ những lần
chạy trước. Cách tiếp cận này, mặc dù đảm bảo tính độc lập hoàn toàn của mỗi lần chạy, nhưng lại gây
lãng phí năng lượng. Vì tần số mà các bước sóng đơn được chọn trong mô hình cuối cùng có thể cung
cấp thông tin có giá trị về mức độ liên quan của vùng quang phổ tương ứng, nên sẽ rất thú vị nếu mỗi
lần chạy có thể 'học' bằng cách nào đó từ thông tin do các lần chạy trước mang lại; bằng cách đó, họ
có thể tập trung nỗ lực chủ yếu vào những khu vực thú vị nhất mà không loại bỏ hoàn toàn khả năng
khám phá toàn cầu. Cũng rõ ràng là mức độ liên quan của thông tin này càng cao thì số lần chạy đã
được thực hiện càng cao. Một cách đơn giản để buộc một quần thể của một cuộc chạy mới theo hướng lựa
chọn một số biến bao gồm việc thay đổi vectơ xác suất ban đầu.
Bước đầu tiên của GA là tạo ra quần thể ban đầu. Trong đó, mỗi bit của mỗi nhiễm sắc thể được gán
một giá trị ngẫu nhiên. Trong trường hợp của chúng tôi, một nhiễm sắc thể có số gen bằng số biến
trong tập dữ liệu và mỗi gen được tạo bởi một bit duy nhất, 0 có nghĩa là 'biến vắng mặt' và 1 có
nghĩa là 'hiện tại có thể thay đổi'. Xác suất để mỗi biến có mặt trong mỗi nhiễm sắc thể của quần
thể ban đầu là

p nv 1

trong đó n là số 1 trung bình mà chúng ta muốn có trong nhiễm sắc thể và là tổng số biến.

Do đó chúng ta có thể tưởng tượng p là một vectơ có các phần tử có cùng giá trị.
Tần suất lựa chọn các biến trong các lần chạy được thực hiện trước đó có thể được sử dụng để sửa
đổi vectơ p theo cách sao cho giá trị của các phần tử tương ứng với các biến được chọn thường xuyên
nhất cao hơn giá trị của các biến được chọn ít thường xuyên nhất:

seli
số pi 2

selj
j1

trong đó selj là số lượng lựa chọn của biến j trong các lần chạy trước.
Khi bắt đầu một lần chạy mới, khi tạo quần thể ban đầu, đối với mỗi biến, một số ngẫu nhiên được
chọn và so sánh với giá trị tương ứng của vectơ p. Nếu nó thấp hơn thì bit sẽ được đặt thành 1 (tức
là có biến), nếu không thì nó sẽ được đặt thành 0 (tức là không có biến). Tất nhiên, giá trị của pi
càng cao thì xác suất biến i sẽ có mặt trong nhiễm sắc thể càng cao.

Một giải pháp như vậy sẽ đưa ra hai vấn đề chính.

Nó hoàn toàn không tính đến sự tự tương quan giữa các bước sóng lân cận.
Các biến chưa bao giờ được chọn trong lần chạy trước sẽ có p = 0.

Vấn đề đầu tiên được giải quyết dễ dàng bằng cách áp dụng làm mịn cho vectơ p bằng một đường trung
bình động (kích thước cửa sổ 3), từ đó thu được một vectơ ps mới . Do tính tự tương quan cao giữa
các biến quang phổ, nếu biến được cho là có liên quan thì các biến liền kề với nó cũng phải có liên
quan và do đó, việc tăng xác suất của chúng cũng là điều hợp lý.
Vấn đề thứ hai phức tạp hơn, vì người ta cũng phải tính đến thực tế là độ tin cậy của mẫu tần suất
lựa chọn là một hàm của số lần chạy đã được thực hiện.

Để làm như vậy, trung bình có trọng số giữa vectơ xác suất 'ban đầu', trong đó xác suất của
mỗi phần tử bằng n/v và vectơ xác suất thu được sau (2) được tính:

Bản quyền 2000 John Wiley & Sons, Ltd. J. Hóa học 2000; 14: 643–655
Machine Translated by Google

646 R. LEARDI

N
R r psi r
pfi
R

Trong đó pfi là xác suất cuối cùng của biến i hiện diện trong nhiễm sắc thể của quần thể ban đầu, R là tổng
số lần chạy cần thực hiện, r là số lần chạy đã được thực hiện và psi là xác suất của biến i sau khi làm mịn.

Điều này có nghĩa là trọng lượng của những lần chạy trước, hầu như không đáng kể lúc đầu, sẽ trở nên nặng hơn.

và phù hợp hơn khi số lần chạy được thực hiện tăng lên.
Nếu phải thực hiện 100 lần chạy, nó sẽ là 0 ở lần chạy đầu tiên, 0 10 ở lần chạy thứ 11, 0 50 ở
lần chạy thứ 51 và 0 99 ở lần chạy cuối cùng. Như người ta có thể thấy, theo cách đó, xác suất liên
quan đến từng biến, mặc dù đôi khi rất thấp, không bao giờ bằng 0 và do đó mỗi biến luôn có thể hiện
diện trong nhiễm sắc thể của quần thể ban đầu.
Trong trường hợp 100 lần chạy, 175 biến và 5 biến số 1 trên mỗi nhiễm sắc thể của quần thể ban đầu trên
trung bình, một biến chưa bao giờ được chọn có xác suất như sau:

pfi 5175 001 0 099 000029

mặc dù rất thấp nhưng không bằng 0.


Sau lần chạy cuối cùng, biểu đồ tần số lựa chọn có thể không mượt mà như người ta mong đợi từ dữ liệu
quang phổ. Vì điều không hợp lý là trong một phổ, mức độ liên quan của các biến liền kề là rất khác nhau,
nên trong trường hợp này, việc làm mịn bằng đường trung bình động (cỡ cửa sổ 3) cũng được thực hiện.

Hình 1. Sơ đồ phản hồi (phương sai được giải thích CV%) so với số lượng biến được chọn (bộ dữ liệu Đậu nành,
độ ẩm phản hồi). Mặc dù đạt được mức tối đa toàn cục với 30 biến, nhưng tốt nhất nên chọn mô hình có 9 biến.
Điều này được xác nhận bởi RMSEP của hai mô hình: 0 96 với chín biến, 0 99 với 30 biến.

Bản quyền 2000 John Wiley & Sons, Ltd. J. Hóa học 2000; 14: 643–655
Machine Translated by Google

Thuật toán di truyền – PLS ĐỂ LỰA CHỌN ĐẶC ĐIỂM PHỔ 647

Bảng II. Bộ dữ liệu

Tập dữ liệu Nguồn gốc. var. Gió. kích cỡ Var. GA Mục tiêu tr. Mục tiêu ev. Phản hồi

1. Đậu 175 175 40 14 3

nành 2. Xăng 301 1 150 45 15 1

3. Resorcinol 1001 2 200 64 21 1

4. Thực phẩm 351 5 175 66 33 2

5. Lúa mì 701 2 4 175 75 25 2

Mô hình cuối cùng thu được theo cách tiếp cận từng bước trong đó các biến được nhập
theo giá trị được làm mịn của tần số lựa chọn. Việc lựa chọn mô hình áp dụng
dựa trên biểu đồ phản hồi (% phương sai được giải thích được xác thực chéo) so với số lượng
các biến trong mô hình (xem Hình 1). Cốt truyện này thường cho thấy sự gia tăng mạnh ở thời điểm đầu,
tiếp theo là ổn định và sau đó là giảm. Từ việc lựa chọn mô hình sản xuất cao nhất
phản ứng có thể dẫn đến tình trạng trang bị quá mức, mô hình nằm ở đầu vùng ổn định phải được
đã chọn.

3. BỘ DỮ LIỆU

Năm bộ dữ liệu khác nhau đã được sử dụng (Bảng II).

1. Bộ dữ liệu Soy [15]: Phổ NIR của mẫu bột đậu nành, trên đó có 3 phản ứng (độ ẩm, dầu,
protein) đã được đo. Phổ đã được ghi lại từ 1104 đến 2496 nm với bước nhảy
8 nm (175 bước sóng).
2. Bộ dữ liệu Xăng [16]: Phổ NIR của các mẫu xăng có trị số octan xác định. Các
quang phổ đã được ghi lại từ 900 đến 1700 nm với bước sóng 2 nm (bước sóng 401).
Các biến từ 1–100 đã bị loại vì chúng không hiển thị tín hiệu.
3. Bộ dữ liệu Resorcinol [17]: Phổ NIR của các mẫu resorcinol ở các nồng độ khác nhau,
đo ở các nhiệt độ khác nhau. Phổ đã được ghi lại từ 10 000 đến 4000 cm1
với bước 4 cm1 (1501 bước sóng). Các biến 1–500 đã bị loại bỏ vì chúng
không hiển thị tín hiệu.

4. Tập dữ liệu Thực phẩm [18]: Phổ NIR của hỗn hợp thực phẩm thô, từ đó tạo thành dạng viên
thu được; hai phản ứng là hai đặc điểm của viên (độ cứng và cụ thể
sản xuất). Phổ đã được ghi lại từ 1100 đến 2500 nm với bước 4 nm (351
bước sóng).
5. Tập dữ liệu Lúa mì [16]: Phổ NIR của các mẫu lúa mì, trên đó có hai phản ứng (độ ẩm và
protein) đã được đo. Phổ đã được ghi lại từ 1100 đến 2500 nm với một bước
2 nm (701 bước sóng)

Trong nhiều trường hợp, thông tin trong phổ là dư thừa và số lượng biến lớn có thể dẫn đến
có nguy cơ bị trang bị quá mức rất cao. Điều này có thể được hạn chế bằng cách giảm các biến ban đầu đến mức tối đa

trong số 200 tính năng mới, trung bình so với tính năng ban đầu, bằng cách áp dụng kích thước cửa sổ thích hợp.
Việc không có thông tin nào bị mất có thể được xác minh bằng cách so sánh sai số bình phương trung bình gốc trong

xác thực chéo tập dữ liệu đã rút gọn với tập dữ liệu ban đầu (chỉ trên tập huấn luyện).

4. ĐÁNH GIÁ KẾT QUẢ

Các đối tượng được chia thành một tập huấn luyện, trên đó GA được chạy và một tập đánh giá, trên đó
các mô hình được tìm thấy bởi GA sẽ được thử nghiệm. Ngoại trừ tập dữ liệu Thực phẩm, khoảng 25% đối tượng là

Bản quyền 2000 John Wiley & Sons, Ltd. J. Hóa học 2000; 14: 643–655
Machine Translated by Google

648 R. LEARDI

được đặt trong tập đánh giá; chúng được chọn theo cách mang tính đại diện nhất có thể cho tập dữ
liệu toàn cầu [19]. Trong trường hợp tập dữ liệu Thực phẩm, trong đó PCA của ma trận X thể hiện xu
hướng đều đặn theo thứ tự sản xuất thì tập đánh giá gồm các đối tượng 2, 5, 8,…,98.

Hiệu suất của GA được đo bằng cách so sánh sai số bình phương trung bình gốc trong dự đoán (RMSEP)
của mô hình do GA đề xuất với RMSEP của mô hình chứa tất cả các biến (RMSEPall).

RMSEP được định nghĩa là

N
2
yi yi
i1
RMSEP
N

Trong đó N là số đối tượng trong tập đánh giá.


Việc sử dụng bộ xác thực bên ngoài là cần thiết để tránh kết quả quá lạc quan do trang bị quá mức.
Mặt khác, kích thước thường khá hạn chế của nó không cho phép chúng tôi thực hiện các kiểm tra thống
kê về tầm quan trọng của sự khác biệt trong RMSEP và do đó từ 'cải tiến' phải được hiểu là thuật ngữ
'định tính'. Điều được thể hiện rõ ràng qua các kết quả là thực tế là những dự đoán thu được từ các
mô hình cuối cùng không bao giờ tệ hơn những dự đoán thu được từ các mô hình toàn phổ phức tạp hơn
nhiều.

5. ĐIỀU TRỊ VÀ Cạo vảy

Ảnh hưởng của tiền xử lý và nhân rộng đến hiệu suất của GA cũng đã được nghiên cứu.
Ba phương pháp tiền xử lý (không có, đạo hàm bậc nhất và phương sai chuẩn tắc chuẩn (SNV)) cùng với ba
tỷ lệ (không có, căn giữa cột và tự động chia tỷ lệ) đã được nghiên cứu.
Đối với mỗi câu trả lời trong số chín câu trả lời, trước tiên, số lượng đánh giá tối ưu được tính
toán bằng cách áp dụng thử nghiệm ngẫu nhiên được mô tả trong Tài liệu tham khảo [11]. Sau đó, việc
lựa chọn biến được lặp lại năm lần để đánh giá độ biến thiên của kết quả và bước sóng đã chọn.
Điều này có nghĩa là, đối với mỗi câu trả lời trong số chín câu trả lời, chín kết hợp có thể đã được thực hiện,

kết quả là có tổng cộng 9 3 3 5 thuật toán di truyền đã được chạy.


Liên quan đến tiền xử lý, kết quả tốt nhất thu được khi không sử dụng tiền xử lý nào. Đối với đạo
hàm bậc nhất, điều này có lẽ là do ứng dụng của nó làm tăng mức độ nhiễu trong dữ liệu. Mặc dù bản
thân PLS không phải là vấn đề lớn nhưng điều này có thể rất nguy hiểm đối với một phương pháp rất
nhạy cảm với nhiễu như GA. Ít rõ ràng hơn là lý do tại sao GA tạo ra kết quả kém hơn khi SNV đã được
áp dụng trước đó.
Liên quan đến việc chia tỷ lệ, kết quả mà GA thu được khi không áp dụng tỷ lệ nào còn tệ hơn
nhiều. Điều này có thể là do thực tế là phần lớn phương sai được giải thích bằng độ lệch so với gốc,
các biến thể trong phương sai % CV (phản hồi được tối ưu hóa bởi GA) là rất hạn chế.

Với bất kỳ tiền xử lý nào, GA trên dữ liệu được tự động chia tỷ lệ trung bình sẽ tốt hơn GA trên dữ
liệu được căn giữa theo cột. Lý do cho hành vi này có lẽ là do việc tự động tính toán, làm tăng độ
nhiễu của các biến không có thông tin, khiến chúng thậm chí còn tệ hơn và do đó ít có khả năng được chọn hơn.
Trên toàn cầu, kết quả tốt nhất đã đạt được bằng cách áp dụng GA cho dữ liệu được tự động chia tỷ
lệ mà không cần xử lý trước. Ngoài việc tạo ra RMSEP trung bình thấp nhất, các bản sao được thực
hiện trong các điều kiện như vậy là những bản sao có độ biến thiên thấp nhất về cả RMSEP và các biến
được chọn. Do đó, trong phần tiếp theo, chỉ những kết quả này sẽ được thảo luận.

Bản quyền 2000 John Wiley & Sons, Ltd. J. Hóa học 2000; 14: 643–655
Machine Translated by Google

Thuật toán di truyền – PLS ĐỂ LỰA CHỌN ĐẶC ĐIỂM PHỔ 649

Hình 2. Bộ dữ liệu Đậu nành, độ ẩm phản ứng. Sơ đồ quang phổ và các bước sóng được chọn (mỗi đường đứt nét
tương ứng với các biến được chọn trong một mô hình khác). RMSEPall: 1 12 (tự động chia tỷ lệ), 1 11 (căn
giữa); RMSEP với năm mô hình GA (từ dưới lên trên của dòng): 0 95 (chín biến), 0 97 (13), 0 95 (sáu),
0 97 (16), 0 95 (bảy).

6. KẾT QUẢ

6.1. Bộ dữ liệu đậu nành

Sau khi GA thực hiện lựa chọn bước sóng, RMSEP của ba phản hồi trung bình thấp hơn lần lượt 14%,
20% và 13% so với RMSEPall tương ứng sau khi tự động điều chỉnh tỷ lệ và 14%, 15% và 5% so với
RMSEPall tương ứng sau đó . định tâm cột.
Nhìn vào các biến được chọn, người ta có thể nhận thấy rằng các vùng được xác định rất rõ ràng luôn được chọn
và các lựa chọn được thực hiện bởi các bản sao khác nhau khá nhất quán.
Hình 2 cho thấy các bước sóng được chọn với độ ẩm phản ứng, cùng với toàn bộ phổ (năm vạch đứt
nét ở phía dưới tương ứng với các bước sóng có trong năm mô hình GA). Có thể nhận thấy rằng mỗi
mô hình chứa một số biến từ 'xuống dốc' khoảng 2000 nm và một số biến từ ổn định ở khoảng 2100 nm.

Khi xử lý dầu phản ứng (Hình 3), mọi mô hình GA đều chọn các bước sóng từ bốn vùng được xác
định rõ ràng, tương ứng với 'lên dốc' và 'xuống dốc' của đỉnh ở bước sóng 1200 nm (nhưng không
bao giờ đến đỉnh) và hai vùng riêng biệt của độ giảm mềm trong khoảng từ 1500 đến 1650 nm.
Với protein phản hồi (Hình 4), nhiều bước sóng hơn được chọn, trải rộng trên các vùng rộng hơn
nhiều. Mặc dù có thể nhận ra một mô hình chung, nhưng có thể xảy ra trường hợp một số bước sóng
'giả' được phát hiện. Ngoài ra, các RMSEP tương ứng kém ổn định hơn so với các phản hồi trước
đó, mặc dù cần lưu ý rằng chúng luôn thấp hơn RMSEPall sau khi tự động định tỷ lệ và chỉ một
trong số chúng cao hơn RMSEPall sau khi căn giữa cột.

6.2. Bộ dữ liệu Xăng

Khả năng dự đoán của năm mô hình khá khác nhau, mặc dù RMSEP trung bình thấp hơn 15%

Bản quyền 2000 John Wiley & Sons, Ltd. J. Hóa học 2000; 14: 643–655
Machine Translated by Google

650 R. LEARDI

Hình 3. Bộ dữ liệu Đậu nành, dầu phản ứng. Sơ đồ quang phổ và bước sóng đã chọn. RMSEPall: 1 29 (tự động
chia tỷ lệ), 1 22 (căn giữa); RMSEP với năm mô hình GA: 1 03 (10 biến), 1 06 (chín), 0 94 (10), 1 04
(11), 1 10 (10).

Hình 4. Bộ dữ liệu Đậu nành, protein phản ứng. Sơ đồ quang phổ và bước sóng đã chọn. RMSEPall: 1 21 (tự
động chia tỷ lệ), 1 10 (căn giữa); RMSEP với năm mô hình GA: 1 07 (32 biến), 1 02 (36), 1 01 (36), 0 99
(38), 1 16 (45).

Bản quyền 2000 John Wiley & Sons, Ltd. J. Hóa học 2000; 14: 643–655
Machine Translated by Google

Thuật toán di truyền – PLS ĐỂ LỰA CHỌN ĐẶC ĐIỂM PHỔ 651

Hình 5. Tập dữ liệu Xăng. Sơ đồ quang phổ và bước sóng đã chọn. RMSEPall: 0 19 (tự động chia tỷ lệ), 0 21
(căn giữa); RMSEP với năm mô hình GA: 0 15 (20 biến), 0 14 (29), 0 19 (40), 0 16 (46), 0 17 (36).

hơn RMSEPall sau khi tự động chia tỷ lệ và thấp hơn 23% so với RMSEPall sau khi căn giữa cột. Cần lưu ý
rằng trong trường hợp xấu nhất RMSEP giống với RMSEPall sau khi tự động điều chỉnh tỷ lệ.
Hình 5 cho thấy năm vùng luôn được chọn, tương ứng với các đỉnh ở 1150 và
1390 nm, phần giảm dần của cực đại ở 1200 nm và phần vai ở 1420 và 1650 nm.

6.3. Tập dữ liệu Resorcinol

Đã thu được kết quả rất tốt trên tập dữ liệu này, vì năm mô hình rất nhất quán về cả khả năng dự đoán và
bước sóng đã chọn (Hình 6). Khả năng dự đoán được cải thiện 31% khi so sánh với RMSEPall sau khi tự động
định tỷ lệ và 76% khi so sánh với RMSEPall sau khi căn giữa cột. Cùng với ba vùng phổ điển hình của
resorcinol, một số biến đổi từ đỉnh rộng ở 7000 cm1 đều có mặt trong mọi mô hình. Mặc dù không đặc hiệu
cho resorcinol nhưng đóng góp của chúng rất phù hợp trong việc cải thiện khả năng dự đoán của mô hình.

6.4. Tập dữ liệu Thực phẩm

RMSEP giảm trung bình 18% (độ cứng) và 6% (sản xuất cụ thể) khi so sánh với RMSEPall sau khi tự động
chia tỷ lệ và 3% và 1% khi so sánh với RMSEPall sau khi định tâm cột. Trong các mô hình thu được từ bộ
dữ liệu này, có thể tìm thấy độ biến thiên cao hơn nhiều cho cả RMSEP và các bước sóng đã chọn.

Có thể quan sát thấy độ đặc hiệu rất cao của các vùng được chọn cho hai phản ứng, vì không có sự trùng
lặp giữa các bước sóng được chọn với độ cứng phản ứng (Hình 7) và các bước sóng được chọn với sản lượng
phản ứng cụ thể (Hình 8).

Bản quyền 2000 John Wiley & Sons, Ltd. J. Hóa học 2000; 14: 643–655
Machine Translated by Google

652 R. LEARDI

Hình 6. Tập dữ liệu Resorcinol. Sơ đồ quang phổ và bước sóng đã chọn. RMSEPall: 0 36 (tự động chia tỷ lệ),
1 06 (căn giữa); RMSEP với năm mô hình GA: 0 25 (18 biến), 0 24 (11), 0 25 (19), 0 26 (14), 0 25 (34).

Hình 7. Tập dữ liệu Thực phẩm, độ cứng đáp ứng. Sơ đồ quang phổ và bước sóng đã chọn. RMSEPall: 10 4 (tự
động chia tỷ lệ), 8 8 (căn giữa); RMSEP với năm mô hình GA: 9 3 (16 biến), 8 8 (10), 8 0 (17), 8 1 (27),
8 6 (13).

Bản quyền 2000 John Wiley & Sons, Ltd. J. Hóa học 2000; 14: 643–655
Machine Translated by Google

Thuật toán di truyền – PLS ĐỂ LỰA CHỌN ĐẶC ĐIỂM PHỔ 653

Hình 8. Tập dữ liệu Thực phẩm, đáp ứng sản xuất cụ thể. Sơ đồ quang phổ và bước sóng đã chọn.
RMSEPall: 2 99 (tự động chia tỷ lệ), 2 84 (căn giữa); RMSEP với năm mô hình GA: 2 91 (13 biến), 2 86
(17), 2 66 (17), 2 84 (18), 2 82 (16).

Hình 9. Bộ dữ liệu Lúa mì, độ ẩm phản hồi. Sơ đồ quang phổ và bước sóng đã chọn. RMSEPall: 0 28 (tự động
chia tỷ lệ), 0 27 (căn giữa); RMSEP với năm mô hình GA: 0 26 (15 biến), 0 24 (26), 0 25 (27), 0 26 (25),
0 25 (16).

Bản quyền 2000 John Wiley & Sons, Ltd. J. Hóa học 2000; 14: 643–655
Machine Translated by Google

654 R. LEARDI

Hình 10. Bộ dữ liệu Lúa mì, protein phản ứng. Sơ đồ quang phổ và bước sóng đã chọn. RMSEPall: 0 43 (tự động
chia tỷ lệ), 0 42 (căn giữa); RMSEP với năm mô hình GA: 0 32 (30 biến), 0 30 (23), 0 31 (27), 0 26 (15),
0 28 (19).

6.5. Tập dữ liệu lúa mì

Mức giảm RMSEP trung bình là 10% (độ ẩm phản ứng) và 32% (protein phản ứng) khi so sánh với RMSEPall
sau khi tự động chia tỷ lệ và 7% và 30% khi so sánh với RMSEPall sau khi định tâm cột. Đối với cả hai
phản ứng, độ tái lập tốt cũng thu được.
Đối với độ ẩm (Hình 9), đỉnh ở khoảng 1210 nm, các thung lũng ở 1320 và 2000 nm và cao nguyên ở
2150 và 2350 nm được chọn. Đối với protein (Hình 10), vùng duy nhất liên quan là một vùng rộng lớn
xung quanh đỉnh ở bước sóng 1200 nm. Khác với những gì đã được tìm thấy trong tập dữ liệu Thực phẩm,
trong trường hợp này một số vùng quang phổ được chọn cho cả hai phản hồi.

7. KẾT LUẬN

Nghiên cứu hiện tại cho thấy GA có thể là một phương pháp tốt để lựa chọn tính năng trong các tập dữ liệu phổ.
Kết quả thu được trên năm bộ dữ liệu khác nhau chứng minh rằng khả năng dự đoán của các mô hình thu
được với các bước sóng được chọn bởi thuật toán thường tốt hơn nhiều và dù sao cũng không bao giờ tệ
hơn khả năng dự đoán của toàn phổ. Một điểm liên quan khác là các biến được chọn hầu như luôn xác định
rõ ràng các vùng liên quan đến quang phổ.
Mã nguồn MATLAB của chương trình được tác giả cung cấp theo yêu cầu.

SỰ NHÌN NHẬN

Tác giả cảm ơn D. Bertrand, EM Qannari và J. Guilment đã cho phép chia sẻ bộ dữ liệu của họ. Công
trình này được hỗ trợ bởi các khoản tài trợ nghiên cứu từ Bộ Đại học và Nghiên cứu Khoa học Ý và từ
CNR (Hội đồng Nghiên cứu Quốc gia Ý), Comitato Scienze e Tecnologia Informazione.

Bản quyền 2000 John Wiley & Sons, Ltd. J. Hóa học 2000; 14: 643–655
Machine Translated by Google

Thuật toán di truyền – PLS ĐỂ LỰA CHỌN ĐẶC ĐIỂM PHỔ 655

NGƯỜI GIỚI THIỆU

1. Thomas EV, Haaland DM. So sánh các phương pháp hiệu chuẩn đa biến để phân tích quang phổ định lượng.
Hậu môn. Chem. 1990; 62: 1091–1099.

2. Geladi P, Kowalski BR. Hồi quy bình phương nhỏ nhất một phần: hướng dẫn. Hậu môn. Chim. Acta 1986; 185: 1–17.
3. Thomas EV. Sơ lược về hiệu chuẩn đa biến. Hậu môn. Chem. 1994; 66: 795–804.

4. Lindgren F, Geladi P, Ra¨nnar S, Wold S. Lựa chọn biến tương tác (IVS) cho PLS. Phần 1: Lý thuyết và thuật toán. J. Hóa học 1994;

8: 349–363.
5. Centner V, Massart DL, de Noord OE, de Jong S, Vandeginste BM, Sterna C. Loại bỏ thông tin không chính xác
các biến để hiệu chuẩn đa biến. Hậu môn. Chem. 1996; 68: 3851–3858.

6. Forina M, Casolino C, Pizarro Milla'n C. Trọng số dự đoán lặp lại (IPW) PLS: một kỹ thuật để loại bỏ các yếu tố dự đoán vô dụng

trong các bài toán hồi quy. J. Hóa học 1999; 13: 165–184.
7. Holland J. Thích ứng trong các hệ thống tự nhiên và nhân tạo. Nhà xuất bản Đại học Michigan: Ann Arbor, MI, 1975.

8. Goldberg DE. Giải thuật di truyền trong tìm kiếm, tối ưu hóa, và học máy. Addison-Wesley:

Đọc, MA, 1989.

9. Lucasius CB, Kateman G. Tìm hiểu và sử dụng thuật toán di truyền: Phần 1. Khái niệm, tính chất và
bối cảnh. Hóa học Intell. Phòng thí nghiệm. Hệ thống. 1993; 19: 1–33.

10. Hibbert DB. Thuật toán di truyền trong hóa học. Hóa học Intell. Phòng thí nghiệm. Hệ thống. 1993; 19: 277–293.

11. Leardi R, Boggia R, Terrile M. Thuật toán di truyền như một chiến lược lựa chọn đặc trưng. J. Hóa học 1992;
6: 267–281.

12. Leardi R. Ứng dụng thuật toán di truyền để lựa chọn tính năng trong các điều kiện xác thực đầy đủ và phát hiện ngoại lệ. J. Hóa
học 1994; 8: 65–79.

13. Leardi R. Thuật toán di truyền trong lựa chọn đặc trưng. Trong Thuật toán di truyền trong mô hình phân tử, Devillers J (ed.). Nhà
xuất bản Học thuật: London, 1996; 67–86.

14. Leardi R, Lupia'n˜ez Gonza'lez A. Các thuật toán di truyền được áp dụng để lựa chọn tính năng trong hồi quy PLS: cách thức và thời

điểm sử dụng chúng. Hóa học Intell. Phòng thí nghiệm. Hệ thống. 1998; 41: 195–207.

15. Forina M, Drava G, Armanino C, Boggia R, Lanteri S, Leardi R, Corti P, Conti P, Giangiacomo R, Galliena C, Bigoni R, Quartari I,
Serra C, Ferri D, Leoni O, Lazzeri L. Chuyển giao hàm hiệu chuẩn trong quang phổ cận hồng ngoại. Hóa học Intell. Phòng thí nghiệm.

Hệ thống. 1995; 27: 189–203.

16. Kalivas JH. Hai bộ dữ liệu của phổ hồng ngoại gần. Hóa học Intell. Phòng thí nghiệm. Hệ thống. 1997; 37: 255–259.

17. Cinier R, Guilment J. Phân tích định lượng resorcinol trong dung dịch nước bằng phương pháp quang phổ NIR. Rung động.
Quang phổ. 1996; 11: 51–59.

18. Vigneau E, Bertrand D, Qannari EM. Ứng dụng hồi quy nghiệm tiềm ẩn để hiệu chuẩn trong quang phổ cận hồng ngoại. So sánh với hồi

quy thành phần chính và bình phương nhỏ nhất một phần. Hóa học Intell. Phòng thí nghiệm. Hệ thống. 1996; 35: 231–238.

19. Pizarro Milla'n C, Forina M, Casolino MC, Leardi R. Trích xuất các tập con đại diện bằng phương pháp hàm thế và thuật toán di

truyền. Hóa học Intell. Phòng thí nghiệm. Hệ thống. 1998; 40: 33–51.

Bản quyền 2000 John Wiley & Sons, Ltd. J. Hóa học 2000; 14: 643–655

You might also like