You are on page 1of 78

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

LUẬN VĂN THẠC SĨ

Kỹ thuật chẩn đoán dao động dựa trên


Support Vector Machine kết hợp với
Phép biến đổi Wavelet cải tiến (TQWT)
PHÙNG MINH NGỌC
Ngoc.PMCB180006@sis.hust.edu.vn

Ngành Kỹ thuật Cơ điện tử

Giảng viên hướng dẫn: PGS. TS. Nguyễn Phong Điền


Chữ ký của GVHD

Viện: Cơ khí

HÀ NỘI, 05/2020
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SỸ

Họ và tên tác giả luận văn: PHÙNG MINH NGỌC


Đề tài luận văn: Kỹ thuật chẩn đoán dao động dựa trên Support Vector
Machine kết hợp với thuật toán Wavelet cải tiến (TQWT)
Chuyên ngành: Kỹ thuật Cơ điện tử (KH)
Mã số học viên: CB180006

Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn
xác nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng
ngày 23/05/2020 với các nội dung sau:

1. Bố cục lại các phần trong luận văn cho phù hợp với nội dung
nghiên cứu đã đưa ra.
2. Thay đổi một số thuật ngữ được dùng trong luận văn như: "mô hình
chẩn đoán” thành “quy trình chẩn đoán”, “ma trận các vector đặc
trưng” thành “ma trận gồm các vector đặc trưng”,…
3. Bổ sung thêm phần Đặt vấn đề nêu các nội dung như: Hiện trạng,
lý do làm luận văn, bố cục luận văn,… để đưa ra bức tranh toàn
cảnh trước khi đi vào nội dung chi tiết trong luận văn.
Ngày 30 tháng 05 năm 2020

Giáo viên hướng dẫn Tác giả luận văn

CHỦ TỊCH HỘI ĐỒNG


ĐỀ TÀI LUẬN VĂN
Kỹ thuật chẩn đoán dao động dựa trên thuật toán Support Vector Machine kết
hợp với Phép biến đổi Wavelet cải tiến – Tunable Q-Factor Wavelet Transform.

Giáo viên hướng dẫn


Ký và ghi rõ họ tên
Lời cảm ơn
Đầu tiên, tôi xin bày tỏ sự cảm ơn với Ban giám hiệu nhà trường, các thầy cô
phòng Đào tạo-Bộ phận đào tạo sau đại học đã giúp đỡ, giải đáp các thắc mắc
của tôi liên quan đến các thủ tục trong quá trình học tập tại trường.
Tôi xin gửi lời cảm ơn đến các thầy cô thuộc bộ môn Cơ học ứng dụng, các thầy
cô trực tiếp giảng dạy các học phần chuyên ngành Cơ điện tử đã cho tôi những ý
kiến đóng góp quý báu để tôi có thể hoàn thiện luận văn.
Đặc biệt, tôi xin chân thành gửi lời cảm ơn tới thầy PGS. TS. Nguyễn Phong
Điền đã hướng dẫn và chỉ bảo tận tình để giúp tôi hoàn thành luận văn này.

Tóm tắt nội dung luận văn


Luận văn nghiên cứu về lĩnh vực chẩn đoán tình trạng làm việc của máy móc dựa
trên tín hiệu đo dao động, nhằm phát hiện sớm những hư hỏng để từ đó khắc
phục, tránh gây thiệt hại đến việc vận hành, sản xuất.
Có nhiều phương pháp để chẩn đoán dao động và tác giả lựa chọn sử dụng thuật
toán Support Vector Machine được dùng trong lĩnh vực Trí tuệ nhân tạo, là một
hướng tiếp cận mới trên thế giới. Tuy nhiên để sử dụng Support Vector Machine,
cần phải thông qua bước tiền xử lý. Luận văn sử dụng Phép biến đổi Tunable Q-
Factor Wavelet để loại bỏ nhiễu tín hiệu dao động và chia tín hiệu thành các
thành phần con cơ bản. Ngoài ra, để làm giảm thiểu số chiều vector đặc trưng thu
được từ các thành phần con, Phép phân tích thành phần chính PCA cũng được áp
dụng bổ sung. Cuối luận văn, tác giả xây dựng một quy trình chẩn đoán mới trên
cơ sở kết hợp Support Vector Machine với Phép biến đổi Tunable Q-Factor
Wavelet. Đồng thời, một thí nghiệm trên hộp số bánh răng cũng được áp dụng để
kiểm chứng lại quy trình.
Công cụ tác giả sử dụng ở đây là phần mềm MATLAB để chạy quy trình chẩn
đoán mới. Kết quả chạy quy trình chẩn đoán cho ra kết quả nhận dạng tình trạng
làm việc của bánh răng đạt độ chính xác cao và phù hợp với giả thiết ban đầu.
Kết quả nghiên cứu của luận văn đã đưa ra một quy trình chẩn đoán dao động
mới, đóng góp vào sự phát triển ngành Chẩn đoán kỹ thuật dao động. Luận văn
cũng mở đường cho hướng tiếp cận áp dụng các thuật toán hiện đại (như Trí tuệ
nhân tạo, …) vào lĩnh vực chẩn đoán. Định hướng phát triển trong tương lai của
luận văn là cải tiến quy trình chẩn đoán mới đã xây dựng bằng việc sử dụng các
thuật toán mới như Phép phân tích thành phần chính dạng nhân tử.

HỌC VIÊN
Ký và ghi rõ họ tên
MỤC LỤC

ĐẶT VẤN ĐỀ ....................................................................................................... 1


CHƯƠNG 1. TỔNG QUAN ................................................................................ 3
1.1 Một số khái niệm cơ bản ............................................................................ 3
1.1.1 Giám sát và chẩn đoán ................................................................ 3
1.1.2 Giám sát và chẩn đoán dao động ................................................ 4
1.1.3 Đầu đo và hệ thống đo dao động ................................................ 5
1.2 Các phương pháp phân tích tín hiệu cơ bản ............................................... 8
1.2.1 Phân tích tín hiệu trong miền thời gian ....................................... 8
1.2.2 Phân tích tín hiệu trong miền tần số.......................................... 11
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT .................................................................. 16
2.1 Phép biến đổi Tunable Q-Factor Wavelet ................................................ 16
2.1.1 Giới thiệu về Phép biến đổi Wavelet ........................................ 16
2.1.2 Phép biến đổi Tunable Q-Factor Wavelet ................................. 17
2.2 Phép phân tích thành phần chính PCA..................................................... 19
2.2.1 Giới thiệu .................................................................................. 19
2.2.2 Các đặc trưng của vector ngẫu nhiên ........................................ 20
2.2.3 Các bước thực hiện PCA ........................................................... 21
2.2.4 Ví dụ minh họa cho PCA .......................................................... 22
2.3 Support Vector Machine (SVM) .............................................................. 23
2.3.1 Giới thiệu chung về Support Vector Machine .......................... 24
2.3.2 Thuật toán SVM ........................................................................ 28
2.3.3 Support Vector Machine trong bài toán phân chia lớp không
phân biệt tuyến tính ...................................................................................... 41
2.3.4 Support Vector Machine trong bài toán phân nhiều lớp ........... 49
2.3.5 Ví dụ áp dụng SVM cho bài toán phân loại hoa ....................... 52
CHƯƠNG 3. KẾT QUẢ ĐẠT ĐƯỢC.............................................................. 54
3.1 Xây dựng quy trình chẩn đoán mới sử dụng Support Vector Machine ... 54
3.2 Kết quả thực nghiệm ................................................................................ 56
3.2.1 Mô tả thí nghiệm với hộp số bánh răng .................................... 56
3.2.2 Áp dụng quy trình chẩn đoán mới cho thí nghiệm ................... 57
KẾT LUẬN ......................................................................................................... 68
TÀI LIỆU THAM KHẢO ................................................................................. 70
DANH MỤC HÌNH VẼ

Hình 1. 1: Đường đặc tính để giám sát tình trạng .................................................. 3


Hình 1. 2: Quy trình giám sát và chẩn đoán dao động cho thiết bị ........................ 4
Hình 1. 3: Hư hỏng phân bố (a) và hư hỏng cục bộ (b) trên bánh răng ................. 5
Hình 1. 4: Đầu đo gia tốc ....................................................................................... 5
Hình 1. 5: Đầu đo vận tốc ...................................................................................... 6
Hình 1.6: Đầu đo chuyển vị ................................................................................... 7
Hình 1. 7: Kết cấu của thiết bị đo và thu thập dữ liệu ........................................... 8
Hình 1. 8: Phổ Biên độ - Thời gian của ổ lăn hỏng vòng ngoài ............................ 8
Hình 1. 9: Sơ đồ lọc tín hiệu ................................................................................ 10
Hình 1. 10: Đường đặc tính tần số của bộ lọc thông thấp .................................... 10
Hình 1. 11: Phổ biên độ tín hiệu x1(t)x2(t) ........................................................... 14
Hình 1. 12: Phổ biên độ tín hiệu dao động tắt dần ............................................... 15

Hình 2. 1: Biểu diễn TQWT cấp 3 ....................................................................... 18


Hình 2. 2: Tín hiệu nhiễu ..................................................................................... 18
Hình 2. 3: Hàm tổn thất ........................................................................................ 19
Hình 2. 4: Tín hiệu sau khi khử nhiễu .................................................................. 19
Hình 2. 5: Hình chiếu của biển báo giao thông .................................................... 20
Hình 2. 6: Hai tập dữ liệu biểu diễn trong không gian 03 chiều .......................... 23
Hình 2. 7: Sử dụng PCA biểu diễn dữ liệu trong không gian hai chiều .............. 23
Hình 2. 8: Trước và sau khi sử dụng SVM .......................................................... 24
Hình 2. 9: Vô số mặt phân tách để phân chia 02 tập điểm Lam và Đỏ ............... 25
Hình 2. 10: Mặt phân tách tốt nhất trong phân loại 02 tập hợp điểm .................. 25
Hình 2. 11: Các Vector hỗ trợ trên một hợp điểm sau khi phân lớp .................... 26
Hình 2. 12: Lề SVM (Margin) được biểu diễn trên hình ..................................... 27
Hình 2. 13: Một định nghĩa khác về Lề SVM ...................................................... 27
Hình 2. 14: Lề SVM có độ rộng tối đa ................................................................. 28
Hình 2. 15: Hai lớp cần phân chia ........................................................................ 29
Hình 2. 16: Đường biên tạo bởi các Support vector ............................................ 31
Hình 2. 17: Phương trình đường biên tạo bới các Vector hỗ trợ ......................... 32
Hình 2. 18: Độ lớn của Lề SVM .......................................................................... 32
Hình 2. 19: Siêu phẳng phân tách hai Lớp dựa theo phương pháp ban đầu ........ 36
Hình 2. 20: Siêu phẳng mới dựa vào giả thiết đã cho .......................................... 37
Hình 2. 21: Minh họa cho biến mới thêm vào .................................................. 38
Hình 2. 22: Tập dữ liệu hoa Setosa và Versicolor ............................................... 41
Hình 2. 23: Sử dụng SVM để phân lớp cho dữ liệu ............................................. 41
Hình 2. 24: Biểu diễn tập hợp hai loại dữ liệu khác nhau .................................... 42
Hình 2. 25: Kết quả khi sử dụng phương pháp SVM ban đầu để phân Lớp ........ 42
Hình 2. 26: Phân bố ngẫu nhiên của các điểm tách biệt phi tuyến ...................... 43
Hình 2. 27: Biểu diễn tập hợp điểm từ không gian 02 chiều sang 03 chiều ........ 44
Hình 2. 28: Phân lớp hai tập dữ liệu điểm trong không gian 03 chiều ................ 44
Hình 2. 29: Ánh xạ biến không gian dữ liệu ban đầu thành không gian mới... 45
Hình 2. 30: Minh họa cho bài toán Multi-Class Classification ............................ 50
Hình 2. 31: Phân loại hoa sử dụng SVM ............................................................. 52
Hình 2. 32: Phân loại hoa bằng SVM sử dụng 02 thuộc tính khác ...................... 53

Hình 3. 1: Quy trình chẩn đoán dựa trên Support Vector Machine ..................... 54
Hình 3. 2: Mô hình thí nghiệm trên hộp số bánh răng ......................................... 56
Hình 3. 3: Bánh răng bị mòn ................................................................................ 57
Hình 3. 4: Phổ Biên độ - Thời gian của bánh răng bình thường, bị mòn và bị gãy
.............................................................................................................................. 58
Hình 3. 5: Tín hiệu gốc – Tín hiệu sau khử nhiễu – Nhiễu của bánh răng bình
thường .................................................................................................................. 59
Hình 3. 6: Hàm tổn thất của bánh răng bình thường ............................................ 59
Hình 3. 7: Các thành phần tín hiệu mới của bánh răng bình thường ................... 60
Hình 3. 8: Mức độ đóng góp năng lượng của các thành phần con đối với bánh
răng bình thường .................................................................................................. 60
Hình 3. 9: Minh họa PCA của Bánh răng bình thường, bị mòn và bị gãy ........... 62
Hình 3. 10: Đường phân chia các Lớp khác nhau ................................................ 63
Hình 3. 11: Phân vùng Bánh răng bình thường, bị mòn và bị gãy....................... 64
Hình 3. 12: Xoay nghiêng mặt phân chia ............................................................. 64
Hình 3. 13: Biểu diễn SVM trên mặt phẳng 3D................................................... 65
Hình 3. 14: Kết hợp PCA với Hàm nhân ............................................................. 66
Hình 3. 15: Kết quả phân chia SVM khi kết hợp PCA với Hàm nhân ................ 66
Hình 3. 16: Biểu diễn SVM mới trong mặt phẳng 3D ........................................ 67
DANH MỤC BẢNG BIỂU

Bảng 1: Các chỉ số thống kê thường dùng trong chẩn đoán dao động .................. 9
Bảng 2: Các đặc trưng của vector ngẫu nhiên...................................................... 20
Bảng 3: Một số Hàm nhân thường dùng .............................................................. 49
Bảng 4: Ma trận gồm các vector đặc trưng của bánh răng bình thường .............. 61
Bảng 5: Ma trận gồm các vector đặc trưng của bánh răng bị mòn nhẹ ............... 61
Bảng 6: Ma trận gồm các vector đặc trưng của bánh răng bị gãy răng ............... 62
ĐẶT VẤN ĐỀ

Trong công cuộc Công nghiệp hóa - Hiện đại hóa của đất nước ta hiện nay,
việc áp dụng các trang thiết bị máy móc vào sản xuất đang ngày một phổ biến.
Một trong những yêu cầu tiên quyết của các trang thiết bị là phải vận hành một
cách ổn định và đáng tin cậy để đem lại năng suất cao nhất. Muốn vậy, chúng cần
phải được thường xuyên bảo dưỡng và kiểm tra định kỳ để tránh những sự cố hư
hỏng làm ảnh hưởng tới việc sản xuất. Ngành chẩn đoán kỹ thuật ra đời giúp
nhận dạng hư hỏng từ rất sớm để tìm cách khắc phục đã đem lại nhiều lợi ích to
lớn cho việc vận hành máy móc và giúp nâng cao năng suất. Do vậy, ngành này
đang ngày một phát triển ở khắp nơi trên thế giới và kéo theo đó là một loạt
những phương pháp chẩn đoán mới ra đời dựa trên nền tảng vững chắc từ toán
học.
Trong các phương pháp chẩn đoán hiện đại thì phương pháp phân tích tín
hiệu dao động cơ học là một phương pháp hiệu quả để chẩn đoán hư hỏng và
giám sát tình trạng của các thiết bị máy móc. Một vài đại diện truyền thống trong
phương pháp này có thể kể ra như phương pháp Fourier, biến đổi Hilbert,
phương pháp Wavelet,… Trong những năm gần đây, một lĩnh vực khoa học mới
đang phát triển một cách mạnh mẽ đó chính là Trí tuệ nhân tạo. Thuật toán
Support Vector Machine ra đời trong lĩnh vực Trí tuệ nhân tạo, nhằm mục đích
phân loại và sàng lọc dữ liệu, tình cơ thay lại tỏ ra rất hữu hiệu trong việc chẩn
đoán tình trạng làm việc của thiết bị dựa trên tín hiệu dao động cơ học. Vì lẽ đó,
ứng dụng Support Vector Machine phục vụ mục đích chẩn đoán được quan tâm
đặc biệt và chính là nội dung chủ đạo trong luận văn này.
Dữ liệu được đưa vào phân loại sử dụng Support Vector Machine là những
tín hiệu thu được từ cảm biến đo gia tốc thường bao gồm nhiều nhiễu trong đó,
ngoài ra bản thân tín hiệu cũng có số điểm dữ liệu vô cùng lớn, phi tuyến, không
dừng và dải hẹp. Do đó, muốn thuật toán Support Vector Machine phân loại tốt
nhằm chẩn đoán, thì dữ liệu cần phải thông qua các bước tiền xử lý. Phương
pháp cải tiến của Wavelet là Tunable Q-Factor Wavelet Transform được áp dụng
để khử nhiễu cho tín hiệu và chia tín hiệu thành các thành phần con cơ bản để dễ
xử lý. Đồng thời, nhằm giảm thiểu số chiều mà không gây mất thông tin của dữ
liệu, Phép phân tích thành phần chính PCA cũng được áp dụng trong luận văn.

1
Bố cục trong luận văn được chia thành các phần:

- Chương I: Tổng quan


Trình bày cái nhìn tổng quan về lĩnh vực chẩn đoán dao động, bao gồm
một số khái niệm cơ bản và các phương pháp cổ điển được dùng trong
lĩnh vực này.
- Chương II: Cơ sở lý thuyết
Xây dựng cơ sở lý thuyết cho luận văn, nghiên cứu các nội dụng chính
gồm có:
 Phép biến đổi Tunable Q-Factor Wavelet.
 Phép phân tích thành phần chính PCA.
 Support Vector Machine.
- Chương III: Kết quả đạt được
Bao gồm hai nội dung chính như sau:
 Tác giả xây dựng một quy trình chẩn đoán mới dựa trên việc kết
hợp các thuật toán và phương pháp đã đề cập.
 Kiểm nghiệm mô hình mới bằng kết quả thực nghiệm chẩn đoán
tình trạng của Hộp số bánh răng.

Nội dung chi tiết sẽ được trình bày ở các phần tiếp theo dưới đây.

2
CHƯƠNG 1. TỔNG QUAN

1.1 Một số khái niệm cơ bản


1.1.1 Giám sát và chẩn đoán
1.1.1.1. Giám sát tình trạng
Giám sát tình trạng (condition monitoring) là các hoạt động nhằm phát hiện
sự hình thành và giám sát quá trình phát triển của hư hỏng trong các hệ thống kỹ
thuật (Hình 1.1). Các hư hỏng cục bộ (các vết nứt, mẻ) của chi tiết máy cần được
phát hiện sớm để tránh nguy cơ sự cố hư hỏng đột ngột. Các hư hỏng phân bố
(mòn, tróc, rỗ) cần được giám sát liên tục để dự đoán được thời gian hoạt động
còn lại và có kế hoạch thay thế kịp thời (Hình 1.2).

Hình 1. 1: Đường đặc tính để giám sát tình trạng

Việc giám sát tình trạng thiết bị có các ưu điểm sau:


- Loại bỏ các hư hỏng do dừng máy bất thường.
- Kế hoạch bảo dưỡng được lập chính xác và hiệu quả.
- Tối ưu hoá các thiết kế của thiết bị trong nhà máy.
- Có được các thông tin cụ thể của thiết bị trước khi đưa vào sử dụng.
1.1.1.2. Chẩn đoán kỹ thuật
Ở một mức cao hơn, chẩn đoán tình trạng kỹ thuật (diagnostic) có nhiệm vụ
nhận dạng, định vị và đánh giá mức độ của hư hỏng đã được phát hiện (Hình
1.2). Như vậy, chẩn đoán kỹ thuật là khoa học về nhận dạng trạng thái hoạt động
của các hệ thống kỹ thuật, bao gồm máy móc, thiết bị, các cụm chi tiết máy hoặc
các quá trình công nghệ (cắt gọt, vận chuyển vật liệu,...).

3
Hình 1. 2: Quy trình giám sát và chẩn đoán dao động cho thiết bị

Chẩn đoán tình trạng kỹ thuật có bốn đặc điểm cơ bản sau:
- Quá trình chẩn đoán dựa trên cơ sở đo gián tiếp.
- Quá trình chẩn đoán được tiến hành ngay trong quá trình làm việc của đối
tượng (không cần dừng máy hoặc tháo rời các chi tiết).
- Công việc chẩn đoán được thực hiện đối với từng thiết bị cụ thể xác định,
kết quả chẩn đoán cho biết trạng thái kỹ thuật của chính thiết bị đó và không thể
áp dụng cho mọi thiết bị khác.
- Quá trình chẩn đoán được tiến hành liên tục hay theo từng thời điểm nhất
định. Kết quả của chẩn đoán cho biết trạng thái kỹ thuật hiện thời của thiết bị và
có thể cho phép dự báo thời gian hoạt động còn lại của thiết bị.
1.1.2 Giám sát và chẩn đoán dao động
Có nhiều kỹ thuật được sử dụng để giám sát các thiết bị, máy móc quan
trọng. Những kỹ thuật này bao gồm phân tích dao động, siêu âm, đồ thị nhiệt,
phân tích dầu, kiểm tra bằng mắt… Trong các kỹ thuật này, phân tích dao động
là phương pháp hiệu quả và phổ biến nhất.
Tất cả máy móc đều bị rung. Trong quá trình chuyển đổi năng lượng, động
lực được sinh ra rồi kích thích, trực tiếp hoặc qua kết cấu, đền từng bộ phận của
máy móc. Vài bộ phận bên ngoài nằm trong đường lan truyền nên ta có thể dễ
dàng đo dao động do lực kích thích tạo ra.
Trong một thời gian dài mà quá trình này không thay đổi hoặc chỉ thay đổi
trong những giới hạn nào đó thì dao động đo được là bất biến. Hơn thế nữa, đối
với phần lớn máy móc, phổ tần số dao động đều có một dạng đặc trưng khi máy
vẫn còn tốt. Khi vấn đề hư hỏng bắt đầu phát triển trong máy, một số quá trình
động lực trong máy cũng thay đổi và một số lực tác động lên các bộ phận, hoặc
chính các đặc tính cơ học của các bộ phận, cũng thay đổi theo và do đó ảnh
hưởng đến các phổ dao động. Đây chính là cơ sở cho việc đo và phân tích dao
động trong việc giám sát và chẩn đoán tình trạng máy móc.

4
a) b)

Hình 1. 3: Hư hỏng phân bố (a) và hư hỏng cục bộ (b) trên bánh răng

Hầu hết máy móc khi được thiết kế chính xác sẽ cho ra mức dao động thấp.
Sau một thời gian hoạt động, tất cả máy móc đều chịu vấn đề mỏi, mòn, biến
dạng và lún bệ máy. Những tác động kể trên gây ra sự gia tăng khoảng hở giữa
các bộ phận, không đồng trục, xuất hiện các vết nứt trong các bộ phận và mất cân
bằng. Tất cả các vấn đề này đều dẫn đến sự tăng trưởng của mức dao động và sau
đó, động lực tác dụng lên các ổ trục cũng tăng lên tương ứng. Theo thời gian, các
mức dao động tiếp tục tăng trưởng để cuối cùng đưa đến hư hỏng làm máy phải
dừng hoạt động.
Những điều vừa nêu trên cho thấy dao động chính là chìa khóa để mở cửa
chứng kiến tình trạng bên trong máy móc. Việc giám sát và chẩn đoán dao động
được dựa trên đặc điểm là hầu hết các vấn đề hỏng máy sắp xảy ra đều phát ra
các tín hiệu báo động rất sớm dưới dạng dao động và vài tín hiệu này có thể được
nhận dạng tại những tần số đặc biệt. Do đó, việc phân tích dao động có thể cho
biết được bộ phận nào của máy đang hoặc sẽ có vấn đề và tại sao, và khi nào thì
phải sửa chữa. Đây chính là mục đích của giám sát và chẩn đoán dao động.
1.1.3 Đầu đo và hệ thống đo dao động
1.1.3.1. Đầu đo dao động
 Đầu đo gia tốc

Hình 1. 4: Đầu đo gia tốc

 Cấu tạo: Gồm khối lượng dao động (3) đặt trên các tấm vật liệu áp điện
(4). Hệ được đặt dưới lò xo (2) để tạo lực căng ban đầu (Hình 1.4) .
 Nguyên lý hoạt động: Đầu đo hoạt động dựa trên hiệu ứng áp điện, khi
đầu đo làm việc như một hệ dao động cưỡng bức, lượng biến dạng tuyệt

5
đối của phần tử cảm biến sẽ tỷ lệ tuyến tính với lực nén trên bề mặt các
tấm vật liệu áp điện và như vậy ta thu được tín hiệu điện có cường độ tỷ lệ
với . Mặt khác, do đầu đo làm việc ở chế độ dưới cộng hưởng, độ lớn
của tín hiệu điện tại đầu ra sẽ tỷ lệ với biên độ của gia tốc dao động tuyệt
đối A của đối tượng đo.
 Đặc điểm
- Không cần nguồn cung cấp điện.
- Kết cấu cứng vững và nhỏ gọn, khối lượng bé.
- Phạm vi đo được (biên độ và dải tần) rất rộng.
- Dễ dạng định vị và lắp đặt trên đối tượng đo.
- Hoạt động rất ổn định trong một thời gian dài.
- Chủng loại phong phú.
- Dải tần số đo được chịu ảnh hưởng của cách thức gắn đầu đo.
- Không thích hợp khi đo dao động có tần số thấp (nhỏ hơn 5 kHz).
- Tín hiệu đầu ra có trở kháng cao.
 Đầu đo vận tốc

Hình 1. 5: Đầu đo vận tốc

 Cấu tạo: Nam châm vĩnh cửu (2) (đóng vai trò khối lượng dao động) được
đặt trên lò xo mềm, tạo thành hệ dao động có tần số riêng nhỏ (4-20 Hz).
Cuộn dây (3) gắn cố định với vỏ đầu đo. Khi làm việc, đầu đo được gắn
cố định trền bề mặt đối tượng được đo (Hình 1.5).
 Nguyên lý hoạt động: Đầu đo hoạt động dựa trên hiệu tượng cảm ứng điện
từ. Chuyển động tương đối giữa cuộn dây và nam châm sinh ra một sức
điện động tỷ lệ với vận tốc dao động.
 Đặc điểm
- Không cần nguồn cung cấp điện.
- Đo được vận tốc dao động (tuyệt đối).
- Dễ dàng định vị và lắp đặt trên đối tượng đo.
- Chủng loại phong phú.
- Tín hiệu đầu ra có trở kháng thấp.
- Kết cấu kém cứng vững, kích thước lớn và nặng.
- Dải tần số đo được tương đối hẹp (dưới 2 kHz).
- Hoạt động kém ổn định, dễ sai lệch do va chạm.
- Chịu nhiều ảnh hưởng của môi trường làm việc.
6
 Đầu đo chuyển vị
 Cấu tạo:
- Đầu đo tiếp xúc: Lõi sắt từ (5) được gắn với thanh dẫn (2) và đầu
dò (1).
- Đầu đo không tiếp xúc: Bộ phận cảm biến gồm một cuộn dây nhỏ
được đặt trong một vỏ bảo vệ. Trong thân đầu đo chứa một vi mạch
có nhiệm vụ biến đổi năng lượng từ nguồn cung cấp thành sóng
điện từ có tần số cao (Hình 1.6).

Hình 1.6: Đầu đo chuyển vị

 Nguyên lý hoạt động: Đầu đo dịch chuyển đo biên độ dao động tương đối
giữa hai điểm, hoạt động dựa trên hiện tượng cảm ứng điện từ (đầu đo tiếp
xúc) hoặc nguyên lý dòng điện xoáy (đầu đo không tiếp xúc).
 Đặc điểm (đầu đo không tiếp xúc)
- Đo trực tiếp được dịch chuyển dao động.
- Kết cấu đầu đo nhỏ gọn.
- Không tiếp xúc với đối tượng đo, thích hợp với các phép đo dao
động của thiết bị quay trong môi trường làm việc khắc nghiệt.
- Định chuẩn đầu đo khá đơn giản.
- Có nhiều chủng loại và kích cỡ.
- Đo được dao động với tần số rất thấp.
- Tín hiệu điện áp ra có trị số tương đối cao, không cần bộ khuếch
đại.
- Cần nguồn cung cấp điện áp một chiều ổn định.
- Dải tần số đo được tương đối hẹp (0-1,5 kHz).
- Khó định vị và lắp đặt.
- Nhạy với tính chất vật liệu, độ nhám và sai số hình học của bề mặt
đối tượng đo.
1.1.3.2. Hệ thống đo dao động
Một hệ thống đo dao động cơ học cơ bản gồm hai phần: Các đầu đo dao
động gắn tại các điểm đo và các thiết bị đo với các nhiệm vụ khuếch đại, lọc tín
hiệu, lưu trữ và hiển thị. Các thiết bị đo tiên tiến hiện nay được tích hợp thêm bộ
chuyển đổi tương tự - số, các giao diện kết nối với máy tính có bộ vi xử lý và ổ
cứng để thu thập và lưu dữ liệu (Hình 1.7).

7
Hình 1. 7: Kết cấu của thiết bị đo và thu thập dữ liệu

 Bộ khuếch đại có hai chức năng là khuếch đại tín hiệu được cung cấp từ
đầu đo dao động và giữ ở mức ổn định tỷ lệ giữa tín hiệu hữu ích và nhiễu
phép đo.
 Bộ lọc tín hiệu (còn được gọi là bộ lọc tương tự hay bộ lọc antialiasing)
có đặc trưng của một bộ lọc thông thấp (low pass filter) với chức năng
kiểm soát thành phần tần số lớn nhất trong tín hiệu và giảm nhiễu. Qua đó
mà loại trừ được hiệu ứng phổ ảo (aliasing) gây ra sự sai lệch trong phổ
tần số.
 Bộ chuyển đổi tương tự - số dùng để rời rạc hóa tín hiệu, sau khi được
khuếch đại và lọc, cả về trị số và thời gian, quá trình này được gọi là lấy
mẫu tín hiệu. Tín hiệu thu được, dạng số, thuận tiện cho việc lưu trữ và xử
lý trên máy tính.
1.2 Các phương pháp phân tích tín hiệu cơ bản
1.2.1 Phân tích tín hiệu trong miền thời gian
1.2.1.1. Phân tích Biên độ - Thời gian

Hình 1. 8: Phổ Biên độ - Thời gian của ổ lăn hỏng vòng ngoài

Đây là phương pháp phân tích đầu tiên được sử dụng, qua sự thay đổi của
tín hiệu dao động, ta có thể nhận biết sự xuất hiện của các hư hỏng. Tuy nhiên,
việc chẩn đoán, nhận diện dạng hỏng lại gặp rất nhiều khó khăn (Hình 1.8).

8
Hiện nay, phân tích phổ Biên độ - Thời gian tỏ ra hiệu quả trong việc xác
định các dao động không đồng bộ với tốc độ quay của trục. Bên cạnh đó, từ phổ
thời gian, ta có thể xác định được các chỉ số thống kê.
1.2.1.2. Các chỉ số thống kê

Bảng 1: Các chỉ số thống kê thường dùng trong chẩn đoán dao động

Giá trị Tín hiệu liên tục (analog) Tín hiệu rời rạc (digital)

Giá trị
trung bình
T
1 1 N

hiệu dụng
(root mean
x
T0 x(t )2 dt x
N n1
( x[n])2
square-
RMS)
Giá trị
đỉnh x p  max( x(t )) x p  max( x[n])
dương
(maximum)
Giá trị
đỉnh âm x p  min( x(t )) x p  min( x[n])
(minimum)
Giá trị
đỉnh kép x p p  x p  x p x p p  x p  x p
(peak to
peak)
Hệ số
Crest x p p x p p
Cr  Cr 
(Crest x x
factor)
T
1
x   ( x(t )  x ) dt
3 N
1
Hệ số lệch
 3
x 0
x 
 3 ( x[n]  x ) 3

x n1

Hệ số
N
1
Kutorsis x   ( x[n]  x )
T 4
1
4 
(Kutorsis x  ( x(t )  x ) dt
4
 4
x 0
x n 1
factor)

9
1.2.1.3. Lọc số
Tín hiệu đo được thường chứa nhiều thành phần có tấn số khác nhau, do đó,
việc lọc bỏ những thành phần tín hiệu không cần thiết sẽ cho phép ta đánh giá kết
quả đo chỉ trong một dải tần số mong muốn.
Phép lọc tín hiệu được thực hiện theo hai cách: Sử dụng bộ lọc tương tự là
các thiết bị phần cứng như mạch lọc hoặc sử dụng bộ lọc số với thuật toán được
thực hiện nhờ chương trình phần mềm. Trong trường hợp thứ hai, ta nói đến quá
trình lọc số tín hiệu.

Hình 1. 9: Sơ đồ lọc tín hiệu

Quá trình lọc số là các thao tác, xử lý nhằm thay đổi sự phân bố tần số của
tín hiệu nhờ một bộ lọc số. Trong đó, bộ lọc số được hiểu là một hệ thống dùng
để làm biến đổi sự phân bố tần số của tín hiệu theo các chỉ tiêu cho trước. Các bộ
lọc số đang là đối tượng được quan tâm hiện nay trong phương pháp phân tích tín
hiệu số.

Hình 1. 10: Đường đặc tính tần số của bộ lọc thông thấp

Các bộ lọc số được phân loại theo chức năng lọc tín hiệu thành các kiểu như
sau:
- Bộ lọc thông thấp (low-pass filter): Có chức năng loại bỏ các thành phần
tín hiệu lớn hơn một tần số biên định trước .
- Bộ lọc thông cao (high-pass filter): Có chức năng loại bỏ các thành phần
tín hiệu nhỏ hơn một tần số biên định trước .
- Bộ lọc thông dải (band-pass filter): có chức năng loại bỏ các thành phần
tín hiệu bên ngoài một dải tần số định trước .

10
- Bộ lọc chắn dải (band-stop filter): có chức năng loại bỏ các thành phần tín
hiệu bên trong một dải tần số định trước .
Một quá trình lọc số được mô tả trên Hình 1.9 và 1.10, trong đó là tín
hiệu đo đầu vào, là tín hiệu được lọc và là hàm phản hồi xung của bộ
lọc. Về mặt toán học, quá trình lọc số được biểu diễn bởi biểu thức nhân chập
giữa tín hiệu vào và hàm phản hồi xung của bộ lọc:

y ( n )  x ( n ) * h( n)   x(m).h(n  m)
m 
(1. 1)

Các thông số của một bộ lọc số có thể được xác định nhờ đường đặc tính
tần số của bộ lọc , tức là phổ tần số của hàm phản hồi xung . Trong đó
ta sử dụng các ký hiệu:
 : Tần số giới hạn của dải thông và của dải chắn (các thành phần tín
hiệu có tần số bị loại bỏ).
 : Độ nhấp nhô của dải thông (thường nhỏ hơn 3 dB)
 : Độ nhấp nhô của dải chắn (thường nhỏ hơn 20 dB)
Hiện nay, các thuật toán lọc tín hiệu số và thiết kế một bộ lọc số đã được
tích hợp trong các phần mềm chuyên dùng về xử ký tín hiệu số, thí dụ MATLAB
với công cụ Signal Processing Toolbox. Căn cứ vào thuật toán, các bộ lọc số
được phân chia thành 02 loại: Lọc số có đáp ứng xung chiều dài hữu hạn (Finite
Impulse Response filter-FIR filter) và lọc số có đáp ứng chiều dài vô hạn
(Infinitive Impulse Response filter-IIR filter).
1.2.2 Phân tích tín hiệu trong miền tần số
 Phân tích tần số của một tín hiệu liên tục tuần hoàn theo thời gian - chuỗi
Fourier
Trong tính toán, ta ít gặp các dạng dao động điều hòa thuần túy mà thường
hay gặp các dạng dao động phức tạp biểu diễn dưới dạng hàm tuần hoàn có chu
kỳ . Các dạng dao động tuần hoàn này có thể được khai triển thành
tổng các hàm điều hòa dưới dạng:
 
x(t )   xk (t )  a0    ak cos(kt )  bk sin(kt )  (1. 2)
k 0 k 0

Trong đó, được gọi là các hệ số Fourier và được xác định như
sau:
T
1
a0   x(t )dt (1. 3)
T0

11
T
2
ak   x(t )cos(kt )dt , k  1,2,... (1. 4)
T0
T
2
T 0
bk  x(t )sin(kt )dt , k  1,2,... (1. 5)

Ta sử dụng ký hiệu sau:


1 ak 
a0  A; Ak  ak2  bk2 ; k  arctg ; fk  k
2 0 bk 2
Biểu thức (1.2) được viết lại như sau:
 
1
x(t )   xk (t )  A0   Ak cos(2 f k t  k ) (1. 6)
k 0 2 k 1

Công thức (1.6) được gọi là chuỗi Fourier thực một phía, do các tần số
có giá trị dương và các thành phần nhận giá trị thực. Tần số (ứng
với ) được gọi là tần số cơ bản, các tần số khác có trị số với
nguyên dương. Thành phần ứng với tần số là hằng số (hay là giá trị
trung bình của dao động). Các hàm điều hòa có biên độ và tần số được gọi
là điều hòa bậc .
Nếu biểu diễn dưới dạng phức, ta được :

 

x(t )  A0   Ak e  k k   e  k k 
1 1 i 2 f t  i 2 f t 

2 k 1 2
 
(1. 7)
  Ak e  k k    X k e  k 
1 i 2 f t  i 2 f t

k  2 k 

Công thức (1.7) còn được gọi là chuỗi Fourier hai phía, do các tần số
nhận giá trị trên toàn trục tần số và các biên độ có giá
trị phức. Đây là công thức được sử dụng trong tính toán chuỗi Fourier, đặc biệt
trong các phần mềm tính toán hiện nay. Tuy nhiên, chỉ các tần số dương mới
được sử dụng để phân tích dao động trong các ứng dụng thực tế.
Từ công thức (1.7), ta nhận thấy ngoài các biểu diễn tín hiệu trong miền
thời gian, ta còn có thể biểu diễn tín hiệu theo tần số dưới dạng:
- Đồ thị biểu diễn được gọi là phổ biên độ - tần số, gọi tắt là phổ
biên độ.
- Đồ thị biểu diễn được gọi là phổ pha - tần số, gọi tắt là phổ pha.
 Phân tích tần số của tín hiệu liên tục không tuần hoàn - biến đổi Fourier
Xét một tín hiệu không tuần hoàn có chiều dài hưu hạn (finite duration)
. Từ tín hiệu không tuần hoàn này, ta có thể tạo ra một tín hiệu tuần hoàn

12
chu kỳ bằng cách lặp lại tín hiệu với chu kỳ tần số tương ứng
. Rõ ràng, khi thì .
Cách biểu diễn này hàm ý rằng ta có thể thu được phổ biên độ của từ
phổ của bằng cách cho .
Chuỗi Fourier của tín hiệu tuàn hoàn là:

xP (t )  Xe
k 
k
i 2 kf Pt
(1. 8)

T /2
1 P
Xk  
TP TP /2
xP (t )ei 2 kfPt dt (1. 9)

Vì khi nên ta có thể thay thế bằng và giới


hạn tích phân trong (1.9) từ đến , ta có:

1
Xk  
TP 
x(t )ei 2 kfPt dt (1. 10)

Ta định nghĩa biến đổi Fourier của tín hiệu liên tục không tuần hoàn là
một hàm của biến tần số liên tục như sau:


 x(t )e
 i 2 ft
X( f )  dt (1. 11)


So sánh (1.9) và (1.11) ta thấy các hệ số của chuỗi Fourier chính là giá
trị của ở các giá trị khi chia cho , ta có:

1 1  k 
Xk  X (kf P )  X   (1. 12)
TP TP  TP 
Thay (1.12) vào (1.8), ta được:
1 
 k  i 2 kfPt
xP (t )   X T e
TP k   P

 xP (t )  f  X (k f )ei 2 k ft
1
Đặt f 
TP k 


 xP (t )  f  X (k f )ei 2 k ft
1
Đặt f  (1. 13)
TP k 

Rõ ràng, khi thì , trở thành vi phân và trở


thành biến tần số liên tục , tổng (1.13) trở thành tích phân liên tục với biến tần
số :

13


 X ( f )e
i 2 ft
x(t )  df (1. 14)


Tóm lại, ta có cặp biến đổi Fourier của tín hiệu liên tục, không tuần hoàn,
có độ dài hữu hạn là:
- Công thức tổng hợp (biến đổi Fourier ngược)


 X ( f )e
i 2 ft
x(t )  df (1. 15)

- Công thức phân tích (biến đổi Fourier thuận)


 x(t )e
 i 2 ft
X( f )  dt (1. 16)


Phổ tần số của tín hiệu cho phép ta xác định được các thành phần
tần số chứa trong tín hiệu. Phân tích phổ tần số
Phổ biên độ - tần số (hay còn được gọi là phổ biên độ) của một tín hiệu
cung cấp thông tin về sự phân bố các thành phần tần số có trong tín hiệu và
tương quan về mức biên độ của các thành phần này. Do đó, phổ biên độ được sử
dụng như một công cụ để nhận dạng nguồn gây rung động
Chú ý rằng theo công thức, phổ biên độ - tần số của tín hiệu rời rạc có dạng
đối xứng quanh điểm tần số Nyquist với giá trị , với là tần số lấy
mẫu. Như vậy ta chỉ cần biều diễn phổ biên độ - tần số của một tín hiệu rời rạc
trong phạm vi từ 0 (Hz) đến tần số Nyquist.

Hình 1. 11: Phổ biên độ tín hiệu x1(t)x2(t)

Trong trường hợp với tín hiệu điều biến là tín hiệu
tuần hoàn có tần số cơ bản và tín hiệu là tín hiệu tuần hoàn có tần số cơ
bản , phổ biên độ - tần số sẽ có dạng giống như trên hình 1.21. Ta gọi các thành
phần là các thành phần điều hòa chính, còn các thành phần tần số
khác phân bố xung quanh các điều hòa chính là các thành phần điều hòa phụ.
Các thành phần điều hòa phụ cách nhau một khoảng tần số đúng bằng tần số .

14
Hình 1. 12: Phổ biên độ tín hiệu dao động tắt dần

Trên hình 1.12 là phổ biên độ của một tín hiệu dao động tắt dần mô tả dao
động riêng (với tần số riêng ) của một hệ dao động có cản một bậc tự
do. Phổ này có đặc điểm của một phổ dải hẹp (small band spectrum), nghĩa là
các thành phần tần số với biên độ khác không chỉ nằm trong một dải tần số hẹp.

15
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT

2.1 Phép biến đổi Tunable Q-Factor Wavelet


2.1.1 Giới thiệu về Phép biến đổi Wavelet
Biến đổi Wavelet là một phương pháp biến đổi tín hiệu tương đối mới so
với các phương pháp biến đổi truyền thống như biến đổi Fourier hay biến đổi
Hilbert. Và cứ sau một khoảng thời gian, biến đổi Wavelet lại có thêm những cải
tiến bằng việc kết hợp thêm những thuật toán mới. Một trong những cải tiến mới
nhất của biến đổi Wavelet là biến đổi Tunable Q-Factor Wavelet mà ta sẽ bàn
đến trong mục tiếp theo.
Để bàn đến nguyên nhân ra đời của phép biến đổi Wavelet, ta trả lời một
câu hỏi căn bản tự nhiên là: Tại sao tín hiệu cần được biến đổi ?
Một tín hiệu cần phải biến đổi nhằm thu thập được nhiều thông tin hơn từ
tín hiệu thô ban đầu. Thông thường, tín hiệu thô được hiểu là tín hiệu được biểu
diễn trong miền thời gian hay nói cách khác tín hiệu là một hàm số phụ thuộc vào
thời gian. Khi biểu diễn tín hiệu thô trên đồ thị, ta sẽ có một trục biểu diễn thời
gian (Trục hoành) và một trục biểu diễn cường độ của tín hiệu (Trục tung). Biểu
diễn Biên độ - Thời gian của tín hiệu không phải bao giờ cũng là tốt nhất, đôi khi
nó sẽ làm ẩn đi các đặc trưng của tín hiệu mà người nghiên cứu mong muốn. Do
đó, tín hiệu thô này sẽ cần phải được biến đổi tiếp.
Một trong những biến đổi thông dụng và nổi tiếng nhất của tín hiệu là đưa
miền thời gian về miền tần số. Khi đó, đồ thị biểu diễn cho tín hiệu thay vì trục
hoành là trục thời gian sẽ thay bằng trục tần số. Đại diện cho phép biến đổi này là
một loạt các biến đổi Fourier và cải tiến của nó. Với phép biến đổi này, người ta
có thể phát hiện ra sự có mặt của các dải tần số khác nhau trong một tín hiệu. Tuy
nhiên hạn chế lại phát sinh khi mất đi trục thời gian, ta lại không xác định được
thời điểm xuất hiện của các dải tần số khác nhau. Điều này vô hình chung gây
khó khăn cho việc phân tích tín hiệu. Vì vậy, phép biến đổi Wavelet ra đời đã
giải quyết được khó khăn đó.
Phép biến đổi Wavelet sử dụng các hàm Wavelet cơ sở để biểu diễn cho
một tín hiệu bất kỳ. Các hàm Wavelet cơ sở được viết dưới dạng tổng quát:
1  t  
 s ,  t   0   (2. 1)
s  s 

Trong đó, là hệ số dịch chuyển và là hệ số tỷ lệ ( ). Việc


thay đổi tham số sẽ làm thay đổi tỷ lệ các hàm Wavelet, dẫn đến thay đổi độ
phân giải thời gian và tần số tại các vùng khác nhau. Tính chất này chỉ có ở phép
biến đổi Wavelet và đặc biệt hữu ích cho việc phân tích các tín hiệu không tuần
hoàn và các tín hiệu có tần số biến đổi nhanh theo thời gian.

16
Nếu ký hiệu là liên hợp phức của , khi đó biến đổi Wavelet
của tín hiệu được định nghĩa là:
 
1  t  
WTx  , s    x  t  s ,  t  dt   x  t  0   dt  x  t  s , t  (2. 2)
 s   s 
2.1.2 Phép biến đổi Tunable Q-Factor Wavelet
2.1.2.1. Các tham số đặc trưng
Biến đổi Tunable Q-factor Wavelet được viết tắt là TQWT, là một cải tiến
linh hoạt của biến đổi Wavelet thông thường cho tín hiệu dạng rời rạc.
Các tham số chính trong TQWT bao gồm:
 : Đặc trưng cho sự ước lượng hóa dao động hay nói cách khác nó là
thước đo số lượng dao động mà Wavelet biểu diễn. Định nghĩa tham số
cho một xung dao động bất ký là tỉ số giữa tần số trung tâm và dải tần
của nó.
f0
Q (2. 3)
BW

Định nghĩa này xuất phát từ việc thiết kế các mạch điện tử. Tham số
được chỉ định phải có giá trị từ 1 trở lên.
 : Đặc trưng phần dư của TQWT khi nó được chia thành các cấp độ khác
nhau. Tham số được chỉ định phải có giá trị lớn hơn 1 và được khuyến
khích lấy từ giá trị 3 trở lên. Ngoài ra, ảnh hưởng đến phần dư thừa
của TQWT nhưng không bằng đúng phần dư của nó.
 : Là các cấp biến đổi của TQWT mà biến đổi bao gồm một chuỗi các bộ
lọc hai kênh.
Selesnick đã đưa ra quan hệ giữa các tham số như sau:
 2
Q   1
 
 
r   (2. 4)
 1
 log   N / 8
J 
 log 1/  

Với là hệ số lọc thông thấp và là hệ số lọc thông cao.

17
Hình 2. 1: Biểu diễn TQWT cấp 3

2.1.2.2. Áp dụng TQWT để lọc nhiễu tín hiệu


Như chúng ta đã biết, một tín hiệu bất kỳ thu được bằng cảm biến
thường không tinh khiết mà bị ảnh hưởng bởi nhiều yếu tố gây nhiễu xung
quanh. Ta có, tín hiệu được viết như sau:
x t   y t   n (2. 5)

Với là tín hiệu gốc, là tín hiệu gần như tính khiết không có nhiễu
và là thành phần nhiễu.
Ngoài mục đích phân tích tín hiệu thành các thành phần cơ bản, một trong
những ứng dụng nổi bật của TQWT là dùng để khử nhiễu. Phương pháp để khử
nhiễu sử dụng TQWT được gọi là Basis Pursuit Denoising (BPD). BPD về cơ
bản là một bài toán tối ưu, ta cần xác định tham số để hàm tổn thất có dạng
đạt cực tiểu. Hay:
J 1
w  arg min x  TQWT 1  w   i wi
2

2 1
(2. 6)
w i 1

Sau khi tìm được , ta thu được tín hiệu tinh khiết bằng cách lấy
ngịch đảo TQWT của .
y  t   TQWT 1  w  (2. 7)

Để minh họa cho phương pháp BPD ta có ví dụ minh họa sau.


Cho tín hiệu nhiễu như sau.

Hình 2. 2: Tín hiệu nhiễu

Sử dụng phương pháp lặp để cực tiểu hóa Hàm tổn thất nhằm xác định .

18
Hình 2. 3: Hàm tổn thất

Sau khi thu được , lấy nghịch đảo TQWT của ta thu được tín hiệu tinh khiết.

Hình 2. 4: Tín hiệu sau khi khử nhiễu

2.2 Phép phân tích thành phần chính PCA


2.2.1 Giới thiệu
Phép phân tích thành phần chính (Principle Component Analysis - PCA) là
phương pháp để xử lý dữ liệu nhiều chiều. Dữ liệu nhiều chiều sau khi được xử
lý qua PCA sẽ có:
 Số chiều được giảm đi.
 Khả năng biểu diễn trong không gian mới có số chiều ít hơn nhưng lại tốt
tương đương biểu diễn dữ liệu trong không gian cũ.
 Các liên kết dữ liệu tiềm ẩn có thể được bộc lộ khi mà trong không gian
cũ thì khó phát hiện hơn.
 Các trục tọa độ trong không gian mới luôn đôi một trực giao với nhau, dù
cho trong không gian ban đầu, các trục có thể không trực giao.

19
Hình 2. 5: Hình chiếu của biển báo giao thông

Để dễ hình dung về phương pháp PCA, ta xem xét một ví dụ minh họa về
biển báo giao thông. Biến báo giao thông được biểu diễn trong không gian 03
chiều và có 03 hình chiếu: Đứng, bằng, cạnh. Rõ ràng Hình chiếu đứng (chiếu
chính diện mặt biển) đem lại cho ta nhiều thông tin hữu ích với ta hơn so với 02
hình chiếu còn lại. Như vậy, phép biểu diễn biển báo trên mặt phẳng chiếu đứng
được coi là cách biểu diễn tốt nhất và tốt tương đương với việc ta biểu diễn nó
trong không gian 03 chiều, mặc dù có số chiều ít hơn.
Từ ví dụ trên ta thấy, bản chất của PCA chính là đi tìm một hệ cơ sở mới
sao cho thông tin của dữ liệu chủ yếu tập trung ở một vài toạ độ, phần còn lại chỉ
mang một lượng nhỏ thông tin.
2.2.2 Các đặc trưng của vector ngẫu nhiên
Phần này nhắc lại kiến thức cũ để phục vụ nội dung tiếp theo là Các bước
thực hiện PCA. Ta có bảng tổng hợp các đặc trưng của vector ngẫu nhiên.
Bảng 2: Các đặc trưng của vector ngẫu nhiên

Đặc
STT Ý nghĩa Biểu diễn toán học
trưng

Giá trị mong muốn,


1 Kỳ vọng biểu diễn giá trị trung
bình của một biến

20
Ước lượng sự biến
động của giá trị mang
tính thống kê, nó cho
Độ lệch
2 biết sự chênh lệch về
chuẩn
giá trị của từng thời
điểm so với giá trị
trung bình
Là thước đo sự phân
tán thống kê của biến,
Phương
3 nó hàm ý các giá trị
sai
của biến đó ở cách giá
trị kỳ vọng bao xa
Đo sự biến thiên cùng
nhau của hai biến
Hiệp
ngẫu nhiên (phân biệt
4 phương
với phương sai đo độ
sai
biến thiên của một
biến)
2.2.3 Các bước thực hiện PCA
2.2.3.1. Tiền xử lý
Tiền xử lý là khâu rất quan trọng trong PCA. Bởi lẽ dữ liệu cần xử lý
thường biến động một cách bất thường. Giả sử dữ liệu cho dưới dạng ma trận, giá
trị cột 1 biến thiên trong khoảng và giá trị cột 2 biến thiên trong khoảng
. Do đó, cần phải có một bước tiền xử lý để chuẩn hóa giá trị trên
các cột của dữ liệu.
Có 02 cách tiền xử lý dữ liệu cho PCA là: Centered PCA và Normed PCA.
 Centered PCA
Đưa tất cả các vector đặc trưng (các giá trị cột) của dữ liệu về cùng một
gốc tọa độ.
 Bước 1: Tính giá trị trung bình của từng cột .

1 n
gj   xij
n i 1
(2. 8)

 Bước 2: Chuẩn hóa các phần tử trong cột.

xij  g j
xˆij  (2. 9)
n

Sau khi thực hiện 02 bước trên, ta thu được ma trận .


 Normed PCA

21
Đưa tất cả các vector đặc trưng (các giá trị cột) của dữ liệu về cùng một
gốc tọa độ, đồng thời chuẩn hóa về cùng độ lệch chuẩn bằng 1.
 Bước 1: Tính giá trị trung bình của từng cột .

1 n
gj   xij
n i 1
(2. 10)

 Bước 2: Tính độ lệch chuẩn của từng cột .

1 n
  xij  g j 
2
j  (2. 11)
n  1 i 1

 Bước 3: Chuẩn hóa các phần tử trong cột.

xij  g j
xˆij  (2. 12)
n j

Sau khi thực hiện 03 bước trên, ta thu được ma trận .


2.2.3.2. Xây dựng không gian mới
 Bước 1: Tính ma trận hiệp phương sai.

V  Xˆ T Xˆ (2. 13)

 Bước 2: Tìm trị riêng và vector riêng của và sắp xếp chúng theo thứ tự
trị riêng giảm dần.
Các trị riêng của :
1  2  ...   p (2. 14)

Các vector riêng tương ứng với các trị riêng của :
u1  u2  ...  u p (2. 15)
2.2.3.3. Chuyển dữ liệu từ không gian cũ sang không gian mới
Chọn vector riêng tương ứng với trị riêng lớn nhất để tạo thành các cột
ma trận . Khi đó, vector riêng này sẽ tạo thành một không gian mới. Chiếu
các điểm dữ liệu trong không gian ban đầu đã được tiền xử lý xuống không gian
mới.
U  u1 u2 ... uk  (2. 16)

ˆ
F  XU (2. 17)
2.2.4 Ví dụ minh họa cho PCA
Để minh họa cho PCA ta xét ví dụ sau đây.
Cho một tập gồm 02 loại dữ liệu biểu diễn trong không gian 03 chiều.

22
Hình 2. 6: Hai tập dữ liệu biểu diễn trong không gian 03 chiều

Nhìn ở hình trên ta thấy dữ liệu điểm lam và đỏ trong không gian 03 chiều
dường như đan xen với nhau và làm ta rất khó quan sát.
Sử dụng Phép phân tích thành phần chính PCA ta sẽ biểu diễn dữ liệu lên
không gian mới ít chiều hơn (02 chiều) và làm cho hai tập dữ liệu trở nên dễ
quan sát hơn trước.

Hình 2. 7: Sử dụng PCA biểu diễn dữ liệu trong không gian hai chiều

Ta thấy hiệu quả của PCA khi nhìn trên hình kết quảsau khi sử dụng cho ta
hai tập dữ liệu biểu diễn trong không gian ít chiều hơn và phân biệt tuyến tính,
trở nên dễ quan sát hơn.
2.3 Support Vector Machine (SVM)

23
2.3.1 Giới thiệu chung về Support Vector Machine
2.3.1.1. Khái niệm Support Vector Machine
Support vector machine (SVM) là một phương pháp được sử dụng nhiều
trong lĩnh vực trong khoa học máy tính, nhằm mục đích để phân tích dữ liệu, từ
đó phân loại dữ liệu vào các lớp khác nhau.
Ý tưởng của SVM như sau:
Cho một tập hợp điểm với những thuộc tính khác nhau được phân bố ngẫu
nhiên trong không gian nhiều chiều, SVM được sử dụng để tạo ra một siêu phẳng
tối ưu (Hyper - Plane) nhằm phân tách các điểm và chia chúng vào các phân lớp
khác nhau dựa trên đặc tính đã biết.
Hình 2.8 mô tả việc sử dụng SVM phân loại tập hợp các điểm Đỏ, Lục,
Lam tương ứng vào 03 lớp.

Hình 2. 8: Trước và sau khi sử dụng SVM

2.3.1.2. Phát biểu bài toán tối ưu Support Vector Machine trong phân
chia lớp
Như đã biết, thuật toán SVM sinh ra để phân loại các tập dữ liệu vào các
lớp khác nhau đã biết. Nói cách khác là tìm các siêu phẳng tối ưu giữa các tập dữ
liệu khác nhau để phân chia chúng.
Lấy ví dụ đơn giản là cho 02 tập dữ liệu, biểu diễn trực quan trên mặt phẳng
là 02 tập hợp điểm Lam và Đỏ. Nhiệm vụ của SVM là tìm ra một siêu phẳng
phân chia 02 tập hợp điểm ấy về 02 phía khác nhau. Một phía chứa các điểm
Lam, một phía chứa các điểm Đỏ. Các điểm nằm ở phía nào ở riêng phía ấy và
không bị trộn lẫn lại với nhau. Như hình minh họa bên dưới ta có thể nhận thấy
rằng, có vô số các mặt phân tách có thể sử dụng để phân chia 02 tập hợp điểm
Lam và Đỏ.

24
Hình 2. 9: Vô số mặt phân tách để phân chia 02 tập điểm Lam và Đỏ

Có quá nhiều mặt phân tách để phân chia được 02 tập dữ liệu ra 02 miền
khác nhau, theo lẽ tự nhiên, ta sẽ đặt câu hỏi đâu là mặt phân tách tốt nhất để
phân chia 02 tập dữ liệu trên? Bởi lẽ nếu ta chọn được mặt phân tách tốt nhất, thì
kết quả phân loại dữ liệu của ta sẽ đạt được độ chính xác cao nhất.
Rõ ràng để phân tách 02 lớp khác nhau một cách hợp lý nhất, thì mặt phân
tách không được quá gần với lớp này và quá xa với lớp còn lại, mà phải đảm bảo
tính ổn định đó chính là luôn luôn phải cách 02 lớp phân chia một lượng đồng
đều như nhau. Ngoài ra, tính tối ưu trong việc phân chia dữ liệu còn được thể
hiện ở điểm, đó là khoảng cách từ mỗi lớp đến mặt phân tách cũng luôn phải là
lớn nhất. Độ rộng lớn nhất sẽ cho phép việc phân chia trở nên rõ ràng nhất, từ đó
đưa ra kết quả đạt được sự chính xác cao nhất.
Từ nhận xét trên, ta rút ra rằng trong việc phân loại dữ liệu, mặt phân tách
tốt nhất dùng để phân chia 02 lớp khác nhau phải thỏa mãn 02 điều kiện sau:
 Khoảng cách của điểm gần nhất trên 02 lớp cần phân chia đối với mặt
phân tách phải bằng nhau.
 Khoảng cách đó phải là số lớn nhất.

Hình 2. 10: Mặt phân tách tốt nhất trong phân loại 02 tập hợp điểm

25
Nhìn hình 2.10 ta thấy, có 02 đường phân tách 02 tập hợp điểm Lam và Đỏ
là đường nét liền màu đen đậm và đường nét đứt màu xanh lá. Các điểm được
khoanh tròn là các điểm gần nhất trên mỗi tập với các đường phân tách. Ta nhận
thấy, cả đường phân tách màu đen và đường phân tách màu lục đều có khoảng
cách từ các điểm gần nhất trên mỗi tập đến chúng là như nhau. Nhưng chỉ có
đường màu đen mới là hợp lý hơn cả, vì khoảng cách từ các các điểm gần nhất
đến nó là lớn hơn nhiều so với khoảng cách từ các điểm gần nhất đến đường nét
đứt màu lục. Đường phân tách màu đen cho ta một sự phân tách rạch ròi và rõ
ràng nhất khi phân chia 02 tập dữ liệu Lam và Đỏ.
Tổng kết lại, tối ưu trong bài toán phân chia lớp của SVM là việc tìm ra
siêu phẳng (Hyper-Plane) để phân chia 02 lớp dữ liệu khác nhau, sao cho khoảng
cách từ các điểm gần nhất trên mỗi tập đến siêu phẳng ấy là bằng nhau và lớn
nhất.
2.3.1.3. Khái niệm Vector hỗ trợ (Support Vectors)
Các Vector hỗ trợ (Support vectors) được định nghĩa khi và chỉ khi có siêu
phẳng. Khi có một siêu phẳng được sinh ra, các điểm dữ liệu nằm gần nhất đối
với siêu phẳng, dĩ nhiên là khoảng cách từ chúng tới siêu phẳng phải bằng nhau,
được gọi là các Vector hỗ trợ.
Vector hỗ trợ chính là các điểm nằm trên biên giới của các tập dữ liệu. Từ
định nghĩa Vector hỗ trợ mà ta có thể định nghĩa được Lề SVM, là một trong
những định nghĩa quan trọng nhất trong lý thuyết tối ưu phân chia lớp của SVM.

Hình 2. 11: Các Vector hỗ trợ trên một hợp điểm sau khi phân lớp

2.3.1.4. Khái niệm Lề SVM (Margin)


Có định nghĩa Vector hỗ trợ, ta sẽ định nghĩa được Lề SVM.
Lề SVM (Margin) được định là khoảng cách của các Vector hỗ trợ nằm ở
các phân lớp khác nhau đối với siêu phẳng phân tách giữa chúng. Ngoài ra, trong
nhiều tài liệu tham khảo, Lề SVM còn được định nghĩa là khoảng cách giữa các
Vector hỗ trợ ở phân lớp này với các Vector hỗ trợ ở phân lớp kia.

26
Hai khái niệm thoạt nghe có vẻ khác nhau nhưng thật ra bản chất của chúng
là như nhau và đều cho ra kết quả phân chia giống nhau với cả hai cách định
nghĩa.
Hình 2.12 và 2.13 minh họa cho định nghĩa Lề trong SVM.

Hình 2. 12: Lề SVM (Margin) được biểu diễn trên hình

Hình 2. 13: Một định nghĩa khác về Lề SVM

Một trong những lưu ý quan trọng, cũng là ý tưởng cốt lõi cho bài toán tối
ưu hóa trong phân chia lớp SVM là:
SVM luôn luôn cố gắng tìm ra Lề có độ rộng lớn nhất, nhằm tạo ra được
một siêu phẳng có khoảng cách là xa nhất đối với các Vector hỗ trợ. Điều này
được thực hiện để giảm thiểu rủi ro việc phân lớp sai (Misclassification) trên
một tập dữ liệu điểm.
Hình 2.14 cho ta một siêu phẳng mà ở đó Lề có độ rộng lớn nhất, khi đó
việc phân chia lớp sẽ là tối ưu và hợp lý nhất, đem lại kết quả phân chia với độ
chính xác cao nhất.

27
Hình 2. 14: Lề SVM có độ rộng tối đa

2.3.2 Thuật toán SVM


2.3.2.1. Đặt vấn đề
Cho tập hợp dữ liệu điểm cần đào tạo (Trainning dataset) như sau:

Trong đó:
 là các vector thực trong không gian nhiều chiều ( là số chiều
của vector).
 chỉ nhận giá trị 1 hoặc -1.
Ta có là các vector thể hiện giá trị của dữ liệu nhập vào, còn đóng vai
trò như là nhãn của mỗi điểm dữ liệu. Ta cần phải tạo nhãn cho mỗi điểm nhằm
mục đích phân lớp cho tập hợp điểm dữ liệu, các điểm dữ liệu có nhãn giống
nhau sẽ được phân vào cùng một lớp. Nhãn cũng giống như là đặc tính chung
nào đó của các điểm dữ liệu khác nhau, cùng một đặc tính chung sẽ cùng được
đưa vào một lớp dữ liệu.
Như vậy, càng nhiều nhãn ta sẽ thu được càng nhiều lớp dữ liệu khác nhau.
Để nắm được bản chất của thuật toán SVM, ta xét trường hợp đơn giản nhất là
hai lớp dữ liệu. Ta sẽ cần 02 nhãn cho là 1 và -1, bây giờ, ta phải phân chia dữ
liệu thành 02 lớp là: Lớp 1 và Lớp -1.

28
Hình 2. 15: Hai lớp cần phân chia

Hình 2.15 minh họa một tập hợp điểm cần phân chia thành 02 lớp khác
nhau. Các điểm màu đen thuộc Lớp 1, tương ứng với phần đánh dấu (+). Các
điểm màu trắng thuộc Lớp -1, tương ứng với phần đánh dấu (-) như trên.
Ta cần tìm ra một siêu phẳng (H) thỏa mãn lý thuyết tối ưu để phân chia tập
hợp dữ liệu thành 02 lớp (+) và (-) như trên hình. Đầu tiên khi chưa tìm ra siêu
phẳng (H), ta gọi siêu phẳng cần tìm trong không gian có phương trình tổng quát
là:
1x1  2 x2  ...  n xn  b  0 (2. 18)

Viết gọn lại ta thu được phương trình của (H) là:
T x  b  0 (2. 19)
Trong đó:
 là vector pháp tuyến của siêu phẳng.
 là số thực
Như vậy các điểm màu đen sẽ thỏa mãn phương trình nằm ở
Lớp (+) và các điểm màu trắng sẽ thỏa mãn phương trình nằm ở
Lớp (-). Do đó, dù nằm ở phía nào thì tất cả các điểm cũng đều thỏa mãn tính
chất luôn là một số dương. Nhận xét này sẽ được áp dụng để giải
thích một trong những công thức phía dưới.
Trước hết, ta cần tìm được khoảng cách từ một điểm dữ liệu bất kỳ
tới siêu phẳng.
Nhắc lại kiến thức cũ:
 Khoảng cách từ một điểm bất kỳ đến một đường thẳng trong không
gian 02 chiều: (d) có dạng:

29
| ax  by  c |
d (2. 20)
a 2  b2

 Khoảng cách từ một điểm bất kỳ đến một mặt phẳng trong không
gian 03 chiều: (P) có dạng:
| ax  by cz d |
d (2. 21)
a 2  b2  c 2

Tổng quát hóa trong không gian nhiều chiều, khoảng cách từ một điểm dữ
liệu bất kỳ tới siêu phẳng (H): có dạng là :
| T x i  b |
d (2. 22)
||  ||

Ta có chỉ nhận 02 giá trị là 1 hoặc -1, và ta luôn giả sử rằng và


luôn cùng dấu, cho nên:
| T xi  b | yi (T xi  b) (2. 23)

Nhằm mục đích khai triển toán, công thức (2.4) trong trường hợp này còn
được viết dưới dạng:
yi (T x i  b)
d (2. 24)
||  ||

Từ công thức tính khoảng cách trên, ta sẽ tìm được Lề SVM chính là
khoảng cách nhỏ nhất có thể có từ một điểm bất kỳ tới siêu phẳng. Ta có công
thức Lề SVM là:
 y (T x i  b) 
M  min d   min  i  (2. 25)
 ||  || 
Trong bài toán tối ưu SVM, ta luôn cố gắng tìm ra một siêu phẳng để Lề
SVM có độ rộng lớn nhất. Theo công thức (2.8), ta cần đi tìm max của . Như
vậy ta cần tìm các hệ số của siêu phẳng (H) là: và để cho đạt giá trị lớn
nhất.
Để giải quyết bài toán này, ta sẽ trình bày ở mục bên dưới.
2.3.2.2. Giải quyết bài toán
Một trong những phương pháp để giải quyết bài toán này là ta cố gắng đơn
giản hóa bài toán đi càng nhiều càng tốt.
Ta nhận thấy rằng, các Vector hỗ trợ ở hai lớp khác nhau cách đều và nằm
ở hai phía của siêu phẳng. Hay nói cách khác chúng đối xứng qua siêu phẳng cần
tìm. Khi nhắc đến khái niệm về các Vector hỗ trợ, ta đã đưa ra một nhận xét là:
Các Vector hỗ trợ nằm trên biên giới của lớp dữ liệu. Biên giới dữ liệu chính là
vùng hoạch định dữ liệu tốt nhất để từ đó ta tìm ra siêu phẳng ngăn cách chúng.
30
Do đó, nếu có thể xác định được phương trình đường biên giới tạo thành từ các
Vector hỗ trợ, ta có thể giải quyết bài toán một cách đơn giản hơn.

Hình 2. 16: Đường biên tạo bởi các Support vector

Hình 2.16 ở trên, ta nhận thấy hai đường nét đứt được tạo bởi các Vector hỗ
trợ, chúng đối xứng với nhau qua siêu phẳng. Xác định được phương trình hai
đường biên trên sẽ giúp ta có thể dễ dàng hơn trong việc phân lớp dữ liệu.
Trước hết, ta thấy rằng việc tìm siêu phẳng dựa vào hai biến và . Khi
tăng và lên một cơ số lần, cụ thể là lần thì công thức xác định khoảng cách
từ một điểm đến siêu phẳng được viết lại:
yi (N  )T x i  ( N b) 
dN  (2. 26)
|| (N  ) ||

Rút gọn cả tử và mẫu cho thu được:


yi (T x i  b)
dN  d (2. 27)
||  ||

Như vậy khi tăng cả hai hệ số và lên lần, đồng nghĩa với việc ta tăng
cả tử số lên lần, thì khoảng cách từ một điểm bất kỳ đến siêu
phẳng có giá trị không đổi, do đó mà toàn bộ bài toán vẫn không thay đổi. Vậy
nên, không mất tính tổng quát, ta có thể giả sử rằng, với các cặp là tọa độ
các điểm Vector hỗ trợ, thì tử số nhận giá trị bằng 1. Ta có:
yi (T xi  b)  1 (2. 28)

Hay nói cách khác:


 Phương trình đường biên giới tạo bởi các Vector hỗ trợ nằm ở Lớp (+) là:
T x  b  1 (2. 29)

 Phương trình đường biên giới tạo bởi các Vector hỗ trợ nằm ở Lớp (-) là:
31
T x  b  1 (2. 30)

Hình 2. 17: Phương trình đường biên tạo bới các Vector hỗ trợ

Như vậy, ta đã xác định được phương trình đường biên giới tạo bởi các
Vector hỗ trợ. Khi đó khoảng cách từ các Vector hỗ trợ tới siêu phẳng cần tìm
hay Lề SVM là:
1
M  d min  (2. 31)
||  ||

Hình 2. 18: Độ lớn của Lề SVM

Hình 2.18 cho ta hình minh họa khoảng cách từ các Vector hỗ trợ đến
siêu phẳng hay nói cách khác chính là độ lớn của Lề SVM trong trường hợp này.
32
Mặt khác, đối với các điểm dữ liệu:
 Các điểm màu đen thuộc Lớp (+) có nhãn hay chính là các điểm
nằm ở phía trên đường thẳng thỏa mãn:
T x i  b  1 (2. 32)

Hay: yi T x i  b   1 (2. 33)

 Các điểm màu đen thuộc Lớp (-) có nhãn hay chính là các điểm
nằm ở phía dưới đường thẳng thỏa mãn:
T xi  b  1 (2. 34)

Hay: yi T x i  b   1 (2. 35)

Tựu chung lại, từ hai trường hợp trên ta thấy, tất cả các điểm dữ liệu
dù ở bất kỳ Lớp nào cũng đều thỏa mãn một phương trình duy nhất:
yi T x i  b   1  0 (2. 36)

Quay trở lại bài toán, theo lý thuyết tối ưu ta cần tìm ra một siêu phẳng (H)
mà tại đó Lề SVM có độ rộng lớn nhất. Nghĩa là ta cần xác định các biến số và
của siêu phẳng (H) để cho độ lớn của Lề SVM là đạt giá trị cực đại,

tương đương với việc ta tìm giá trị nhỏ nhất của hàm . Nhận thấy, là
một hàm có dạng căn thức của các tổng bình phương, nên để thuận tiện cho việc
tìm giá trị nhỏ nhất và các biến đổi tính toán sau này, ta sẽ đưa bài toán tìm giá trị
nhỏ nhất của về thành bài toán tìm giá trị nhỏ nhất của .Ngoài ra,
các hệ số và đặt trong phương pháp này vẫn phải tuân theo phương trình:
yi T x i  b   1  0 .
Như vậy, toàn bộ bài toán ban đầu phức tạp sẽ được đưa về thành một bài
toán đơn giản hơn được phát biểu như sau:
Tìm các hệ số và của siêu phẳng (H) thỏa mãn:
1
 2 ||  || min
2


 yi  x i  b   1  0
T
(2. 37)

 yi  1; i  1, n


Đến đây, bài toán đã được thu gọn trở thành một bài toán tìm cực trị của
một hàm số chịu các điều kiện giới hạn xác định. Đây là một trong những bài

33
toán kinh điển thuộc về lý thuyết tối ưu. Lời giải được đưa ra cho bài toán này là
sử dụng Bài toán đối ngẫu trong Phương pháp Lagrange sẽ được trình bày ở mục
dưới đây.
2.3.2.3. Phương pháp Lagrange
 Phương pháp nhân tử Lagrange
Phương pháp nhân tử Lagrange (đặt theo tên nhà toán học nổi tiếng Joseph
Louis Lagrange) là một trong những phương pháp cực kỳ hữu dụng để giải quyết
các bài toán tối ưu hóa có điều kiện ràng buộc giới hạn xác định.
Trước khi đi vào phương pháp, ta phát biểu bài toán như sau:
Cho một hàm số nhiều biến chịu điều kiện giới hạn thể hiện trong
phương trình . Tìm cực trị của hàm số .
Phương pháp nhân tử Lagrange đưa ra lời giải tổng quát của bài toán này,
thực hiện trong ba bước sau:
 Bước 1: Thêm một biến được gọi là biến nhân tử Lagrange để từ đó
đưa ra hàm số Lagrange như sau:
L  x,    f  x     f0  x   c  (2. 38)

Hàm Lagrange còn được mở rộng trong trường hợp tổng quát nếu điều
kiện giới hạn không chỉ là một hàm duy nhất mà là rất nhiều hàm như
sau:

L  x,    f  x    i  f 0  x   c 
n
(2. 39)
i 1

 Bước 2: Lấy Gradient (giải đạo hàm) của và cho bằng 0:


L  x,    0 (2. 40)

 Bước 3: Giải thu được nghiệm từ phương trình trên, thế vào hàm
ta thu được cực trị cần tìm.
 Hàm đối ngẫu Lagrange
Hàm đối ngẫu Lagrange đối ngẫu Lagrange trong trường hợp này là:
g     min  L  x,    (2. 41)
x

Trong đó: i  0, i  1, n
 Bài toán đối ngẫu Lagrange
Đưa ra hàm đối ngẫu Lagrange, thực chất ta đi tìm các giá trị của để hàm
Lagrange đạt giá trị cực tiểu. Tuy nhiên, trong trường hợp tổng quát, ta có vô số
giá trị ứng với số lượng phương trình ràng buộc. Trong lý thuyết tối ưu, ta
luôn cần tìm ra nghiệm tốt nhất trong các nghiệm để làm tối ưu hóa kết quả bài

34
toán. Bài toán Lagrange này cũng vậy, ta cần tìm ra giá trị tốt nhất để có được
kết quả tốt nhất.
Lời giải cho vấn đề này là ta cần tìm ra để hàm đối ngẫu Lagrange đạt giá
trị lớn nhất.

 

  arg max g     arg max min  L  x,   
x
 (2. 42)

Trong đó: i  0, i  1, n
 Áp dụng phương pháp Lagrange cho bài toán
Quay trở lại bài toán, ta cần xác định các hệ số và của siêu phẳng bằng
cách tìm cực tiểu của hàm số với điều kiện giới hạn là
. Để ý kĩ một chút, ta nhận thấy điều kiện giới hạn
không phải là một hàm mà là rất nhiều hàm phụ thuộc vào số lượng các điểm dữ
liệu . Do vậy, ta phải sử dụng hàm Lagrange ở dạng tổng quát hóa.
Hàm số Lagrange dạng tổng quát lúc này là:

L  , b,   
2 i 1

   i yi  T x i  b   1
1 2 n
 (2. 43)

Hàm đối ngẫu Lagrange là:


g     min  L ,b,    (2. 44)
w,b

Để tìm giá trị nhỏ nhất của hàm Lagrange theo các tham số là
và , ta lần lượt đạo hàm theo các tham số ấy, sau đó thay ngược trở
lại các tham số ấy vào phương trình trên, ta sẽ thu được hàm đối ngẫu Lagrange.
Chi tiết việc tính toán như sau, ta có:
L  , b,   n


 w
   
i 1
i xi yi  0

 L  , b,      y  0
n

 b
i 1
i i

(2. 45)
 n

   i xi yi
 i 1
n
 y 0

i 1
i i

Thay hai biểu thức trên vào hàm đối ngẫu Lagrange, kết hợp với tính chất
sau (với là ma trận đơn vị) ta sẽ thu được:

35
n
1
g      i   i  j yi y j xiT x j (2. 46)
i 1 2 i, j

Từ đây, ta thu được bài toán đối ngẫu Lagrange để tìm như sau:
 n 1 
  arg max g     arg max   i   i  j yi y j xiT x j  (2. 47)
 
 i 1 2 i, j 

i  0, i  1, n
n
Trong đó: 
 i yi  0
 i 1
Bằng việc cực đại hóa hàm đối ngẫu Lagrange, ta sẽ thu được giá trị cần
tìm.
Giải các biểu thức trên, ta sẽ thu được các giá trị tối ưu cho và . Ngoài
ra, sau này, nếu có thêm dữ liệu mới được đưa thêm vào, để xác định xem chúng
thuộc Lớp nào, ta chỉ cần xác định dấu của biểu thức: .
2.3.2.4. Lề mềm (Soft Margin)
 Ý tưởng của phương pháp và một vài khái niệm mở đầu
Soft Margin SVM hay còn gọi là Lề mềm là phương pháp cải tiến của
phương pháp SVM ban đầu. Minh họa cho phương pháp Lề mềm bằng ví dụ
dưới đây.
Cho bộ dữ liệu gồm hai tập hợp điểm khác nhau. Sử dụng phương pháp
SVM ban dầu ta tìm ra được siêu phẳng phân chia bộ dữ liệu vào hai Class riêng
biệt như hình bên dưới.

Hình 2. 19: Siêu phẳng phân tách hai Lớp dựa theo phương pháp ban đầu

Ta nhận thấy rằng, sau khi sử dụng phương pháp SVM, dù hai Lớp đã được
phân chia hoàn toàn tách biệt nhưng độ lớn của Lề SVM vẫn rất nhỏ. Mà một

36
trong những mục tiêu lớn nhất của thuật toán SVM là tăng tối đa độ lớn của Lề
SVM, nhằm nâng cao hiệu suất của thuật toán. Ngoài ra, với nhiều bộ dữ liệu
khác phức tạp hơn, thì siêu phẳng tìm ra không những có Lề SVM rất nhỏ, mà
trong nhiều trường hợp, không thể tìm ra được siêu phẳng nào phân tách hoàn
toàn tuyệt đối được các Lớp dữ liệu. Vậy nên nếu chỉ sử dụng phương pháp SVM
ban đầu, thì khi sử dụng sẽ đem lại khá nhiều hạn chế và chỉ sử dụng được trong
các bộ dữ liệu đơn giản tách biệt tuyến tính. Chính vì điều này mà một sự cải tiến
cho phương pháp SVM ban đầu ra đời mang lại hiệu quả tốt hơn.
Trong hình 2.19, ta nhận thấy có một vài điểm nằm sát với siêu phẳng, số
lượng những điểm này là rất nhỏ trong tổng số các điểm dữ liệu. Chính những
điểm này làm độ lớn của Lề SVM rất bé và trong nhiều trường hợp không có siêu
phẳng nào tạo ra được cũng vì nguyên nhân này. Vậy, nếu ta chịu hy sinh một
nhóm rất nhỏ các điểm trong tổng số các điểm xếp xít nhau như vậy thì sẽ đem
lại một kết quả tốt nhiều mà không làm ảnh hưởng quá lớn đến bài toán gốc.
Khi bỏ qua các điểm này và lập một siêu phẳng mới, kết quả thu được ở
hình bên dưới.

Hình 2. 20: Siêu phẳng mới dựa vào giả thiết đã cho

Kết quả ta thu được sau khi bỏ qua một số ít điểm dữ liệu nằm sát cạnh siêu
phẳng ban đầu là một siêu phẳng mới có Lề SVM lớn hơn rất nhiều so với siêu
phẳng cũ. Trong nhiều trường hợp nếu phương pháp SVM ban đầu không cho ta
một siêu phẳng phân tách dữ liệu, thì sau khi sử dụng giả thiết này ta sẽ tìm ra
được một siêu phẳng mới hoàn toàn thỏa mãn lý thuyết tối ưu.
Như vậy có thể thấy, việc hy sinh một số ít các điểm dữ liệu nằm sát cạnh
nhau giữa hai tập dữ liệu khác nhau ban đầu để tạo ra một siêu phẳng với Lề
SVM mới đem lại nhiều thay đổi tích cực, góp phần giải quyết bài toán một cách
tối ưu hơn mà không làm ảnh hưởng đến bài toán. Luôn luôn nhớ là những điểm
này chỉ chiếm số lượng rất ít so với tổng số các điểm dữ liệu đã cho, nếu nó
chiếm một lượng lớn hơn thì ý nghĩa của bài toán hoàn toàn thay đổi và việc bỏ

37
qua hoàn toàn các điểm này là không được phép. Trong trường hợp đó, để giải
quyết bài toán kiểu như vậy, ta sẽ đề cập đến cách giải trong phần sau.
Quay trở lại bài toán, trên hình 2.20, ta có một siêu phẳng mới được tạo ra,
đồng thời Lề SVM của siêu phẳng này khác với Lề SVM của phương pháp SVM
ban đầu, ta gọi Lề SVM mới là Lề mềm (Soft Margin), còn Lề SVM ban đầu là
Lề cứng (Hard Margin). Do đó mà phương pháp SVM ban đầu thường được gọi
là Lề cứng, còn phương pháp mới được giới thiệu có tên gọi là Lề mềm. Từ đây
có lẽ ta đã hiểu nguồn gốc tên gọi của phương pháp này.
 Thuật toán Soft Margin
Một khác biệt cũng như cải tiến của thuật toán Lề mềm so với thuật toán Lề
cứng đó chính là việc sử dụng thêm một biến mới có tên gọi là Slack variables .
tạo ra nhằm đề đo khoảng cách từ các điểm thuộc bộ dữ liệu đến siêu phẳng,
chính xác hơn là đến đường biên hai bên của siêu phẳng.

Hình 2. 21: Minh họa cho biến mới thêm vào

Với phương pháp Lề cứng ban đầu ta có điều kiện của tất cả các điểm dữ
liệu cần thỏa mãn là: , thì với phương pháp Lề mềm điều kiện
này cần được phải thay đổi là:
yi T x i  b   1  i (2. 48)

Hay: yi T x i  b   1  i  0 (2. 49)

Trong đó: i  0, i  1, n
Trong phương pháp mới, ta cần tìm các tham số của siêu phẳng mới là và
thỏa mãn:

38
 1 2 n

   C i  min
 2 i 1 

 yi  x i  b   1  i  0
T
(2. 50)

C  0, i  0, i  1, n


là một hằng số được quyết định bởi người lập trình, cho phép xác định
một lượng nhỏ các điểm dữ liệu cần bỏ qua.
Tương tự như cách giải với phương pháp Lề cứng cho bài toán tối ưu, ta sử
dụng phương pháp Lagrange để tìm cực tiểu hóa hàm Lagrange và sau đó chuyển
qua bài toán đối ngẫu. Do tương đồng với cách giải bài toán Lề cứng, nên trong
phần Lề mềm ta sẽ không đi quá sâu vào chi tiết cụ thể của giải thuật toán như
cách chúng ta đã làm với Lề cứng mà chỉ điểm qua các công thức quan trọng đã
được tìm ra và chứng minh.
Ta có, hàm Lagrange cho bài toán Lề mềm là:

L  , b,  ,  ,      C i   i  yi  x i  b   1  i    ii
n n n
1 2  T
 (2. 51)
2 i 1 i 1 i 1

Trong đó, là các tham số được thêm vào của hàm Lagrange.
Hàm đối ngẫu được xác định:
g  ,    min L , b, , ,   (2. 52)
w,b,

Giải các điều kiện đạo hàm ta thu được:


 n

   i yi xi
 i 1

 n
 i yi  0 (2. 53)
 i 1
i  i  C

Thay vào hàm đối ngẫu Lagrange ta thu được:


n
1
g      i   i  j yi y j xiT x j (2. 54)
i 1 2 i, j

Hàm đối ngẫu Lagrange lúc này không còn phụ thuộc vào nữa mà chỉ phụ
thuộc vào . Từ phương trình thứ ba trong các biểu thức giải điều kiện đạo hàm,
ta rút gọn lại được thành điều kiện của là: (Vì ).
Chuyển sang bài toán đối ngẫu, ta cần tìm thỏa mãn:

39
  arg max g    (2. 55)

n
 i yi  0
Với điều kiện:  i 1
0    C
 i

Ở đây, khác với phương pháp Lề cứng, trong phương pháp Lề mềm, điều
kiện của tham số được ta bổ sung thêm chặn trên là hằng số được nói ở trên.
Bằng việc cực đại hóa hàm đối ngẫu Lagrange với điều kiện bổ sung, ta sẽ thu
được giá trị cần tìm. Sau đó, ta sẽ quay lại tìm các tham số và để xác
định siêu phẳng mới.
2.3.2.5. Một vài nhận xét về thuật toán SVM
 Mục tiêu của thuật toán SVM là xây dựng một siêu phẳng (Hyper-Plane)
nhằm phân tách tập hợp dữ liệu và sắp xếp chúng vào các Lớp khác
nhau, sao cho đạt được độ chính xác cao nhất.
 Khi tiến hành xây dựng siêu phẳng, ta nhận thấy rằng có vô số siêu phẳng
có thể phân chia được tập hợp dữ liệu. Nhưng theo lý thuyết tối ưu mà ta
biết được, siêu phẳng tốt nhất là siêu phẳng có Lề SVM (đã được định
nghĩa) là lớn nhất.
 Lời giải cho bài toán tối ưu này được trình bày rất kỹ ở những mục trên,
nhưng tóm gọn lại là ta cần cực tiểu hóa hàm Lagrange, sau đó chuyển
qua bài toán đối ngẫu để xác định các tham số và của siêu phẳng.
Các điểm thêm mới vào muốn biết chúng nằm ở Lớp nào ta chỉ cần kiểm
tra dấu của biểu thức đã đề cập.
 Hai phương pháp phân chia Lớp được đề cập trong mục này là phương
pháp SVM ban đầu có tên gọi là Lề cứng và cải tiến của phương pháp
này là Lề mềm. Lề mềm lợi dụng việc hi sinh một vài điểm sát nhau
giữa các Lớp dữ liệu để tạo ra một siêu phẳng mới có Lề SVM tốt hơn,
hoặc trong nhiều trường hợp từ việc không tạo được đến việc có thể tạo
ra siêu phẳng. Nhưng cần chú ý là trong Lề mềm ta không được phép hy
sinh quá nhiều điểm dữ liệu so với tổng số điểm dữ liệu ban đầu, vì như
vậy ý nghĩa của bài toán đã hoàn toàn thay đổi.
 Thực chất, phương pháp tìm siêu phẳng với Lề SVM lớn nhất mà chúng
ta trình bày ở trên chỉ giải quyết cho những bài toán phân hai lớp mà hai
lớp đó phải là hai lớp tuyến tính. Còn trong trường hợp hai lớp đó không
phân biệt tuyến tính chúng ta vẫn chưa giải quyết trọn vẹn. Phần đó sẽ
được trình bày ở các mục tiếp theo.

40
2.3.3 Support Vector Machine trong bài toán phân chia lớp không
phân biệt tuyến tính
2.3.3.1. Đặt vấn đề
Như đã nói ở trên, với bộ dữ liệu cần xử lý phân biệt tuyến tính (Linear),
phương pháp SVM ban đầu tỏ ra khá hữu hiệu và đạt được độ chính xác cao. Ta
có thể lấy ví dụ minh họa cho điều này bằng việc phân lớp bộ dữ liệu sau.
Ví dụ 1: Ta có một tập hợp dữ liệu gồm hai bộ dữ liệu là thông số biểu diễn
của hai loại hoa được đặt tên là Setosa và Versicolor. Thông số cụ thể cho từng
loại hoa có thể được tìm thấy rất nhiều trên Internet với cái tên “Iris data” và vì
không liên quan nhiều đến bài toán nên ta không nói cụ thể trong phần này. Biểu
diễn hai tập dữ liệu ấy lên đồ thị ta thu được hình dưới đây:

Hình 2. 22: Tập dữ liệu hoa Setosa và Versicolor

Hình 2.22 minh họa cho hai tập dữ liệu, các điểm phía dưới chính là hoa
Versicolor, còn các điểm phía trên chính là hoa Setosa. Sử dụng phương pháp
SVM ban đầu ta dễ dàng phân chia được tập dữ liệu đó thành hai Lớp được minh
họa rất rõ ràng, các điểm được khoanh tròn chính là các Vector hỗ trợ.

Hình 2. 23: Sử dụng SVM để phân lớp cho dữ liệu

41
Ta có thể thấy kết quả phân chia là rất đẹp, đạt độ chính xác phân lớp là
100%. Như vậy thuật toán SVM là hữu hiệu trong trường hợp này. Tiếp theo, ta
xét đến bộ dữ liệu cho ví dụ tiếp theo như sau:
Ví dụ 2: Cho tập dữ liệu gồm 2 loại dữ liệu khác nhau được thể hiện như ở
hình dưới:

Hình 2. 24: Biểu diễn tập hợp hai loại dữ liệu khác nhau

Nhận thấy các điểm dữ liệu trên không có sự tách biệt tuyến tính. Các điểm
màu xanh nằm xen giữa các điểm màu nâu đỏ.
Ta thử sử dụng phương pháp SVM ban đầu để phân chia Class, ta thu được
kết quả như hình dưới:

Hình 2. 25: Kết quả khi sử dụng phương pháp SVM ban đầu để phân Lớp

42
Không khó để nhận ra, kết quả thu được là cực kỳ xấu. Ngay cả khi sử dụng
SVM để phân lớp thì các vẫn có sự trộn lẫn giữa các lớp vào nhau, Lớp đáng ra
chỉ chứa các điểm xanh thì lại chứa cả điểm nâu đỏ và ngược lại.
Như vậy, hiệu suất phân chia là cực kỳ thấp bởi lẽ đơn giản là do tập dữ liệu
không có sự tách biệt tuyến tính rõ ràng. Điều này đòi hỏi một phương pháp mới
ra đời, chuyên sử dụng với các bộ dữ liệu có sự tách biệt phi tuyến tính, phương
pháp mới có tên gọi Kernel SVM (Kernel Support vector machine).
2.3.3.2. Phương pháp Kernel SVM (Kernel Support vector machine )
 Giới thiệu
Trước hết để hiểu rõ bản chất của thuật toán Kernel SVM. Ta có ví dụ minh
họa.
Cho các điểm phân biệt phi tuyến tính trong một không gian hai chiều, hình
minh họa ở bên dưới.

Hình 2. 26: Phân bố ngẫu nhiên của các điểm tách biệt phi tuyến

Ta nhận thấy rằng, nếu dử dụng phương pháp SVM ban đầu để phân lớp
cho tập dữ liệu này thì kết quả thu được sẽ rất xấu hoặc gần như không thu được
kết quả gì trong việc phân lớp. Nhưng nhìn theo một hướng khác, nếu ta có thể
đưa bài toán này trong không gian 02 chiều, thành bài toán phân lớp trong không
gian 03 chiều, thì việc phân lớp sẽ trở nên dễ dàng hơn rất nhiều. Cụ thể, bố sung
thêm chiều không gian (z), phân bố của các điểm biểu diễn lúc này được minh
họa như hình bên dưới.

43
Hình 2. 27: Biểu diễn tập hợp điểm từ không gian 02 chiều sang 03 chiều

Hình 2. 28: Phân lớp hai tập dữ liệu điểm trong không gian 03 chiều

Từ đây, ta có thể nhận ra rằng trong không gian 03 chiều, 02 tập điểm Xanh
và Nâu đỏ đã trở nên rất tách biệt với nhau. Việc xây dựng siêu phẳng tối ưu để
phân lớp cho hai tập này cũng trở nên dễ dàng hơn bao giờ hết. Như hình trên,
mặt phẳng màu lục ngăn cách hai tập dữ liệu chính là siêu phẳng cần tìm.
Một bài toán tưởng như vô cùng khó khăn nhưng chỉ cần qua một thao tác
ánh xạ mở rộng số chiều trở nên vô cùng đơn giản và thu được kết quả vô cùng
đẹp. Đây chính là ý tưởng chính để xây dựng nên phương pháp Kernel SVM.
 Phương pháp Kernel SVM
Phương pháp Kernel SVM bản chất là chuyển không gian của tập dữ liệu
ban đầu thành không gian dữ liệu mới có số chiều hữu hạn, không gian dữ liệu
mới phải thỏa mãn là trong đó các Lớp dữ liệu khác nhau phải phân biệt tuyến

44
tính hoặc gần như phân biệt tuyến tính. Khi đó, việc phân lớp sẽ trở nên dễ dàng
hơn.
Để làm được điều này, Kernel SVM sử dụng các Hàm nhân (Kernel
function) để chuyển không gian dữ liệu ban đầu lên một không gian mới tốt hơn.
Các Hàm nhân thường tạo ra dữ liệu mới có số chiều cao hơn so với số chiều dữ
liệu ban đầu. Có rất nhiều Hàm nhân để chúng ta lựa chọn. Tùy vào mỗi bộ dữ
liệu khác nhau mà ta sử dụng các Hàm nhân khác nhau, sao cho khi sử dụng
chúng đem lại hiệu quả phân lớp là tốt nhất. Các Hàm nhân thường hay được sử
dụng sẽ được ta trình bày ở phần tiếp theo, bây giờ ta xét đến cơ sở toán học của
phương pháp Kernel SVM.
Nhắc lại kiến thức cũ, như đã biết, trong phương pháp SVM, siêu phẳng
phân chia hai Lớp dữ liệu có dạng:
T x  b  0
Trong đó, và là các tham số của siêu phẳng, là tập hợp các
điểm dữ liệu trong không gian chiều.
Nhiệm vụ của chúng ta là thay đổi không gian tập hợp các điểm dữ liệu, từ
không gian cũ lên không gian mới có số chiều chiều cao hơn và làm cho các Lớp
dữ liệu trở nên phân biệt tuyến tính rõ nét hơn. Muốn vậy, ta sẽ sử dụng một ánh
xạ biến tập hợp các điểm dữ liệu ban đầu trong không gian chiều, thành
tập dữ liệu mới là trong không gian chiều.
x    x
:
d
 D

Hình 2. 29: Ánh xạ biến không gian dữ liệu ban đầu thành không gian mới

Trong ví dụ minh họa hình 2.29, tập dữ liệu từ không gian 02 chiều nhờ
ánh xạ mà chuyển sang được không gian 03 chiều. Trong không gian mới, tập

45
dữ liệu có sự tách biệt tuyến tính rõ ràng hơn, nên phân lớp dễ dàng hơn. Như
vậy, ta đã thấy được vai trò của ánh xạ .
Khi đó, siêu phẳng mới được tạo ra trong không gian có dạng:
T   x   b  0 (2. 56)

Như ta đã biết, với một bộ dữ liệu thông thường, việc sử dụng thuật toán Lề
mềm sẽ đem lại hiểu quả phân lớp cao hơn so với thuật toán SVM ban đầu là Lề
cứng. Do đó, để phát triển phương pháp Kernel SVM, ta sẽ đi từ thuật toán Lề
mềm. Vì vậy, ta sẽ sử dụng các kết quả của thuật toán Lề mềm làm cơ sở cho
phương pháp Kernel SVM.
Ta có hàm đối ngẫu trong bài toán Lề mềm là:
n
1
g      i   i  j yi y j xiT x j
i 1 2 i, j
 n

   i yi xi
 i 1

n
Với các biểu thức được tìm ra là:  i yi  0
 i 1
0  i  C


Trong đó:
 là tham số đưa thêm vào trong hàm Lagrange
 là hằng số được người lập trình nhập vào nhằm cân đối giữa độ lớn Lề
SVM và lượng các điểm dữ liệu hy sinh để tạo ra siêu phẳng mới.
Mặt khác, với biểu thức vừa tìm được, phương trình của siêu phẳng được
viết lại là:
n

 y x
i 1
T
i i i xb  0 (2. 57)

Chuyển sang bài toán đối ngẫu, ta có:


 n
1 
  arg max g     arg max   i   i  j yi y j xT i x j  (2. 58)
 
 i 1 2 i, j 

n
 i yi  0
Với điều kiện:  i 1
0    C
 i

Bây giờ, trở lại với thuật toán Kernel SVM, sử dụng ánh xạ chuyển từ
, ta thu được lần lượt các biểu thức:
 Phương trình siêu phẳng trong không gian mới:

46
 y  x   x   b  0
n
T
i i i j (2. 59)
i 1

 Bài toán đối ngẫu:


 n 
  arg max   i   i  j yi y j   xi    x j  
1 T
(2. 60)

 i 1 2 i, j 

n
 i yi  0
Với điều kiện:  i 1
0    C
 i

Bây giờ, ta sẽ đi vào trọng tâm thuật toán Kernel SVM. Ta nhận thấy rằng,
việc tính toán trực tiếp các hàm trên chiều không gian mới có số chiều cao
hơn sẽ mất rất nhiều thời gian và công sức, chưa kể nếu tính toán trên máy tính,
nó sẽ tiêu thụ rất nhiều bộ nhớ. Điều này làm ảnh hưởng lớn đến hiệu suất và thời
gian thực hiện chương trình. Như vậy, sẽ làm cho phương pháp này trở nên kém
hiệu quả. Do đó, để khắc phục vấn đề này, phương pháp Kernel sẽ không đi tính
toán trực tiếp hàm , thay vào đó nó sẽ đi tính biểu thức tích vô hướng có
dạng . Bởi lẽ biểu thức này xuất hiện trong những phương trình
quan trọng nhất của thuật toán Lề mềm là phương trình siêu phẳng và bài toán
đối ngẫu Lagrange như đã viết ở trên.
Kỹ thuật mà chúng ta vừa trình bày ở trên có tên gọi là Kernel Trick , nội
dung của nó là thay vì tính trực tiếp hàm mới là ta chỉ cần tính tích vô
hướng dựa trên hai điểm dữ liệu bất kì là và . Điều này sẽ cải
thiện rất nhiều hiệu suất và điều kiện tính toán khi ta thực hiện tính toán trên máy
tính. Và biểu thức tích vô hướng ở trên có tên gọi riêng là Hàm nhân (Kernel
Function). Ta có Hàm nhân với cặp điểm dữ liệu bất kỳ có dạng:
k  x, y     x    y 
T
(2. 61)

Khi đó, phương trình siêu phẳng và bài toán đối ngẫu được viết lại là:

 y k  x , x   b  0
n

i i i j (2. 62)
i 1

 
i  j yi y j k  xi , x j  
n
1
  arg max   i   (2. 63)

 i 1 2 i, j 

Thực tế cho thấy việc tính toán các Hàm nhân sẽ dễ dàng và tiết kiệm được
nhiều thời gian tính toán hơn nhiều việc tính riêng từng hàm rồi nhân
chúng lại với nhau. Do đó, mà phương pháp sử dụng các Hàm nhân mới đem lại
hiệu quả trong việc phân lớp đến như vậy. Nhưng không phải bất kỳ Hàm nhân
nào cũng được sử dụng, các Hàm nhân phải tuân thủ theo một số tính chất toán
47
học nhất định và thường chỉ một số ít các Hàm nhân mới được sử dụng và đem
lại hiệu quả tính toán cao trong bài toán phân lớp. Trong phần tiếp theo, chúng ta
sẽ điểm qua các Hàm nhân thường được sử dụng.
2.3.3.3. Một số Hàm nhân thường dùng
 Linear Kernel
k  x, y   x T y (2. 64)

Ta nhận thấy rằng, Linear Kernel không làm thay đổi gì không gian của tập
dữ liệu ban đầu, bởi lẽ ánh xạ  đồng nhất bằng 1. Bản chất của nó vẫn là thuật
toán Soft Margin ban đầu nhưng nhờ Linear Kernel mà tối ưu hóa khối lượng và
thời gian tính toán. Vì bản chất vẫn là phương pháp Soft Margin nên nó chỉ tác
dụng phân lớp hiệu quả trên bộ dữ liệu tách biệt tuyến tính. Do đó mà tên gọi của
nó mới là Linear (tuyến tính).
 Polynomial Kernel
k  x, y    xT y  1
d
(2. 65)

Trong các ứng dụng thực tế, được sử dụng phổ biến nhất cho
Polynomial Kernel.
 Gaussian Kernel – Radial Basis Function (RBF)
2
x y

k  x, y   e 2 2
(2. 66)

Gaussian Kernel hay Radial Basis Function (RBF) là Hàm nhân được dùng
nhiều nhất trong thực tế.
 Sigmoid Kernel (Hyperbolic Tangent Kernel)
k  x, y   tanh  xT y  c  (2. 67)

Từ đây, ta thiết lập được bảng một số Hàm nhân thường dùng như
sau:

48
Bảng 3: Một số Hàm nhân thường dùng

Hàm nhân Công thức Điều kiện

Linear Kernel k  x, y   x T y

k  x, y    xT y  1
Polynomial d

Kernel d 0
2
Gaussian Kernel x y

(RBF Kernel) k  x, y   e 2 2
 0
Sigmoid Kernel k  x, y   tanh  xT y  c 

2.3.3.4. Một vài nhận xét về thuật toán Kernel SVM


 Trong đa số các trường hợp, tập dữ liệu của ta không phân biệt tuyến tính,
muốn phân chia Lớp cho tập dữ liệu này ta phát triển một phương pháp
mới là Kernel SVM cho phép chuyển không gian dữ liệu ban đầu sang
một không gian mới mới có khả năng phân biệt tuyến tính hiệu quả hơn.
 Kỹ thuật cốt lõi trong thuật toán Kernel SVM là Kernel Trick cho phép
tính toán biểu thức tích vô hướng của hai điểm dữ liệu bất kỳ trong
không gian dữ liệu mới sau khi được ánh xạ. Biểu thức tích vô hướng ấy
có tên gọi là Hàm nhân.
 Một số Hàm nhân được sử dụng phổ biến là: Linear Kernel, Polynomial
Kernel, Gaussian Kernel (RBF Kernel), Sigmoid Kernel. Trong đó,
Gaussian Kernel hay còn gọi là RBF Kernel được áp dụng nhiều nhất
trong thực tế.
2.3.4 Support Vector Machine trong bài toán phân nhiều lớp
Trong các phần trước chúng ta đã đề cập đến các thuật toán phân lớp SVM
là Lề cứng, Lề mềm, Kernel SVM, giải quyết các bài toán phân lớp từ bộ dữ liệu
phân biệt tuyến tính đến bộ dữ liệu không phân biệt tuyến tính. Nhưng trong tất
cả các phương pháp đó, chúng ta chỉ mới giải quyết được bài toán phân lớp chỉ
với hai Lớp dữ liệu. Bài toán phân lớp với hai Lớp dữ liệu còn được gọi là bài
toán Binary Classification. Vậy theo một cách tự nhiên, chúng ta sẽ đặt câu hỏi
nếu có nhiều hơn hai Class thì bài toán phân lớp sẽ được giải quyết như thế nào?
Phần này sẽ trả lời cho ta câu hỏi đó, chính là phương pháp giải quyết bài
toán phân lớp với số Lớp lớn hơn hoặc bằng hai. Bài toán phân nhiểu lớp với số
Lớp lớn hơn hai còn gọi là bài toán Multi-Class Classification, và phương pháp
để giải quyết bài toán này còn được gọi là Multi-Class SVM.

49
Hình 2. 30: Minh họa cho bài toán Multi-Class Classification

Trên hình 2.30 là ví dụ minh cho bài toán phân chia nhiều Lớp, cụ thể trên
hình trên ta có 03 Lớp bào gồm tập các điểm Đỏ (Lớp 1), Lục (Lớp 2), và Lam
(Lớp 3). Nhiệm vụ của thuật toán Multi-Class SVM cũng giống với thuật toán
SVM cũ là phân tách các Lớp vào từng vùng riêng biệt. Nhưng ở phương pháp
này là tổng quát hóa với số lớp nhiều hơn hoặc bằng 2. Mặc dù bản chất của
Multi-Class SVM vẫn là tìm ra siêu phẳng để phân chia các Lớp với nhau nhưng
độ phức tạp đã tăng lên rất nhiều. Để giải quyết khó khăn này, đã có nhiều
phương pháp được đưa ra cho Multi-Class SVM, tuy nhiên, có hai phương pháp
tiêu biểu thường được các nhà nghiên cứu sử dụng là phương pháp Một chống lại
tất cả (One-against-all _ OAA) và Một chống lại một (One-against-one _OAO).
Sau đây ta đi vào hai phương pháp này.
2.3.4.1. Phương pháp Một chống lại tất cả (One-against-all _ OAA)
Ý tưởng chính của thuật toán này đúng như ý nghĩa tên gọi của nó: “Một
chống lại tất cả”, nghĩa là thuật toán chọn một Lớp ban đầu làm gốc, sau đó
phân chia Lớp này với tất cả các Lớp còn lại. Làm tương tự như vậy với tất cả
các Lớp, ta sẽ phân chia được tập dữ liệu ban đầu thành nhiều Lớp khác nhau,
như vậy bài toán Multi-Class sẽ được giải quyết . Cụ thể thuật toán được trình
bày ở bên dưới.
Như ta đã biết, với bài toán Binary Classification trong việc phân chia hai
lớp thì nhãn của mỗi Lớp (chính là giá trị trong mỗi cặp tọa độ của
điểm dữ liệu) thường nhận một trong hai giá trị là 1 hoặc -1. Nhưng với bài toán
phân chia nhiều lớp, nhãn của mỗi điểm dữ liệu thường được đánh số từ 1 đến .
Đầu tiên ta cũng có, tập điểm dữ liệu ban đầu là:
S  {(x1, y1 ),(x 2 , y2 ),...,(x n , yn )}

50
Trong đó:
 là các vector thực trong không gian nhiều chiều ( là số chiều
của vector)
 là nhãn của mỗi điểm cũng là nhãn của mỗi Class
Ta có Lớp dữ liệu cần phân chia. Tập dữ liệu Lớp thứ cần huấn luyện ta
dán nhãn (+), còn dữ liệu trong tất cả các Lớp còn lại ta dán nhãn (-).
Tương tự với các thuật toán SVM dùng cho 02 lớp, thuật toán Multi-Class
SVM cần tìm giá trị nhỏ nhất của hàm mục tiêu:

  C  i j  i 
n
1 i 2 T

2 i 1

Với điều kiện:     x   b  1  


i T
j
i i
j nếu y  i (2. 68)

    x   b  1  
i T
j
i i
j nếu y  i

 ij  0, j  1, n
Trong đó:
 là hằng số được nhập vào nhằm cân đối giữa độ lớn Lề SVM và lượng
các điểm dữ liệu hi sinh .
    là hàm số để chuyển dữ liệu ban đầu lên không gian dữ liệu mới
cao hơn.
 và là tham số của siêu phẳng phân chia.
2.3.4.1. Phương pháp Một chống lại một (One-against-one _ OAO)
Khác với phương pháp OAA, phương pháp OAO sẽ không tiến hành phân
lớp dữ liệu theo cách phân một Lớp với tất cả các Lớp còn lại, nó sẽ tiến hành
theo cách phân từng đôi một các lớp với nhau. Giả sử ta có Lớp dữ liệu cần
phân chia, như vậy số lần cần thực hiện phân lớp SVM sẽ là:
k  k  1
Ck2  (2. 69)
2

Như vậy từ tập dữ liệu trong Lớp thứ và thứ cần phân chia, ta có bài toán
là cần xác định giá trị nhỏ nhất cuả hàm mục tiêu:

  C tij  ij 
1 ij 2 T

2 i

  x  b
T
Với điều kiện:  ij t
ij
 1  tij nếu yt  i

    x   b
ij T
t
ij
 1  tij nếu yt  j
tij  0, j  1, n
Trong đó:

51
 là hằng số được nhập vào nhằm cân đối giữa độ lớn Margin và lượng
các điểm dữ liệu hi sinh .
    là hàm số để chuyển dữ liệu ban đầu lên không gian dữ liệu mới
cao hơn.
 và là tham số của siêu phẳng phân chia.
2.3.5 Ví dụ áp dụng SVM cho bài toán phân loại hoa
2.3.5.1. Mô tả thí nghiệm
Trong thí nghiệm này, ta sử dụng bộ dữ liệu Iris.data. Bộ dữ liệu này do
một nhà khoa học có tên là Ronald Fisher thu thập và tổng hợp lại, do vậy bộ dữ
liệu này còn có tên gọi khác là Fisher’s Iris.
Bộ dữ liệu này bao gồm dữ liệu về 03 loại hoa khác nhau thuộc họ Iris là
Setosa, Virginica và Versicolor. Mỗi loại gồm 50 mẫu. Đồng thời, chúng được
phân loại dựa trên các thuộc tính chính mà chúng ta sử dụng làm dữ liệu phân
loại là:
- Chiều dài đài hoa (Sepal length)
- Chiều rộng đài hoa (Sepal width)
- Chiều dài cánh hoa (Petal length)
2.3.5.2. Áp dụng SVM để phân loại cho bộ dữ liệu
Ở bài toán này, chúng ta cần biểu diễn trong không gian hai chiều nên
chúng ta chỉ chọn 02 trong 04 thuộc tính.
 Nếu ta sử dụng 02 thuộc tính:
- Chiều dài đài hoa
- Chiều rộng đài hoa

Hình 2. 31: Phân loại hoa sử dụng SVM

Kết quả thu được như trên hình 2.31.

52
Trong đó:
 Các điểm đánh dấu * màu đỏ là Setosa
 Các điểm đánh dấu + màu tím là Versicolor
 Các điểm đánh dấu x màu đen là Virginica
Kết quả phân loại đạt được độ chính xác là 92,67%.
 Nếu ta sử dụng 02 thuộc tính:
- Chiều dài cánh hoa
- Chiều rộng cánh hoa

Hình 2. 32: Phân loại hoa bằng SVM sử dụng 02 thuộc tính khác

Kết quả thu được như trên hình 2.32.


Trong đó:
 Các điểm đánh dấu * màu đỏ là Setosa
 Các điểm đánh dấu + màu tím là Versicolor
 Các điểm đánh dấu x màu đen là Virginica
Kết quả phân loại đạt được độ chính xác là 99,33%.

53
CHƯƠNG 3. KẾT QUẢ ĐẠT ĐƯỢC

3.1 Xây dựng quy trình chẩn đoán mới sử dụng Support Vector Machine
Để chẩn đoán tình trạng của một thiết bị thông qua tín hiệu dao động, ta xây
dựng một quy trình theo các bước tuần tự như hình bên dưới.

Hình 3. 1: Quy trình chẩn đoán dựa trên Support Vector Machine

Trên hình 3.1 là quy trình chẩn đoán tín hiệu đo dao động bao gồm 07 bước
riêng biệt (đánh số từ 1 đến 7), với nền tảng là thuật toán Support Vector
Machine và các phương pháp mà ta đã đề cập trong phần cơ sở lý thuyết của luận
văn này. Chi tiết các bước như sau:
 Bước 1: Khởi tạo tín hiệu
Thu thập tín hiệu đo dao động (thường là gia tốc theo thời gian) của một
thiết bị và coi đây là tín hiệu gốc ban đầu để xử lý. Ta ký hiệu tín hiệu
này là .

54
 Bước 2: Khử nhiễu tín hiệu
Như ta đã biết, tín hiệu mà ta thu được là nhờ các cảm biến đo đạc
được. Tuy nhiên, tín hiệu mà ta thu được không hoàn toàn là tín hiệu
thuần khiết đo dao động, mà nó còn bao gồm trong đấy rất nhiều nhiễu.
Nguyên nhân là do các tác nhân khác gây ảnh hưởng đến quá trình thu
tín hiệu như dao động do bộ phận khác gắn liền với thiết bị gây nên.
Vậy nên tín hiệu gốc mà ta thu được luôn có nhiễu là điều không thể
tránh khỏi. Nhưng, ta có nhiều biện pháp khác nhau để xử lý được nhiễu
tín hiệu gây ra.
Như đã đề cập ở phần lý thuyết, trong phương pháp Tunable Q-Factor
Wavelet (TQWT), ta có một thuật toán cực kỳ hiệu quả để loại bỏ nhiễu
tín hiệu đó chính là Basis Pursuit Denoising (BPD).
Trong bước này, áp dụng thuật toán BPD ta sẽ khử nhiễu cho tín hiệu
gốc để thu được tín hiệu tinh khiết hơn .
 Bước 3: Chia tín hiệu mới thành các thành phần con
Sau khi khử nhiễu cho tín hiệu, tín hiệu mới sẽ tiếp tục được đưa
vào thuật toán TQWT để chia thành các thành phần con cơ bản.
 Bước 4: Trích xuất vector đặc trưng của các thành phần con
Giả sử sau Bước 3, ta có được thành phần con của tín hiệu . Mỗi
thành phần con dù sau khi được chia nhưng vẫn có số điểm dữ liệu rất
lớn (hàng chục đến hàng trăm ngàn điểm tùy thuộc tần số lấy mẫu).
Chính vì dữ liệu lớn như vậy, ta không thể đem chúng trực tiếp vào
thuật toán Support Vector Machine để phân loại được. Do đó, giải pháp
ở đây là trong mỗi thành phần con, ta sẽ chỉ lấy các đặc trưng cơ bản thể
hiện cho toàn tín hiệu.
Các đặc trưng đó bao gồm:
a) Giá trị trung bình (Mean)
b) Độ lệch chuẩn (Std)
c) Độ lệch Skewness
d) Hệ số Kurtosis
e) Giá trị đỉnh kép (Peak to Peak)
f) Giá trị trung bình hiệu dụng (RMS)
g) Hệ số hình dạng (Shape Factor)
h) Hệ số Impulse
i) Hệ số Margin
j) Năng lượng của tín hiệu
Nhiều đặc trưng của tín hiệu đã được giải thích cụ thể ở phần Tổng
quan, nên ở phần này ta nêu ra chứ không đi vào chi tiết. Các đặc trưng
sẽ được đưa về thành vector hay còn gọi là vector đặc trưng của tín hiệu.
Như vậy, mỗi thành phần con sẽ có 01 vector đặc trưng. Bao nhiêu
thành phần con thì có bấy nhiêu vector đặc trưng.

55
 Bước 5: Sử dụng Phép phân tích thành phần chính (PCA) để xử lý
ma trận gồm các vector đặc trưng.
Các vector đặc trưng được xếp lần lượt thành các hàng của ma trận. Ma
trận này là ma trận gồm các vector đặc trưng. Dễ thấy ma trận này sẽ có
kích thước bằng Số các thành phần con Số các đặc trưng. Số chiều
của ma trận này quá lớn nên ta phải dùng Phép phân tích thành phần
chính (PCA) để giảm số chiều mà không làm ảnh hưởng đến thông tin
của dữ liệu.
Đây là một bước tiền xử lý quan trọng trước khi đưa dữ liệu vào thuật
toán Support Vector Machine.
 Bước 6: Phân lớp dữ liệu sử dụng thuật toán Support Vector
Machine
Dữ liệu sau khi xử lý qua PCA đã tốt hơn nhiều về mặt biểu diễn mà
không bị đánh mất về mặt thông tin trở nên khả thi để phân lớp bằng
thuật toán Support Vector Machine.
Đến đây, ta sử dụng bài toán phân chia nhiều lớp SVM kết hợp với các
Hàm nhân để tiến hành phân lớp cho dữ liệu mới.
 Bước 7: Đánh giá và kiểm tra kết quả phân lớp.
Sau khi phân lớp, bước cuối cùng là ta kiếm tra kết quả phân lớp và
đánh giá thuật toán.
Trên đây, ta đã trình bày một cách sơ lược về 07 bước nằm trong quy trình
chẩn đoán. Tiếp theo đây là kết quả thực nghiệm để ta kiểm tra tính đúng đắn của
quy trình này.
3.2 Kết quả thực nghiệm
3.2.1 Mô tả thí nghiệm với hộp số bánh răng

Hình 3. 2: Mô hình thí nghiệm trên hộp số bánh răng

56
Mô hình thí nghiệm được mô tả chi tiết như trên hình. Trong đó:
- Hình (A) là mô hình tổng quát được ghi chú câc bộ phận
- Hình (B) là vị trí cảm biến gia tốc
- Hình (C) là bánh răng bị gãy
- Hình (D) là bánh răng bị mòn
Mô hình này được lấy trong bài báo [8], được xây dựng nhằm mục đích đo
tín hiệu dao động của một hộp số bánh răng. Tín hiệu dao động được thu thập
thông qua đầu đo gia tốc có vị trí như trong hình B. Kết cấu chính của mô hình
thí nghiệm này bao gồm:
- Một hộp số bánh răng
- Một động cơ quay
- Một tải trọng cơ khí
- Một máy đo gia tốc
- Bốn đế giảm xóc đóng vai trò là bộ giảm chấn
Thông số trong bộ dữ liệu của ta bao gồm:
- Tốc độ quay quanh trục: 1420 vòng/phút
- Số răng : 32 răng
- Tần số lấy mẫu : 16384 Hz
Trong thí nghiệm này, ta thử nghiệm trên cùng một bánh răng nhưng với
các tình trạng khác nhau, theo mức độ nghiêm trọng tăng dần bao gồm: Bánh
răng bình thường, bánh răng bị mòn nhẹ và bánh răng bị gãy mất một răng.

Hình 3. 3: Bánh răng bị mòn

Nhiệm vụ của ta là dùng thuật toán phân lớp Support Vector Machine để
chẩn đoán được bánh răng đang trong tình trạng nào.
3.2.2 Áp dụng quy trình chẩn đoán mới cho thí nghiệm
Kết quả thí nghiệm cho ta bộ dữ liệu của hộp số bánh răng được thu được từ
cảm biến dưới dạng tín hiệu gia tốc ( ) theo thời gian ( ).
Ba tín hiệu của bánh răng bình thường, bị mòn và bị gãy biểu diễn dưới
dạng phổ Biên độ - Thời gian như sau:

57
Hình 3. 4: Phổ Biên độ - Thời gian của bánh răng bình thường, bị mòn và bị gãy

Quan sát 03 phổ tín hiệu trên, ta thấy khó có thể tìm được đặc trưng rõ nét
để phân biệt được ba loại phổ trên nếu như không biết được ngay từ đầu chúng là
của tín hiệu loại nào. Nên, phương pháp chẩn đoán dựa trên phổ Biên độ - Thời
gian cổ điển khó phát huy được hiệu quả khi áp dụng lên những tín hiệu dạng
này.
Từ đây, ta lần lượt áp dụng tuần tự các bước trong quy trình chẩn đoán mới
đã xây dựng để kiểm nghiệm kết quả. Ta áp dụng các bước tiền xử lý như nhau
cho cả ba tín hiệu, cho nên trong các bước này nhiều hình vẽ ta chỉ lấy của bánh
răng bình thường để minh họa, tránh có quá nhiều hình gây rối.
Đầu tiên, từ tín hiệu gốc ban đầu là , dựa trên cơ sở lý thuyết của
phương pháp Tunable Q-Factor Wavelet, ta tiến hành loại bỏ nhiễu khỏi tín hiệu
bằng thuật toán Basis Pursuit Denoising (BPD). Thuật toán BPD sẽ cực tiểu hóa
hàm tổn thất để tìm tham số , sau đó lấy nghịch đảo TQWT ta thu được tín hiệu
mới không có nhiễu.

58
Hình 3. 5: Tín hiệu gốc – Tín hiệu sau khử nhiễu – Nhiễu của bánh răng bình thường

Như trên hình, tín hiệu màu đen là tín hiệu gốc , qua thuật toán BPD sẽ
thu được tín hiệu tinh khiết màu lam và phần nhiễu màu đỏ. Ngoài ra, hàm
tổn thất sẽ đạt cực tiểu hóa sau 100 lần lặp cũng được thể hiện ở hình dưới.

Hình 3. 6: Hàm tổn thất của bánh răng bình thường

Đến đây, khi đã thu được tín hiệu đã loại bỏ nhiễu. Ta đem tín hiệu mới này
đi xử lý tiếp bằng cách chia nhỏ nó thành các thành phần con tại các tần số khác
nhau bằng phương pháp TQWT. Trước hết, các tham số TQWT ta khởi tạo như
sau:

59
Kết quả phân thành các thành phần con như sau:

Hình 3. 7: Các thành phần tín hiệu mới của bánh răng bình thường

Tín hiệu mới màu lam (như trên hình) đã được chia nhỏ thành 10
thành con (bằng với ). Để đánh giá mức độ đóng góp của các thành phần
con, ta có biểu đồ cột bên dưới.

Hình 3. 8: Mức độ đóng góp năng lượng của các thành phần con đối với bánh răng
bình thường

60
Ta nhận thấy, các thành phần con 4, 5, 6, 7 có mức độ đóng góp cao nhất
trong toàn dải.
Ở bước tiếp theo, ta trích xuất vector đặc trưng từ mỗi thành phần con. Vector
đặc trưng bao gồm các tham số dặc trưng ta đã liệt kê ở phần trước đó (Giá trị
trung bình, độ lệch chuẩn, giá trị trung bình hiệu dụng, …) . Đồng thời xếp chúng
lần lượt vào các hàng để tạo thành ma trận gồm các vector đặc trưng. Ta có 10
thành phần con và 10 đặc trưng, như vậy ma trận sẽ có kích thước .
Bảng 4: Ma trận gồm các vector đặc trưng của bánh răng bình thường

STT Mean Std Skewness Kurtosis Peak RMS Crest Shape Impulse Margin
to Factor Factor Factor Factor
Peak
1 -0.01 7.33 0.01 6.73 81.91 7.33 5.28 1.76 9.28 2.23
2 -0.02 11.69 -0.02 5.84 126.33 11.69 5.58 1.67 9.30 1.32
3 0.04 20.50 0.02 3.91 184.98 20.50 4.37 1.44 6.31 0.44
4 0.00 45.44 0.01 2.89 306.66 45.44 3.40 1.28 4.34 0.12
5 -0.01 38.78 0.00 3.11 310.31 38.78 4.29 1.32 5.68 0.19
6 -0.03 29.64 -0.01 3.70 236.72 29.64 3.96 1.39 5.52 0.26
7 -0.02 31.00 0.00 2.99 209.14 30.99 3.42 1.32 4.52 0.19
8 0.02 20.78 0.00 3.59 167.80 20.77 4.16 1.40 5.83 0.39
9 0.01 15.95 0.00 2.76 104.53 15.95 3.28 1.32 4.33 0.36
10 0.02 8.58 0.07 4.23 81.35 8.58 4.85 1.46 7.08 1.20

Bảng 5: Ma trận gồm các vector đặc trưng của bánh răng bị mòn nhẹ

STT Mean Std Skewness Kurtosis Peak RMS Crest Shape Impulse Margin
to Factor Factor Factor Factor
Peak
1 -0.02 5.46 0.01 5.93 67.32 5.46 5.69 1.73 9.86 3.13
2 -0.01 4.65 -0.01 8.30 58.16 4.65 6.12 1.99 12.19 5.22
3 -0.01 9.19 0.00 5.45 99.89 9.19 5.18 1.67 8.65 1.57
4 0.00 28.45 0.00 2.15 160.62 28.44 2.91 1.23 3.57 0.15
5 -0.06 9.40 -0.04 4.90 88.88 9.40 4.72 1.60 7.54 1.28
6 0.01 6.30 0.07 6.37 75.64 6.30 5.96 1.78 10.59 2.99
7 0.01 14.18 0.01 2.80 110.56 14.18 4.15 1.33 5.54 0.52
8 0.03 17.73 0.01 3.04 129.26 17.73 3.55 1.34 4.75 0.36
9 -0.02 32.55 0.00 2.21 195.19 32.55 3.05 1.22 3.74 0.14
10 0.02 13.21 0.14 4.33 140.63 13.21 6.17 1.46 8.99 0.99

61
Bảng 6: Ma trận gồm các vector đặc trưng của bánh răng bị gãy răng

STT Mean Std Skewness Kurtosis Peak RMS Crest Shape Impulse Margin
to Factor Factor Factor Factor
Peak
1 0.00 14.37 0.03 16.08 297.64 14.37 10.06 1.76 17.66 2.16
2 0.00 26.27 -0.15 10.69 476.86 26.27 8.24 1.53 12.60 0.73
3 -0.01 22.54 -0.08 19.02 509.21 22.54 12.39 1.74 21.51 1.66
4 0.09 32.45 0.22 20.73 741.02 32.45 11.46 1.61 18.47 0.92
5 -0.03 29.89 0.06 24.01 678.36 29.89 11.79 1.69 19.97 1.13
6 0.06 34.68 -0.25 23.30 706.92 34.68 9.96 1.80 17.94 0.93
7 -0.01 43.60 -0.19 19.00 785.98 43.60 9.15 1.59 14.57 0.53
8 -0.03 41.18 0.09 29.97 771.06 41.18 8.92 2.30 20.55 1.15
9 -0.01 34.52 -0.10 14.99 573.71 34.52 8.34 1.58 13.18 0.60
10 0.01 13.50 0.86 27.72 305.15 13.50 13.36 1.88 25.05 3.48

Ma trận gồm các vector đặc trưng có số chiều nhỏ hơn đáng kể so với số
chiều của tín hiệu gốc ban đầu. Tuy nhiên số chiều này vẫn còn quá lớn để có thể
đưa vào thuật toán phân chia lớp. Do đó, ta cần sử dụng Phép phân tích thành
phần chính PCA để giảm số chiều của ma trận mà không làm mất thông tin
của dữ liệu.
Sau khi sử dụng PCA, ta lấy 02 thành phần đầu tiên là PCA1 và PCA2 để vẽ đồ
thị như hình dưới. Trong đó:
 Các điểm ngôi sao 06 cánh màu lục là của Bánh răng bình thường.
 Các điểm ngôi sao 05 cánh màu đỏ là của Bánh răng bị mòn.
 Các điểm ngôi tròn đen là của Bánh răng bị gãy.

Hình 3. 9: Minh họa PCA của Bánh răng bình thường, bị mòn và bị gãy

62
Đến đây, ta áp dụng thuật toán Support Vector Machine để phân loại dữ
liệu. Đây là bài toán phân nhiều lớp, cụ thể là 03 lớp. Ta không thể áp dụng
phương pháp SVM thuần túy để giải quyết bài toán này mà cần phải áp dụng
phương pháp mới để giải quyết các bài toán phân nhiều lớp. Như đã nêu trong
phần lý thuyết, có hai phương pháp để giải quyết bài toán này là : Một chống lại
một (OAO) và Một chống lại tất cả (OAA). Trong phần này, ta sẽ sử dụng
phương pháp OAA để giải quyết bài toán phân 03 lớp.
Cốt lõi của phương pháp Một chống lại tất cả - OAA như sau: Đầu tiên ta
chọn dữ liệu của một lớp bất kỳ trong 03 lớp đã cho: Bình thường, bị mòn và bị
gãy răng, ta gọi lớp này là A và dữ liệu trong lớp này được đánh dấu chúng là 1.
Dữ liệu còn lại không thuộc lớp này ta đánh dấu chúng là -1. Sau đó, tiến hành
phân loại dữ liệu 1 và -1 với nhau, ta sẽ phân loại được lớp A tách biệt với hai
lớp còn lại. Tiếp theo đó, một lớp khác lại được chọn và làm tương tự như lớp A,
ta cũng phân được lớp này tách biệt với hai lớp còn lại. Làm làn lượt như vậy với
dữ liệu trong tất cả các lớp, ta sẽ phân loại được dữ liệu lớp này tách biệt với dữ
liệu của từng lớp khác và giải quyết được bài toán phân nhiều lớp. Đấy chính là
bản chất cốt lõi của thuật toán Một chống lại tất cả - OAA.
Với phương pháp OAA, ta sử dụng Hàm nhân Gaussian làm đầu vào, kết
quả phân loại thu được như sau:

Hình 3. 10: Đường phân chia các Lớp khác nhau

63
Hình 3. 11: Phân vùng Bánh răng bình thường, bị mòn và bị gãy

Kết quả sau khi phân loại đạt độ chính xác 100 %.
Từng lớp dữ liệu được phân vào từng vùng riêng và không có hiện tượng bị
trộn lẫn vào nhau. Siêu phằng được tạo ra cũng thỏa mãn yêu cầu của thuật toán
Support Vector Machine là có Lề SVM lớn nhất.

Hình 3. 12: Xoay nghiêng mặt phân chia

64
Hình 3. 13: Biểu diễn SVM trên mặt phẳng 3D

Để trực quan hơn, ta xoay nghiêng mặt phân chia các lớp dữ liệu và biểu
diễn SVM trên mặt phẳng 3D. Từ kết quả trên, ta có thể nhận xét rằng thuật toán
SVM làm việc hiệu quả trên tập dữ liệu sau khi được xử qua Phép phân tích
thành phần chính PCA. Tuy nhiên, đến đây ta nảy ra một ý tưởng mới. Như đã
biết, Hàm nhân hỗ trợ rất tốt cho thuật toán Support Vector Machine để chuyển
không gian dữ liệu sang không gian mới giúp việc phân chia trở nên khả thi hơn.
Tương tự như vậy, PCA cũng là công cụ chuyển dữ liệu từ không gian cũ sang
không gian mới có số chiều giảm đi mà không làm ảnh hưởng đến thông tin dữ
liệu. Nếu ta kết hợp PCA và Hàm nhân thì hiệu quả sẽ tăng gấp nhiều lần. Chính
vì thế, trong quy trình chẩn đoán mới, ở bước Sử dụng PCA để xử lý ma trận các
vector đặc trưng, ta sẽ kết hợp PCA với Hàm nhân Gaussian.

65
Hình 3. 14: Kết hợp PCA với Hàm nhân

Kết quả khi kết hợp PCA với Hàm nhân cho ta một cách biểu diễn tốt hơn
nhiều so với việc sử dụng PCA truyền thống. Các lớp dữ liệu gần như phân biệt
tuyến tính. Đến đây, khi áp dụng SVM thì mọi việc trở nên đơn giản hơn rất
nhiều so với trước. Kết quả phân chia SVM lần này như sau:

Hình 3. 15: Kết quả phân chia SVM khi kết hợp PCA với Hàm nhân

66
Hình 3. 16: Biểu diễn SVM mới trong mặt phẳng 3D

Việc phân chia bằng SVM không những đơn giản hơn mà kết quả còn đẹp
hơn nhiều so với việc chỉ sử dụng PCA đơn thuần. Trong nhiều trường hợp khi
dữ liệu phức tạp hơn, thì trong quy trình chẩn đoán mới, phương pháp kết hợp
PCA với Hàm nhân đem lại nhiều hiệu quả đáng mong đợi.

67
KẾT LUẬN

 Tổng kết lại


Trong phạm vi đề tài của luận văn này, tác giả đã trình bày một phương
pháp mới dùng đề chẩn đoán tình trạng của thiết bị, đó chính là thuật toán
Support Vector Machine (SVM). Thuật toán này có nguồn gốc từ lĩnh vực Trí tuệ
nhân tạo nhưng lại thực sự hữu hiệu khi áp dụng lên lĩnh vực Chẩn đoán dao
động. Đây cũng chính là chủ đề trọng tâm xuyên suốt luận văn này. Đi kèm với
đó, để hỗ trợ hiệu quả cho thuật toán Support Vector Machine, hai phương pháp
mới đi kèm được tác giả giới thiệu là Phép biến đổi Tunable Q-Factor Wavelet
(TQWT) và Phép phân tích thành phần chính PCA. TQWT có nhiệm vụ loại bỏ
nhiễu tín hiệu và chia tín hiệu gốc thành nhiều thành phần con để dễ dàng xử lý.
Còn PCA thì đưa ra cách biểu diễn dữ liệu gốc về một dạng tốt hơn mà không
làm mất đi thông tin của dữ liệu. Hai phương pháp này hỗ trợ hiệu quả cho SVM
để từ đó tác giả xây dựng nên một quy trình chẩn đoán mới.
Một quy trình chẩn đoán mới lấy nền tảng là thuật toán Support Vector
Machine được tác giả xây dựng nên. Tất nhiên không thể thiếu trong dó là hai
phương pháp then chốt là TQWT và PCA. Tóm gọn về quy trình chẩn đoán mới
là: Tín hiệu dao động thu được ban đầu sẽ được TQWT loại bỏ nhiễu và chia
thành các thành phần con; do số chiều quá lớn nên các thành phần con cần được
trích xuất vector đặc trưng thu được ma trận các vector đặc trưng; ma trận này
sau đó sẽ được PCA xử lý để biểu diễn trong một không gian mới tốt hơn; cuối
cùng thuật toán PCA làm nốt công việc còn lại là tạo lớp phân chia cho dữ liệu.
Các bước được đề cập chi tiết trong Chương 3 của luận văn này.
Quy trình mới đưa ra cần có ví dụ kiểm chứng. Một thí nghiệm về hộp số
bánh răng được tác giả lấy trong một công trình khoa học uy tín (Được đề cập
trong Danh mục tài liệu tham khảo) để kiểm chứng quy trình chẩn đoán mới này.
Trong thí nghiệm nay, cùng một bánh răng nhưng ở trong 03 điều kiện khác nhau
là: Hoàn toàn bình thường, bị mòn và bị gãy. Nhiệm vụ là phải áp dụng các bước
trong quy trình để phân loại được dữ liệu cực kỳ khổng lồ về 03 dạng như đã nói
ở trên. Khi thực hiện tuần từ và chính xác các bước, ta thu được kết quả phân loại
đạt độ chính xác tuyệt đối và phù hợp với nguyên lý của thuật toán SVM. Đến
đây ta có thể khẳng định được tính đúng đắn của quy trình chẩn đoán mới đã xây
dựng.
 Hướng phát triển của luận văn trong tương lai
Trong khi tiến hành các bước trong quy trình chẩn đoán mới. Một ý tưởng
khả thi là kết hợp PCA với các Hàm nhân (Đề cập trong Chương 2: Cơ sở lý
thuyết) đã đem lại kết quả thực sự tuyệt vời. Từ đó, có thể mở ra một hướng
nghiên cứu mới để luận văn này tiếp tục phát triển và đi lên tiếp là đào sâu hơn
về ứng dụng của Phép phân tích thành phần chính PCA. Điều này cũng góp phần
mở ra những hướng đi mới cho lĩnh vực Chẩn đoán dao động.

68
Tuy đã có nhiều cố gắng nhưng do thời gian và năng lực làm việc còn nhiều
hạn chế nên luận văn không tránh khỏi có nhiều sai sót không mong muốn. Tôi
rất mong nhận được những ý kiến đóng góp từ các thầy, cô giáo có chuyên môn
sâu về lĩnh vực để có thể tiếp tục hoàn thiện thêm luận văn này. Xin chân thành
cảm ơn!

69
TÀI LIỆU THAM KHẢO

[1] Nguyễn Phong Điền, Nguyễn Trọng Du (2013). Phát hiện hư hỏng trong các
hệ truyền động cơ khí bằng kỹ thuật chẩn đoán rung. Hội nghị khoa học và công
nghệ toàn quốc về Cơ khí, Đại học Công nghiệp Hà Nội, tháng 4, trang 249-255.
[2] Nguyen Phong Dien, Nguyen Trong Du (2015). Detection of Gear Faults in
Gearboxes using Advanced Signal Processing Methods. Journal of Science of
Technology 106, pp. 063-068.
[3] Vũ Hữu Tiệp (2017). Machine Learning cơ bản.
[4] Achmad Widodo, Bo-Suk Yang (2007). Support vector machine in machine
condition monitoring and fault diagnosis. Mechanical Systems and Signal
Processing, 2560-2574.
[5] N. Ramesh Babu, B. Jagan Mohan (2015). Fault classification in power
systems using EMD and SVM. Ain Shams Engineering Journal, pp. 103-111.
[6] Leo H. Chiang, Mark E. Kotanchek, Arthur K. Kordon (2004). Fault
diagnosis based on Fisher discriminant analysis and Support vector machines.
Computers and Chemical Engineering 28, 1389-1401.
[7] Selesnick, I.W. (2011b). Sparse signal representations using the Tunable Q-
Factor Wavelet Transform. Proceedings of SPIE - The International Society for
Optical Engineering.
[8] J. Rafiee, F. Arvani, A. Harifi, M. H. Sadeghi (2006). Intelligent condition
monitoring of a gearbox using artificial neural network. Mechanical Systems and
Signal Processing, 1746-1754.
[9] Selesnick, I.W (2011a). Wavelet transform with tunable Q-factor. IEEE
Transactions on Signal Processing, vol 59.8, pp. 3560-3575.
[10] Lipo Wang (2005). Support Vector Machines: Theory and applications.
[11] Robert Bond Randall (2011). Vibration-Based Condition Monitoring.
[12] Pieter M. Kroonenberg (1983). Three-mode Principal Component Analysis:
Theory and Applications.

70

You might also like