Professional Documents
Culture Documents
Thuattoanpcafull 24 5 2017 170609104316
Thuattoanpcafull 24 5 2017 170609104316
2. Cơ sở toán học
2.1. Một số khái niệm toán học sử dụng trong PCA
4. Ứng dụng
2/14
Principal component analysis
1. VAI TRÒ PCA TRONG XỬ LÝ TÍN HIỆU NHIỀU CHIỀU
-> Khái niệm: dữ liệu k - chiều là dữ liệu được hoàn toàn xác định bởi
vectơ các giá trị thuộc tính (x1, …, xk) trong không gian k - chiều.
3
Principal component analysis
Tín hiệu nhiều chiều
• Tín hiệu nhiều chiều là tín hiệu biến thiên theo nhiều hơn 1
biến độc lập.
• Ví dụ:
+ tín hiệu hình ảnh: ~(x,y);
+ tín hiệu tivi đen trắng:~(x,y,t)….
• Xử lý tín hiệu nhiều chiều là việc thực hiện phép toán trên tín
hiệu nhiều chiều, nhằm biến đổi tín hiệu, rút trích thông tin...
4
Principal component analysis
Vai trò PCA trong xử lý tín hiệu nhiều chiều
Dữ liệu có số chiều lớn, do đó cần phải tìm cách đưa dữ liệu về
không gian có số chiều nhỏ hơn ->PCA là một trong những phương pháp
như thế, nhưng hơn thế, PCA còn có nhiều đặc tính tốt:
1) Giúp giảm số chiều của dữ liệu;
2) Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một
không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ
liệu tốt tương đương không gian cũ;
3) Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của
không gian cũ;
4) Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được
khám phá, mà nếu đặt trong không gian cũ thì khó phát hiện hơn.
5
Principal component analysis
Vai trò PCA trong xử lý tín hiệu nhiều chiều
6
Principal component analysis
Vai trò PCA trong xử lý tín hiệu nhiều chiều
Ý tưởng chung: PCA là tìm một không gian mới (với số chiều nhỏ hơn
không gian cũ). Các trục tọa độ trong không gian mới được xây dựng
sao cho trên mỗi trục, độ biến thiên của dữ liệu trên đó là lớn nhất có
thể.
• Ví dụ minh họa
7
Principal component analysis
2. CƠ SỞ TOÁN HỌC
8/14
Principal component analysis
2.1.1. Các đặc trưng số của vector ngẫu nhiên
9/14
Principal component analysis
2.1.1. Các đặc trưng số của vector ngẫu nhiên
10/14
Principal component analysis
2.1.1. Các đặc trưng số của vector ngẫu nhiên
cov( X , Y ) E X (t ) mx (t ) Y(t ) my (t ) (4)
11/14
Principal component analysis
2.1.1. Các đặc trưng số của vector ngẫu nhiên
1
Trường hợp đặc biệt: p1 p2 ... pn , khi đó:
n
1 n
g X xi
n i 1
n
x X
2
i
s i 1
(5)
n 1
n
x X
2
i
2 i 1
n 1
x y
n
i x i y
cov(X, Y) i 1
n 1
12/14
Principal component analysis
2.1.1. Các đặc trưng số của vector ngẫu nhiên
Bảng tổng hợp một số tính chất đặc trưng số của vector ngẫu nhiên
13/14
Principal component analysis
2.1.2. Trị riêng, vector riêng của ma trận hiệp phương sai
15/14
Principal component analysis
2.1.2. Trị riêng, vector riêng của ma trận hiệp phương sai
16/14
Principal component analysis
2.1.2. Trị riêng, vector riêng của ma trận hiệp phương sai
17/14
Principal component analysis
2.2. THUẬT TOÁN PCA
Cho ma trận
Bước 1: Tiền xử lí
18
Principal component analysis
2.2.THUẬT TOÁN PCA
I. TIỀN XỬ LÍ
- Dữ liệu ban đầu có thể có giá trị thay đổi bất thường, do
vậy cần phải có một bước tiền xử lí để chuẩn hóa giá trị trên
các cột của ma trận X.
1. Centered PCA
2. Normed PCA
19
Principal component analysis
2.2. THUẬT TOÁN PCA
I. TIỀN XỬ LÍ
1. Centered PCA
Mang tất cả các feature (của các cột của X) về cùng một gốc tọa độ:
𝑋 = 𝑥𝑖𝑗
𝑥𝑖𝑗 − 𝑔𝑗
𝑥𝑖𝑗 = (8)
𝑛
𝑛
𝑖=1 𝑥𝑖𝑗
𝑔𝑗 =
𝑛
20
Principal component analysis
2.2. THUẬT TOÁN PCA
I. TIỀN XỬ LÍ
2. Normed PCA
Mang tất cả các feature về cùng một gốc tọa độ, đồng thời chuẩn
hóa về cùng một quãng độ lệch chuẩn bằng 1:
𝑋 = 𝑥𝑖𝑗
𝑥𝑖𝑗 − 𝑔𝑗
𝑥𝑖𝑗 = (9)
𝑛σ𝑗
21
Principal component analysis
2.2. THUẬT TOÁN PCA
𝑥11 … 𝑥1𝑝
Xét trận X có kích thước n x p, 𝑋= … … …
Ma trận hiệp phương sai của X: 𝑥𝑛1 … 𝑥𝑛𝑝
1
𝑆𝑋 = 𝑋𝑋 𝑇
𝑛−1
Tính chất:
- Các thành phần nằm trên đường chéo của SX là phương sai của một
kiểu đo riêng biệt nào đó;
- Các thành phần không nằm trên đường chéo là hiệp phương sai giữa
hai kiểu đo nào đó. (tức là nói lên tính tương quan giữa hai kiểu đo, như
vậy trường hợp tốt nhất là các kiểu đo là không tương quan tức là hiệp
phương sai giữa chúng bằng 0)
22
Principal component analysis
2.2. THUẬT TOÁN PCA
Sau khi nhận được ma trận ta cần biến đổi nó về ma trận Y sao cho:
1
𝑆𝑌 = 𝑌𝑌 𝑇 là ma trận đường chéo
𝑛−1
Thực chất là tìm phép biến đổi P:
23
Principal component analysis
2.2. THUẬT TOÁN PCA
Đặt:
Người ta chứng minh được: A là ma trận đối xứng và có thể phân tích
dưới dạng
Trong đó E là ma trận gồm các vector riêng của A xếp theo cột, và
Chọn:
25
Principal component analysis
2.2. THUẬT TOÁN PCA
26
Principal component analysis
3. MINH HỌA THUẬT TOÁN PCA
GĐ 1: Tiền xử lí
Bước 1: thu thập dữ liệu
Bước 2: chuẩn hóa dữ liệu
GĐ 2: Xây dựng không gian mới
Bước 3: xây dựng ma trận hiệp phương sai
Bước 4: xác định trị riêng, vector riêng
Bước 5: lựa chọn các thành phần xây dựng vector đặc trưng
GĐ 3: Chuyển dữ liệu từ không gian ban đầu
vào không gian mới
Bước 6: chuyển dữ liệu và không gian mới
27
Principal component analysis
3. MINH HỌA THUẬT TOÁN PCA
28
Principal component analysis
3. MINH HỌA THUẬT TOÁN PCA
0.1000 0.0926
covar
0.0926 0.1000
0.0074 0
eival
0 0.1926
0.7071 0.7071
eivec
0.7071 0.7071
30
Principal component analysis
3. MINH HỌA THUẬT TOÁN PCA
31
Principal component analysis
3. MINH HỌA THUẬT TOÁN PCA
32
Principal component analysis
3. MINH HỌA THUẬT TOÁN PCA
33
Principal component analysis
3. MINH HỌA THUẬT TOÁN PCA
34
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
35
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
36
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
37
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
Hình 1: Cấu trúc tổng quát của hệ thống nhận dạng mặt
38
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
39
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
- Trích chọn đặc trưng: Tìm ra các đặc trưng chính của
ảnh mặt, từ các đặc trưng này hình thành các vector
đặc trưng, các vector này sẽ được sử dụng để đối
sánh sự giống nhau giữa ảnh mặt cần tìm và ảnh mặt
trong CSDL.
- Đối sánh: Thực hiện việc so sánh giữa các vector đặc
trưng để chọn ra độ tương tự giữa ảnh cần tìm và ảnh
trong CSDL.
40
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
42
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
43
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
44
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
Bước 4: Tính các trị riêng và vector đặc trưng của ma trận hiệp
phương sai
Ma trận AAT và ATA luôn có chung trị riêng và vector đặc
trưng thì có liên hệ với nhau bởi biểu thức ui = Avi mà ma trận ATA
lại có số chiều ít hơn hẳn (ma trận M×M) nên ta sẽ chuyển đổi về
ma trận ATA. Sau khi tính toán ta được M vector đặc trưng của
AAT (ui = Avi) tương ứng với M giá trị riêng.
Chuẩn hóa các vector đặc trưng ui về vector đơn vị:
||ui|| =1 (4.5)
46
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
47
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
49
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
• Hình ảnh cho thấy, hình ảnh ban đầu sẽ bằng ảnh
trung bình cộng với tổng tất cả các đặc trưng mặt
nhân với trọng số tương ứng.
50
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
51
Principal component analysis
4. ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
52
Principal component analysis
5. MÔ PHỎNG TRÊN MATLAB
%% PCAexam.m
%% Principal Components Analysis
%% Step 1: Get some data
display('%% Step 1: Get some data');
x0 = ([2.5 0.5 2.2 1.9 3.1 2.3 2 1 1.5 1.1])';
y0 = ([2.4 0.7 2.9 2.2 3.0 2.7 1.6 1.1 1.6 0.9])';
X = ([x0, y0])
% plot data
subplot(2,2,1)
plot(x0,y0,'k+');
title('Original PCA data');
line([0 0],[-1 4],'Color','r','LineStyle',':');
line([-1 4],[0 0],'Color','r','LineStyle',':');
grid on;
axis([-1 4 -1 4]);
53
Principal component analysis
5. MÔ PHỎNG TRÊN MATLAB
54
Principal component analysis
5. MÔ PHỎNG TRÊN MATLAB
55
Principal component analysis
5. MÔ PHỎNG TRÊN MATLAB
58
Principal component analysis
5. MÔ PHỎNG TRÊN MATLAB
59
Principal component analysis
5. MÔ PHỎNG TRÊN MATLAB
60
Principal component analysis