You are on page 1of 24

Phương pháp PCA

1. Động lực khái niệm cho PCA:


Khái niệm: PCA là phương pháp biến đổi giúp giảm số lượng lớn các biến có
tương quan với nhau thành tập ít các biến sao cho các biến mới tạo ra là tổ hợp tuyến tính
của những biến cũ không có tương quan lần nhau. Ví dụ, chúng ta có 100 biến ban đầu có
tương quan tuyến tính với nhau, khi đó chúng ta sử dụng phương pháp PCA xoay chiều
không gian cũ thành chiều không gian mới mà ở đó chỉ còn 5 biến không có tương quan
tuyến tính mà vẫn dữ được nhiều nhất lượng thông tin từ nhóm biến ban đầu.
2. PCA đã làm việc cho dữ liệu 2 chiều:
Có giá trị cao Trục y kéo dài

Trục x kéo dài


Có giá trị thấp

Đồ thị này sẽ cho chúng ta thấy rằng những con chuột giống nhau tụ lại với nhau.
Chúng ta cũng sẽ nói về cách PCA có thể cho chúng ta biết gen (hoặc biến) nào có giá trị
nhất để phân nhóm dữ liệu.
3. Tìm PC1
1 đường ngẫu nhiên qua điểm Sau đó xoay dòng cho đến khi nó
O(0;0)
phù hợp với dữ liệu có thề, cho rằng
nó phải đi qua điểm gốc. Cuối cùng
thì dòng này
phù hợp nhất. Cách PCA quyết định xem
liệu giá trị có phù hợp hay không

2
Đo khoảng cách từ dữ liệu đến dòng, cố
Xác định mức độ phù hợp với dữ liệu
gắng tìm dòng giảm thiểu những khoảng cách
đó, tìm đường thẳng tối đa hóa khoảng cách
được chiếu đến điểm từ các điểm gốc.

a ( a bình phương) không thay đổi. Nếu b lớn


Gắn nhãn các cạnh a
hơn thì c phải nhỏ hơn. Tương tự như vậy nếu c
sử dụng Pitago chỉ ra b
và c quan hệ nghịch lớn hơn thì b phải nhỏ lại. Do đó PCA có thể
đảo như thế nào
giảm thiểu khoảng cách đến đường thẳng hoặc
tối đa hóa khoảng cách
từ điểm được chiếu tới điểm gốc

PCA phù hợp nhất bằng


cách tối đa hóa tổng bình
phương khoảng cách từ bốn đơn vị chia tỷ lệ tam giác sao cho
điểm được chiếu đến điểmchúng ta đi dọc
gốc và gọi là d1
đường thẳng màu đỏ dài một
Hệ số góc 0.25 theo trục gen 1
đơn vị là chia mỗi cạnh cho
4,12. Đây là tất
cả các giá trị được chia tỷ lệ. Các giá trị
mới thay đổi nhưng tỷ lệ vẫn như cũ:
lượng gen 1 nhiều gấp 4 lần so với gen 2.
Ta xem xét Dữ liệu Dòng phù hợp nhất
Vectơ đơn vị mà chúng tôi vừa tính toán.

3
4. Đã xác định vector / giá trị số ít, vector riêng / giá trị và điểm tải
; 0,242 phần gen 2 là "Vectơ đơn" hoặc "Vector riêng"
Tỷ lệ của mỗi gen "Điểm tải". PCA gọi SS (khoảng cách) cho dòng
phù
hợp nhất là giá trị riêng cho PC1.

5. Tìm PC2

Gene 2 quan trọng gấp 4 lần


-0.242 gen 1 và
0.97 so với gene 1. Eigenvalue cho
PC2 là tổng bình phương của
khoảng
cách giữa các điểm được chiếu và điểm gốc.

6. Vẽ biểu đồ PCA
PC nằm ngang, sau đó chúng ta sử dụng các điểm được chiếu để
tìm vị trí của các mẫu trong biểu đồ PCA.

7. Tính toán phần trăm biến thiên cho mỗi PC và sơ đồ sàng lọc

4
PC1=15; PC2=3 PC1 CHIẾM 15/18, PC2 CHIẾM 3/18

5
8. PCA đã làm việc cho dữ liệu 3 chiều:
PC1 và PC2 để vẽ biểu đồ hai chiều
PC3 là đường phù hợp với dữ liệu. Nếu đo 4 gen trên mỗi con
nhất đi qua gốc tọa độ và
chuột không thể vẽ biểu đồ 4 chiều của dữ
vuông góc với PC1 và
liệu. Trong trường hợp này, PC1 và PC2
chiếm 90% sự
thay đổi. Vì vậy, có thể sử dụng để vẽ đồ thị PCA 2 chiều. chiếu
các mẫu lên hai PC đầu tiên. Hai điểm được chiếu này tương ứng
với mẫu 2. Lưu
ý: nếu sơ đồ màn hình trông giống như thế này, trong đó PC3 và PC4 chiếm một lượng
đáng kể các biến thể, thì việc chỉ sử dụng 2 PC đầu tiên sẽ không tạo ra một biểu diễn dữ
liệu chính xác. Tuy nhiên, PCA như thế này cũng có thể được sử dụng để xác định các
cụm dữ liệu. Các mẫu này vẫn giống nhau hơn so với các mẫu khác.

6
Principal Component Analysis (PCA) clearly explained (2015)
1. Giới thiệu:
nguyên tắc phân tích thành phần đang hoạt động
PCA là một phương pháp nén
nhiều dữ liệu thành một thứ
gì đó nắm bắt được bản chất
gốc trong nhiệm của ngày
vụ thống kê

2. Giới thiệu về thứ nguyên:

Cách biểu đạt các kiểu gen qua các lần


đọc.
1 cell = 1-D graph (number line) Nếu
chúng ta có dữ liệu từ hai tế bào thì
chúng
ta cần một đồ thị hai chiều, đó chỉ là một đồ thị XY 2 cells = 2-D graph (normal x/y graph).
3 cells
= 3-D graph (fancy graph with depth) có dữ liệu từ hai trăm tế bào riêng lẻ, thì sẽ cần một
biểu đồ 200 chiều, không có cách nào có thể vẽ được.
3. Tại sao chúng ta có thể bỏ qua thứ nguyên:

PCA tập dữ liệu có nhiều thứ nguyên là nhiều tế bào và làm phẳng nó thành hai
7
chiều hoặc ba chiều để có ý nghĩa để làm phẳng dữ liệu bằng cách tập trung vào những
thứ nằm giữa các tế bào Điều này giống như làm phẳng một Z-stack hình ảnh micrope để
tạo ra một hình ảnh hai chiều duy nhất để xuất bản

8
4. Các thành phần chính về phương sai và hiệp phương sai
Có bốn tế bào PC1 sẽ mở rộng hướng của biến thể nhiều nhất PC2 sẽ
mở rộng hướng của biến thể thứ 2 PC3 sẽ mở rộng hướng của biến thể
thứ 3 PC4 sẽ mở rộng hướng của biến thể thứ 4

ục x và y trong hình này PC1 là hướng của sự biến đổi nhiều nhất của biểu hiện gen và PC2 là biến thể thứ hai của biểu hiện gen

9
Ý NGHĨA CỦA PCA

Chúng gồm 3 loại tế bào khác nhau, thực hiện chức năng khác nhau từ bộ gen
của chúng

Đây là dữ liệu, mỗi cột thể hiện mức độ mà mỗi gen (1_9), chúng thể hiện
tính trạng trên mỗi tế bào.

Gen 1 này trội hơn ở tế bào 1, nhưng lại lặn ở tế bào 2

Có 2 tế bào, ta sẽ vẽ sơ đồ mô tả các gen theo 2 tế bào,


Nhìn chung tế bào 1 và tế bào 2 có quan hệ tỉ lệ nghịch
en số 9 thì lại lặn ở tế bào 1 và trội hơn ở tế bào 2 với nhau. Có nghĩa chúng có thể là 2 loại tế bào khác nhau
bởi vì chúng có bộ gen trội khác nhau.

Có 3 tế bào, nhìn chung ta thấy tế bào 1 và tế


bào 3 có tương quan thuận với nhau chúng có
cùng chức năng, giữa tế bào 2 và tế bào 3 sự
tương quan nghịch cho thấy có chức năng khác
nhau.

10
Tế bào
1 là
trục
tung

Tế bào 3 là trục sâu

Tế bào 2 thì là trục


hoành

Mặc khác ta có thể vẽ 3 tế bào trên cùng một đồ thị và xoay đồ thị để xem chúng
tương quan với nhau.

Nhiều hơn 4 tế bào, ta vẽ đồ thị PCA chuyển những tương quan của
2 tế bào vào cùng 1 đồ thị 2 chiều chuyển những tương quan cao sẽ
tạo cụm với nhau

Từng trục Pc được xếp theo mức độ quan trọng, khác biệt thau
dổi dọc theo trục chính đầu tiên

11
Khoảng cách giữa hai cụm này theo PC2 gần bằng với khoảng cách giữa hai cụm này theo PC1

Hai cụm( vàng và đỏ) này khác nhau nhiều hơn so với hai cụ

Ngoài ra còn nhiều phương pháp khác: Heatmaps, đồ thị t_SNE, và co giãn đa chiều
(MDS)

12
Phương pháp Two-way ANOVA
1.Lý thuyết về Two-way ANOVA
Để đánh giá sự khác biệt một biến định lượng với các giá trị khác nhau của một biến định
tính như đánh giá sự hài lòng công việc có khác giữa các đáp viên có giới tính khác nhau
không, có độ tuổi khác nhau không... chúng ta sử dụng đến phân tích phương sai một yếu
tố One-way ANOVA. Trường hợp nhà nghiên cứu muốn mở rộng hơn việc xem xét khác
biệt một biến định lượng ở hai biến định tính cùng lúc, ANOVA một yếu tố sẽ không thể
thực hiện được, chúng ta sẽ cần dùng đến phân tích Two-way ANOVA.
2.Thực hành phân tích Two-way ANOVA trên SPSS 26
Xét một tập dữ liệu 350 nhân viên tại một công ty với cấu trúc biến như sau:
- Sự hài lòng công việc (biến định lượng) ký hiệu là F_HL.
- Giới tính nhân viên (biến định tính) ký hiệu là GioiTinh.
- Thâm niên làm việc (biến định tính) ký hiệu là ThamNien.
Thực hiện kiểm định ANOVA 2 chiều trên SPSS để đánh giá xem sự hài lòng công việc ở
các mức thâm niên khác nhau có giống nhau ở nhóm nhân viên nam và nhân viên nữ hay
không.
Tại giao diện SPSS, vào Analyze > General Linear Model > Univariate...

13
Cửa sổ Univariate xuất hiện, đưa biến định lượng F_HL vào ô Dependent Variable, đưa hai
biến định tính GioiTinh, ThamNien vào ô Fixed Factor(s).

Ở tùy chọn Plots... bên phải, đưa lần lượt từng biến GioiTinh, ThamNien vào mục
Horizontal Axis và nhấn nút Add.

14
Để biểu diễn quan hệ biến F_HL với cùng lúc hai biến GioiTinh, ThamNien trên đồ thị,
chúng ta sẽ đưa một biến định tính vào Horizontal Axis, biến định tính còn lại vào Separate
Lines, sau đó nhấp vào nút Add. Ưu tiên đưa biến định tính ít đáp án vào Separate Lines thì
đồ thị sẽ dễ nhìn hơn, trường hợp này GioiTinh chỉ có hai đáp án Nam/Nữ nên được đưa
vào Separate Lines.

15
Kết quả sau khi đưa biến vào sẽ hiển thị ở mục Plots như bên dưới. Nhấp Continue để quay
về cửa sổ ban đầu.

16
Ở tùy chọn Post Hoc..., đưa các biến định tính từ Factor(s) bên trái sang Post Hoc Tests for
để phân tích sâu ANOVA khi có khác biệt. Trong các tùy chọn phân tích sâu ANOVA ở
mục Equal Variances Assumed (giả định phương sai các nhóm bằng nhau), chọn một trong
các kiểm định, thường bạn có thể chọn LSD hoặc Bonferroni. Đối với phân tích Two-way
ANOVA, khi vi phạm giả định phương sai bằng nhau, chúng ta sẽ không đọc kết quả kiểm
định về sự khác biệt trung bình do các ước lượng sẽ không chính xác. Nhấp vào Continue
để quay về cửa sổ ban đầu.

17
Trong tùy chọn EM Means..., đưa toàn bộ các biến ở Factor(s) and Factor Interactions từ
bên trái sang mục Display Means for ở bên phải. Nhấp vào Continue quay về cửa sổ ban
đầu.

18
Trong tùy chọn Options, tích vào hai mục Descriptive statistics và Homogeneity tests.
Nhấp vào Continue quay về cửa sổ ban đầu, tiếp tục chọn OK để xuất kết quả ra output.

19
3.Đọc kết quả phân tích Two-way ANOVA trên SPSS 26
Với phần đọc kết quả, chúng ta sẽ xem tổng quát kết quả thống kê mô tả đơn và mô tả kết
hợp biến ở hai bảng Between-Subjects Factors và Descriptive Statistics.

20
Bảng Levene's Test of Equality of Error Variances cho kết quả kiểm định sự giống nhau về
phương sai sai số các nhóm giá trị.

Nếu sig kiểm định Levene ở hàng Based on Mean lớn hơn 0.05, chúng ta kết luận phương
sai sai số các nhóm giá trị là bằng nhau và đọc tiếp các bảng kết quả khác biệt trung bình
bên dưới.
Nếu sig kiểm định Levene ở hàng Based on Mean nhỏ hơn 0.05, chúng ta kết luận phương
sai sai số các nhóm giá trị là không bằng nhau và KẾT THÚC phép kiểm định ở đây do
không có đủ căn cứ để đánh giá sự khác biệt trung bình..
Kết quả ở ví dụ bên dưới sig kiểm định Levene ở Based on Mean bằng 0.354 > 0.05,
21
phương sai sai số các nhóm giá trị bằng nhau nên chúng ta sẽ đọc tiếp kết quả phần khác
biệt trung bình.

Bảng quan trọng nhất trong kiểm định Two-way ANOVA là Tests of Between-Subjects
Effects. Giá trị sig ở ba hàng GioiTinh, ThamNien, GioiTinh*ThamNien cho biết có sự
khác biệt trung bình F_HL ở các biến định tính này hay không. Trong đó, giá trị quan trọng
nhất là sig ở hàng Interaction GioiTinh*ThamNien cho biết sự kết hợp của hai biến
GioiTinh với ThamNien có ảnh hưởng lên F_HL hay không.
Cụ thể trong kết quả bên dưới:
 Sig kiểm định F ở hàng GioiTinh bằng 0.800 > 0.05, như vậy không có khác biệt sự
hài lòng giữa các nhân viên có giới tính khác nhau.
 Sig kiểm định F ở hàng ThamNien bằng 0.000 < 0.05, như vậy có khác biệt sự hài
lòng giữa các nhân viên có thâm niên làm việc khác nhau. SPSS sẽ xuất phần phân
tích sâu ANOVA cho biến ThamNien này ở bảng Post Hoc Test sau đó.
 Sig kiểm định F ở hàng GioiTinh*ThamNien bằng 0.002 < 0.05, như vậy có khác
biệt sự hài lòng giữa các nhân viên có thâm niên làm việc khác nhau ở các nhóm
giới tính khác nhau.

22
Đồ thị biểu diễn mối giá trị trung bình F_HL theo thâm niên và giới tính cho thấy:
 Với nhân viên nam: Sự hài lòng công việc có xu hướng tăng theo thâm niên khi
đường màu xanh dương dốc lên theo thâm niên tăng dần.
 Với nhân viên nữ: Sự hài lòng công việc không khác biệt nhiều theo các mức thâm
niên khi đường màu đỏ có xu hướng đi ngang dù thâm niên tăng dần.

23
Ở bảng Tests of Between-Subjects Effects, chúng ta đã biết được có khác biệt sự hài lòng
giữa các nhân viên có thâm niên làm việc khác nhau. SPSS cũng cung cấp thêm cho chúng
ta kết quả phân tích sâu ANOVA để xem chi tiết cặp giá trị nào có khác biệt.

24
25

You might also like