Professional Documents
Culture Documents
Báo cáo thống kê qui hoạch
Báo cáo thống kê qui hoạch
Đồ thị này sẽ cho chúng ta thấy rằng những con chuột giống nhau tụ lại với nhau.
Chúng ta cũng sẽ nói về cách PCA có thể cho chúng ta biết gen (hoặc biến) nào có giá trị
nhất để phân nhóm dữ liệu.
3. Tìm PC1
1 đường ngẫu nhiên qua điểm Sau đó xoay dòng cho đến khi nó
O(0;0)
phù hợp với dữ liệu có thề, cho rằng
nó phải đi qua điểm gốc. Cuối cùng
thì dòng này
phù hợp nhất. Cách PCA quyết định xem
liệu giá trị có phù hợp hay không
2
Đo khoảng cách từ dữ liệu đến dòng, cố
Xác định mức độ phù hợp với dữ liệu
gắng tìm dòng giảm thiểu những khoảng cách
đó, tìm đường thẳng tối đa hóa khoảng cách
được chiếu đến điểm từ các điểm gốc.
3
4. Đã xác định vector / giá trị số ít, vector riêng / giá trị và điểm tải
; 0,242 phần gen 2 là "Vectơ đơn" hoặc "Vector riêng"
Tỷ lệ của mỗi gen "Điểm tải". PCA gọi SS (khoảng cách) cho dòng
phù
hợp nhất là giá trị riêng cho PC1.
5. Tìm PC2
6. Vẽ biểu đồ PCA
PC nằm ngang, sau đó chúng ta sử dụng các điểm được chiếu để
tìm vị trí của các mẫu trong biểu đồ PCA.
7. Tính toán phần trăm biến thiên cho mỗi PC và sơ đồ sàng lọc
4
PC1=15; PC2=3 PC1 CHIẾM 15/18, PC2 CHIẾM 3/18
5
8. PCA đã làm việc cho dữ liệu 3 chiều:
PC1 và PC2 để vẽ biểu đồ hai chiều
PC3 là đường phù hợp với dữ liệu. Nếu đo 4 gen trên mỗi con
nhất đi qua gốc tọa độ và
chuột không thể vẽ biểu đồ 4 chiều của dữ
vuông góc với PC1 và
liệu. Trong trường hợp này, PC1 và PC2
chiếm 90% sự
thay đổi. Vì vậy, có thể sử dụng để vẽ đồ thị PCA 2 chiều. chiếu
các mẫu lên hai PC đầu tiên. Hai điểm được chiếu này tương ứng
với mẫu 2. Lưu
ý: nếu sơ đồ màn hình trông giống như thế này, trong đó PC3 và PC4 chiếm một lượng
đáng kể các biến thể, thì việc chỉ sử dụng 2 PC đầu tiên sẽ không tạo ra một biểu diễn dữ
liệu chính xác. Tuy nhiên, PCA như thế này cũng có thể được sử dụng để xác định các
cụm dữ liệu. Các mẫu này vẫn giống nhau hơn so với các mẫu khác.
6
Principal Component Analysis (PCA) clearly explained (2015)
1. Giới thiệu:
nguyên tắc phân tích thành phần đang hoạt động
PCA là một phương pháp nén
nhiều dữ liệu thành một thứ
gì đó nắm bắt được bản chất
gốc trong nhiệm của ngày
vụ thống kê
PCA tập dữ liệu có nhiều thứ nguyên là nhiều tế bào và làm phẳng nó thành hai
7
chiều hoặc ba chiều để có ý nghĩa để làm phẳng dữ liệu bằng cách tập trung vào những
thứ nằm giữa các tế bào Điều này giống như làm phẳng một Z-stack hình ảnh micrope để
tạo ra một hình ảnh hai chiều duy nhất để xuất bản
8
4. Các thành phần chính về phương sai và hiệp phương sai
Có bốn tế bào PC1 sẽ mở rộng hướng của biến thể nhiều nhất PC2 sẽ
mở rộng hướng của biến thể thứ 2 PC3 sẽ mở rộng hướng của biến thể
thứ 3 PC4 sẽ mở rộng hướng của biến thể thứ 4
ục x và y trong hình này PC1 là hướng của sự biến đổi nhiều nhất của biểu hiện gen và PC2 là biến thể thứ hai của biểu hiện gen
9
Ý NGHĨA CỦA PCA
Chúng gồm 3 loại tế bào khác nhau, thực hiện chức năng khác nhau từ bộ gen
của chúng
Đây là dữ liệu, mỗi cột thể hiện mức độ mà mỗi gen (1_9), chúng thể hiện
tính trạng trên mỗi tế bào.
10
Tế bào
1 là
trục
tung
Mặc khác ta có thể vẽ 3 tế bào trên cùng một đồ thị và xoay đồ thị để xem chúng
tương quan với nhau.
Nhiều hơn 4 tế bào, ta vẽ đồ thị PCA chuyển những tương quan của
2 tế bào vào cùng 1 đồ thị 2 chiều chuyển những tương quan cao sẽ
tạo cụm với nhau
Từng trục Pc được xếp theo mức độ quan trọng, khác biệt thau
dổi dọc theo trục chính đầu tiên
11
Khoảng cách giữa hai cụm này theo PC2 gần bằng với khoảng cách giữa hai cụm này theo PC1
Hai cụm( vàng và đỏ) này khác nhau nhiều hơn so với hai cụ
Ngoài ra còn nhiều phương pháp khác: Heatmaps, đồ thị t_SNE, và co giãn đa chiều
(MDS)
12
Phương pháp Two-way ANOVA
1.Lý thuyết về Two-way ANOVA
Để đánh giá sự khác biệt một biến định lượng với các giá trị khác nhau của một biến định
tính như đánh giá sự hài lòng công việc có khác giữa các đáp viên có giới tính khác nhau
không, có độ tuổi khác nhau không... chúng ta sử dụng đến phân tích phương sai một yếu
tố One-way ANOVA. Trường hợp nhà nghiên cứu muốn mở rộng hơn việc xem xét khác
biệt một biến định lượng ở hai biến định tính cùng lúc, ANOVA một yếu tố sẽ không thể
thực hiện được, chúng ta sẽ cần dùng đến phân tích Two-way ANOVA.
2.Thực hành phân tích Two-way ANOVA trên SPSS 26
Xét một tập dữ liệu 350 nhân viên tại một công ty với cấu trúc biến như sau:
- Sự hài lòng công việc (biến định lượng) ký hiệu là F_HL.
- Giới tính nhân viên (biến định tính) ký hiệu là GioiTinh.
- Thâm niên làm việc (biến định tính) ký hiệu là ThamNien.
Thực hiện kiểm định ANOVA 2 chiều trên SPSS để đánh giá xem sự hài lòng công việc ở
các mức thâm niên khác nhau có giống nhau ở nhóm nhân viên nam và nhân viên nữ hay
không.
Tại giao diện SPSS, vào Analyze > General Linear Model > Univariate...
13
Cửa sổ Univariate xuất hiện, đưa biến định lượng F_HL vào ô Dependent Variable, đưa hai
biến định tính GioiTinh, ThamNien vào ô Fixed Factor(s).
Ở tùy chọn Plots... bên phải, đưa lần lượt từng biến GioiTinh, ThamNien vào mục
Horizontal Axis và nhấn nút Add.
14
Để biểu diễn quan hệ biến F_HL với cùng lúc hai biến GioiTinh, ThamNien trên đồ thị,
chúng ta sẽ đưa một biến định tính vào Horizontal Axis, biến định tính còn lại vào Separate
Lines, sau đó nhấp vào nút Add. Ưu tiên đưa biến định tính ít đáp án vào Separate Lines thì
đồ thị sẽ dễ nhìn hơn, trường hợp này GioiTinh chỉ có hai đáp án Nam/Nữ nên được đưa
vào Separate Lines.
15
Kết quả sau khi đưa biến vào sẽ hiển thị ở mục Plots như bên dưới. Nhấp Continue để quay
về cửa sổ ban đầu.
16
Ở tùy chọn Post Hoc..., đưa các biến định tính từ Factor(s) bên trái sang Post Hoc Tests for
để phân tích sâu ANOVA khi có khác biệt. Trong các tùy chọn phân tích sâu ANOVA ở
mục Equal Variances Assumed (giả định phương sai các nhóm bằng nhau), chọn một trong
các kiểm định, thường bạn có thể chọn LSD hoặc Bonferroni. Đối với phân tích Two-way
ANOVA, khi vi phạm giả định phương sai bằng nhau, chúng ta sẽ không đọc kết quả kiểm
định về sự khác biệt trung bình do các ước lượng sẽ không chính xác. Nhấp vào Continue
để quay về cửa sổ ban đầu.
17
Trong tùy chọn EM Means..., đưa toàn bộ các biến ở Factor(s) and Factor Interactions từ
bên trái sang mục Display Means for ở bên phải. Nhấp vào Continue quay về cửa sổ ban
đầu.
18
Trong tùy chọn Options, tích vào hai mục Descriptive statistics và Homogeneity tests.
Nhấp vào Continue quay về cửa sổ ban đầu, tiếp tục chọn OK để xuất kết quả ra output.
19
3.Đọc kết quả phân tích Two-way ANOVA trên SPSS 26
Với phần đọc kết quả, chúng ta sẽ xem tổng quát kết quả thống kê mô tả đơn và mô tả kết
hợp biến ở hai bảng Between-Subjects Factors và Descriptive Statistics.
20
Bảng Levene's Test of Equality of Error Variances cho kết quả kiểm định sự giống nhau về
phương sai sai số các nhóm giá trị.
Nếu sig kiểm định Levene ở hàng Based on Mean lớn hơn 0.05, chúng ta kết luận phương
sai sai số các nhóm giá trị là bằng nhau và đọc tiếp các bảng kết quả khác biệt trung bình
bên dưới.
Nếu sig kiểm định Levene ở hàng Based on Mean nhỏ hơn 0.05, chúng ta kết luận phương
sai sai số các nhóm giá trị là không bằng nhau và KẾT THÚC phép kiểm định ở đây do
không có đủ căn cứ để đánh giá sự khác biệt trung bình..
Kết quả ở ví dụ bên dưới sig kiểm định Levene ở Based on Mean bằng 0.354 > 0.05,
21
phương sai sai số các nhóm giá trị bằng nhau nên chúng ta sẽ đọc tiếp kết quả phần khác
biệt trung bình.
Bảng quan trọng nhất trong kiểm định Two-way ANOVA là Tests of Between-Subjects
Effects. Giá trị sig ở ba hàng GioiTinh, ThamNien, GioiTinh*ThamNien cho biết có sự
khác biệt trung bình F_HL ở các biến định tính này hay không. Trong đó, giá trị quan trọng
nhất là sig ở hàng Interaction GioiTinh*ThamNien cho biết sự kết hợp của hai biến
GioiTinh với ThamNien có ảnh hưởng lên F_HL hay không.
Cụ thể trong kết quả bên dưới:
Sig kiểm định F ở hàng GioiTinh bằng 0.800 > 0.05, như vậy không có khác biệt sự
hài lòng giữa các nhân viên có giới tính khác nhau.
Sig kiểm định F ở hàng ThamNien bằng 0.000 < 0.05, như vậy có khác biệt sự hài
lòng giữa các nhân viên có thâm niên làm việc khác nhau. SPSS sẽ xuất phần phân
tích sâu ANOVA cho biến ThamNien này ở bảng Post Hoc Test sau đó.
Sig kiểm định F ở hàng GioiTinh*ThamNien bằng 0.002 < 0.05, như vậy có khác
biệt sự hài lòng giữa các nhân viên có thâm niên làm việc khác nhau ở các nhóm
giới tính khác nhau.
22
Đồ thị biểu diễn mối giá trị trung bình F_HL theo thâm niên và giới tính cho thấy:
Với nhân viên nam: Sự hài lòng công việc có xu hướng tăng theo thâm niên khi
đường màu xanh dương dốc lên theo thâm niên tăng dần.
Với nhân viên nữ: Sự hài lòng công việc không khác biệt nhiều theo các mức thâm
niên khi đường màu đỏ có xu hướng đi ngang dù thâm niên tăng dần.
23
Ở bảng Tests of Between-Subjects Effects, chúng ta đã biết được có khác biệt sự hài lòng
giữa các nhân viên có thâm niên làm việc khác nhau. SPSS cũng cung cấp thêm cho chúng
ta kết quả phân tích sâu ANOVA để xem chi tiết cặp giá trị nào có khác biệt.
24
25