You are on page 1of 29

Phương pháp PCA

1. Động lực khái niệm cho PCA:


Khái niệm: PCA là phương pháp biến đổi giúp giảm số lượng lớn các biến có
tương quan với nhau thành tập ít các biến sao cho các biến mới tạo ra là tổ hợp tuyến tính
của những biến cũ không có tương quan lần nhau. Ví dụ, chúng ta có 100 biến ban đầu có
tương quan tuyến tính với nhau, khi đó chúng ta sử dụng phương pháp PCA xoay chiều
không gian cũ thành chiều không gian mới mà ở đó chỉ còn 5 biến không có tương quan
tuyến tính mà vẫn dữ được nhiều nhất lượng thông tin từ nhóm biến ban đầu.
2. PCA đã làm việc cho dữ liệu 2 chiều:
Có giá trị cao Trục y kéo dài

Trục x kéo dài


Có giá trị thấp

Đồ thị này sẽ cho chúng ta thấy rằng những con chuột giống nhau tụ lại với nhau.
Chúng ta cũng sẽ nói về cách PCA có thể cho chúng ta biết gen (hoặc biến) nào có giá trị
nhất để phân nhóm dữ liệu.
3. Tìm PC1
1 đường ngẫu nhiên qua điểm Sau đó xoay dòng cho đến khi nó
O(0;0)
phù hợp với dữ liệu có thề, cho rằng
nó phải đi qua điểm gốc. Cuối cùng
thì dòng này
phù hợp nhất. Cách PCA quyết định xem
liệu giá trị có phù hợp hay không

2
Đo khoảng cách từ dữ liệu đến dòng, cố
Xác định mức độ phù hợp với dữ liệu
gắng tìm dòng giảm thiểu những khoảng cách
đó, tìm đường thẳng tối đa hóa khoảng cách
được chiếu đến điểm từ các điểm gốc.

a ( a bình phương) không thay đổi. Nếu b lớn


Gắn nhãn các cạnh a
hơn thì c phải nhỏ hơn. Tương tự như vậy nếu c
sử dụng Pitago chỉ ra b
và c quan hệ nghịch lớn hơn thì b phải nhỏ lại. Do đó PCA có thể
đảo như thế nào
giảm thiểu khoảng cách đến đường thẳng hoặc
tối đa hóa khoảng cách
từ điểm được chiếu tới điểm gốc

PCA phù hợp nhất bằng


cách tối đa hóa tổng bình
phương khoảng cách từ bốn đơn vị chia tỷ lệ tam giác sao cho
điểm được chiếu đến điểmchúng ta đi dọc
gốc và gọi là d1
đường thẳng màu đỏ dài một
Hệ số góc 0.25 theo trục gen 1
đơn vị là chia mỗi cạnh cho
4,12. Đây là tất
cả các giá trị được chia tỷ lệ. Các giá trị
mới thay đổi nhưng tỷ lệ vẫn như cũ:
lượng gen 1 nhiều gấp 4 lần so với gen 2.
Ta xem xét Dữ liệu Dòng phù hợp nhất
Vectơ đơn vị mà chúng tôi vừa tính toán.

3
4. Đã xác định vector / giá trị số ít, vector riêng / giá trị và điểm tải
; 0,242 phần gen 2 là "Vectơ đơn" hoặc "Vector riêng"
Tỷ lệ của mỗi gen "Điểm tải". PCA gọi SS (khoảng cách) cho dòng
phù
hợp nhất là giá trị riêng cho PC1.

5. Tìm PC2

Gene 2 quan trọng gấp 4 lần


-0.242 gen 1 và
0.97 so với gene 1. Eigenvalue cho
PC2 là tổng bình phương của
khoảng
cách giữa các điểm được chiếu và điểm gốc.

6. Vẽ biểu đồ PCA
PC nằm ngang, sau đó chúng ta sử dụng các điểm được chiếu để
tìm vị trí của các mẫu trong biểu đồ PCA.

7. Tính toán phần trăm biến thiên cho mỗi PC và sơ đồ sàng lọc

4
PC1=15; PC2=3 PC1 CHIẾM 15/18, PC2 CHIẾM 3/18

5
8. PCA đã làm việc cho dữ liệu 3 chiều:
PC1 và PC2 để vẽ biểu đồ hai chiều
PC3 là đường phù hợp với dữ liệu. Nếu đo 4 gen trên mỗi con
nhất đi qua gốc tọa độ và
chuột không thể vẽ biểu đồ 4 chiều của dữ
vuông góc với PC1 và
liệu. Trong trường hợp này, PC1 và PC2
chiếm 90% sự
thay đổi. Vì vậy, có thể sử dụng để vẽ đồ thị PCA 2 chiều. chiếu
các mẫu lên hai PC đầu tiên. Hai điểm được chiếu này tương ứng
với mẫu 2. Lưu
ý: nếu sơ đồ màn hình trông giống như thế này, trong đó PC3 và PC4 chiếm một lượng
đáng kể các biến thể, thì việc chỉ sử dụng 2 PC đầu tiên sẽ không tạo ra một biểu diễn dữ
liệu chính xác. Tuy nhiên, PCA như thế này cũng có thể được sử dụng để xác định các
cụm dữ liệu. Các mẫu này vẫn giống nhau hơn so với các mẫu khác.

6
Principal Component Analysis (PCA) clearly explained (2015)
1. Giới thiệu:
nguyên tắc phân tích thành phần đang hoạt động
PCA là một phương pháp nén
nhiều dữ liệu thành một thứ
gì đó nắm bắt được bản chất
gốc trong nhiệm của ngày
vụ thống kê

2. Giới thiệu về thứ nguyên:

Cách biểu đạt các kiểu gen qua các lần


đọc.
1 cell = 1-D graph (number line) Nếu
chúng ta có dữ liệu từ hai tế bào thì
chúng
ta cần một đồ thị hai chiều, đó chỉ là một đồ thị XY 2 cells = 2-D graph (normal x/y graph).
3 cells
= 3-D graph (fancy graph with depth) có dữ liệu từ hai trăm tế bào riêng lẻ, thì sẽ cần một
biểu đồ 200 chiều, không có cách nào có thể vẽ được.
3. Tại sao chúng ta có thể bỏ qua thứ nguyên:

PCA tập dữ liệu có nhiều thứ nguyên là nhiều tế bào và làm phẳng nó thành hai
7
chiều hoặc ba chiều để có ý nghĩa để làm phẳng dữ liệu bằng cách tập trung vào những
thứ nằm giữa các tế bào Điều này giống như làm phẳng một Z-stack hình ảnh micrope để
tạo ra một hình ảnh hai chiều duy nhất để xuất bản

8
4. Các thành phần chính về phương sai và hiệp phương sai
Có bốn tế bào PC1 sẽ mở rộng hướng của biến thể nhiều nhất PC2 sẽ
mở rộng hướng của biến thể thứ 2 PC3 sẽ mở rộng hướng của biến thể
thứ 3 PC4 sẽ mở rộng hướng của biến thể thứ 4

ục x và y trong hình này PC1 là hướng của sự biến đổi nhiều nhất của biểu hiện gen và PC2 là biến thể thứ hai của biểu hiện gen

9
Ý NGHĨA CỦA PCA

Chúng gồm 3 loại tế bào khác nhau, thực hiện chức năng khác nhau từ bộ gen
của chúng

Đây là dữ liệu, mỗi cột thể hiện mức độ mà mỗi gen (1_9), chúng thể hiện
tính trạng trên mỗi tế bào.

Gen 1 này trội hơn ở tế bào 1, nhưng lại lặn ở tế bào 2

Có 2 tế bào, ta sẽ vẽ sơ đồ mô tả các gen theo 2 tế bào,


Nhìn chung tế bào 1 và tế bào 2 có quan hệ tỉ lệ nghịch
en số 9 thì lại lặn ở tế bào 1 và trội hơn ở tế bào 2 với nhau. Có nghĩa chúng có thể là 2 loại tế bào khác nhau
bởi vì chúng có bộ gen trội khác nhau.

Có 3 tế bào, nhìn chung ta thấy tế bào 1 và tế


bào 3 có tương quan thuận với nhau chúng có
cùng chức năng, giữa tế bào 2 và tế bào 3 sự
tương quan nghịch cho thấy có chức năng khác
nhau.

10
Tế bào
1 là
trục
tung

Tế bào 3 là trục sâu

Tế bào 2 thì là trục


hoành

Mặc khác ta có thể vẽ 3 tế bào trên cùng một đồ thị và xoay đồ thị để xem chúng
tương quan với nhau.

Nhiều hơn 4 tế bào, ta vẽ đồ thị PCA chuyển những tương quan của
2 tế bào vào cùng 1 đồ thị 2 chiều chuyển những tương quan cao sẽ
tạo cụm với nhau

Từng trục Pc được xếp theo mức độ quan trọng, khác biệt thau
dổi dọc theo trục chính đầu tiên

11
Khoảng cách giữa hai cụm này theo PC2 gần bằng với khoảng cách giữa hai cụm này theo PC1

Hai cụm( vàng và đỏ) này khác nhau nhiều hơn so với hai cụ

Ngoài ra còn nhiều phương pháp khác: Heatmaps, đồ thị t_SNE, và co giãn đa chiều
(MDS)

12
Cluster analysis
1.Khái niệm
Là phương pháp gom nhóm một tập các đối tượng theo cách các đối tượng cùng nhóm (gọi
là cụm, cluster) có tính giống nhau (theo một hay nhiều đặc điểm cụ thể nào đó) hơn so với
các đối tượng ngoài nhóm hoặc thuộc các nhóm khác.
2.Bản chất
Bản thân phân tích cụm không phải là một thuật toán cụ thể, mà là nhiệm vụ chung cần
được giải quyết. Nó có thể đạt được bằng các thuật toán khác nhau, khác nhau đáng kể
trong hiểu biết của chúng về những gì tạo thành một cụm và cách tìm chúng một cách hiệu
quả. Các khái niệm phổ biến về cụm bao gồm các nhóm có khoảng cách nhỏ giữa các
thành viên trong cụm, các khu vực dày đặc của không gian dữ liệu, các khoảng hoặc phân
phối thống kê cụ thể. Do đó, phân cụm có thể được xây dựng như một bài toán tối ưu hóa
đa mục tiêu. Thuật toán phân cụm thích hợp và cài đặt tham số (bao gồm các tham số như
hàm khoảng cách sử dụng, ngưỡng mật độ hoặc số lượng cụm dự kiến) phụ thuộc vào tập
dữ liệu riêng lẻ và mục đích sử dụng kết quả. Phân tích cụm như vậy không phải là một
nhiệm vụ tự động, mà là một quá trình lặp đi lặp lại để khám phá kiến thức hoặc tối ưu hóa
đa mục tiêu tương tác liên quan đến thử nghiệm và thất bại. Thông thường cần phải sửa đổi
các tham số tiền xử lý dữ liệu và mô hình cho đến khi kết quả đạt được các thuộc tính
mong muốn.
3. Mục đích
Mục đích của phân tích cụm là tìm ra bản chất bên trong các nhóm của dữ liệu. Tuy nhiên,
không có tiêu chí nào được xem là tốt nhất để đánh giá hiệu quả của phân tích cụm, điều
này phụ thuộc vào mục đích của phân tích cụm như: giảm dữ liệu (data reduction), “cụm tự
nhiên” (“natural cluster”), cụm “có ích” (“useful cluster), phát hiện phần tử ngoại lai
(outlier detection).
4. Đặc điểm
Phương pháp phân tích cụm được được xây dựng cho phép các loại bỏ sự mất trật tự trong
danh mục bằng cách xác định các chủ thể có các yếu tố tương quan với nhau.
5. Nhược điểm
Nhược điểm: Nhược điểm rõ ràng nhất của phương pháp phân tích cụm là mức độ chồng
chéo giữa các phân cụm (oᴠerlaу). Các phân cụm gần nhau haу có nghĩa là có mối tương
quan cao, thường có chung một ѕố уếu tố rủi ro.
6. Ứng dụng
Cluster analysis được ứng dụng trong các lĩnh vực như: Phân cụm trong hàng không, Phân
cụm học sinh, Phân cụm khách hàng, Phân cụm/loại bệnh nhân, Phân cụm trong Giao
thông, Phân cụm/nhóm văn bản, Hệ thống tài chính ngân hàng, Các sàn giao dịch chứng
khoán và ngoại hối,...
Pearson analysis
1.Khái niệm
Hệ số tương quan Pearson (Pearson correlation coefficient, ký hiệu r) là số liệu thống kê
13
kiểm tra đo lường mối quan hệ thống kê hoặc liên kết giữa các biến phụ thuộc với các biến
liên tục. Hệ số tương quan sẽ trả lời cho các câu hỏi chẳng hạn như: Có mối quan hệ tương
quan giữa nhiệt độ và doanh thu bán kem?; Có mối quan hệ tương quan giữa sự hài lòng
công việc, năng suất và thu nhập? hay Hai biến nào có mối liên hệ chặt chẽ nhất giữa tuổi,
chiều cao, cân nặng, quy mô gia đình và thu nhập gia đình?...
Tương quan pearson được biết đến như là phương pháp tốt nhất để đo lường mối liên hệ
giữa các biến quan tâm bởi vì nó dựa trên phương pháp hiệp phương sai. Nó cung cấp
thông tin về mức độ quan trọng của mối liên hệ, hoặc mối tương quan, cũng như hướng của
mối quan hệ. Ngoài ra, việc kiểm tra hệ số tương quan pearson còn giúp chúng ta sớm nhận
diễn được sự xảy ra của vấn đề đa cộng tuyến khi các biến độc lập có sự tương quan mạnh
với nhau.
2.Ý nghĩa hệ số tương quan pearson
Hệ số tương quan Pearson (r) có giá trị giao động trong khoảng liên tục từ -1 đến +1:
r = 0: Hai biến không có tương quan tuyến tính
r = 1; r = -1: Hai biến có mối tương quan tuyến tính tuyệt đối.
r < 0: Hệ số tương quan âm. Nghĩa là giá trị biến x tăng thì giá trị biến y giảm và ngược lại,
giá trị biến y tăng thì giá trị biến x giảm.
r > 0: Hệ số tương quan dương. Nghĩa là giá trị biến x tăng thì giá trị biến y tăng và ngược
lại, giá trị biến y tăng thì giá trị biến x cũng tăng.
Lưu ý:
Hệ số tương quan pearson (r) chỉ có ý nghĩa khi và chỉ khi mức ý nghĩa quan sát (sig.) nhỏ
hơn mức ý nghĩa α = 5%.
Nếu r nằm trong khoảng từ 0,50 đến ± 1, thì nó được cho là tương quan mạnh.
Nếu r nằm trong khoảng từ 0,30 đến ± 0,49, thì nó được gọi là tương quan trung bình.
Nếu r nằm dưới ± .29, thì nó được gọi là một mối tương quan yếu.
Trên đồ thị phân tán Scatter, nếu r = -1 dữ liệu sẽ phân bổ trên một đường thẳng với độ dốc
âm, r = 1 dữ liệu sẽ phân bổ trên một đường thẳng với độ dốc dương.

14
3.Thực hành phân tích hệ số tương quan pearson trong SPSS
Để kiểm định hệ số tương quan pearson trong SPSS. Đầu tiên, tại thanh công cụ ta nhấp
chọn: Analyze > Correlate > Bivariate

Cửa sổ Bivariate Correlations mở ra, nơi bạn sẽ chỉ định các biến được sử dụng trong phân
tích. Tất cả các biến trong tập dữ liệu của bạn xuất hiện trong danh sách ở phía bên trái. Để
chọn các biến cho phân tích, chọn các biến trong danh sách bên trái và nhấp vào nút mũi
tên để di chuyển chúng sang phải, trong trường Variables.

15
(A) Variables: Các biến được sử dụng trong Tương quan Pearson bivariate. Bạn phải chọn
ít nhất hai biến liên tục, nhưng có thể chọn nhiều hơn hai biến. Thử nghiệm sẽ tạo ra các hệ
số tương quan cho từng cặp biến trong danh sách này. Lưu ý: Bạn nên sắp xếp biến phụ
thuộc nằm trên cùng trong bảng Variables.
(B) Correlation Coefficients: Có nhiều loại hệ số tương quan. Theo mặc định, Pearson
được chọn.
(C) Test of Significance: Nhấp vào Two-tailed hoặc One-tailed , tùy thuộc vào thử nghiệm
ý nghĩa mong muốn của bạn. SPSS sử dụng thử nghiệm two-tailed theo mặc định.
(D) Flag significant correlations: Kiểm tra tùy chọn này sẽ bao gồm các dấu sao (**) bên
cạnh các tương quan có ý nghĩa thống kê trong đầu ra.
Cuối cùng là nhấp OK để xuất kết quả ra output.
4.Đọc ý nghĩa hệ số tương quan pearson trong SPSS

16
Đầu tiên, khi nhìn vào bảng kết quả Correlations, chúng ta cần quan tâm đến giá trị sig.
Sig. phải nhỏ hơn α = 0.05 thì tương quan r mới có ý nghĩa.
Đối với dòng giá trị sig. được tô màu cam: Giá trị nào < 0.05 thì ta kết luận rằng biến độc
lập có tương quan tuyến tính với biến phụ thuộc và ngược lại (giá trị nào > 0.05 thì không
có sự tương quan giữa biến độc lập và biến phụ thuộc). Lưu ý, chúng ta sẽ dựa trên sự so
sánh giá trị sig. với mức ý nghĩa 0.05 để đánh giá sự tương quan giữa cặp biến chứ không
loại biến không đạt và chạy lần 2.
Sau khi đánh giá xong sự tương quan giữa cặp biến, ta sẽ dựa vào giá trị r để đánh giá mức
độ tương quan mạnh/ yếu giữa biến phụ thuộc và các biến độc lập theo ý nghĩa hệ số tương
quan pearson đã nêu ở phần trên.
Đối với dòng giá trị sig. được tô màu hồng: Giá trị ở dòng này thể hiện cho sự tương quan
giữa các biến độc lập với nhau. Chúng ta cũng xét tương tự như đối với đánh giá sự tương
quan giữa biến độc lập và biến phụ thuộc. Tuy nhiên, nếu như r > 0.4 và sig. < 0.05 thì bạn
cần lưu ý đến việc xảy ra đa cộng tuyến.
Phương pháp Two-way ANOVA

17
1.Lý thuyết về Two-way ANOVA
Để đánh giá sự khác biệt một biến định lượng với các giá trị khác nhau của một biến định
tính như đánh giá sự hài lòng công việc có khác giữa các đáp viên có giới tính khác nhau
không, có độ tuổi khác nhau không... chúng ta sử dụng đến phân tích phương sai một yếu
tố One-way ANOVA. Trường hợp nhà nghiên cứu muốn mở rộng hơn việc xem xét khác
biệt một biến định lượng ở hai biến định tính cùng lúc, ANOVA một yếu tố sẽ không thể
thực hiện được, chúng ta sẽ cần dùng đến phân tích Two-way ANOVA.
2.Thực hành phân tích Two-way ANOVA trên SPSS 26
Xét một tập dữ liệu 350 nhân viên tại một công ty với cấu trúc biến như sau:
- Sự hài lòng công việc (biến định lượng) ký hiệu là F_HL.
- Giới tính nhân viên (biến định tính) ký hiệu là GioiTinh.
- Thâm niên làm việc (biến định tính) ký hiệu là ThamNien.
Thực hiện kiểm định ANOVA 2 chiều trên SPSS để đánh giá xem sự hài lòng công việc ở
các mức thâm niên khác nhau có giống nhau ở nhóm nhân viên nam và nhân viên nữ hay
không.
Tại giao diện SPSS, vào Analyze > General Linear Model > Univariate...

Cửa sổ Univariate xuất hiện, đưa biến định lượng F_HL vào ô Dependent Variable, đưa hai
biến định tính GioiTinh, ThamNien vào ô Fixed Factor(s).

18
Ở tùy chọn Plots... bên phải, đưa lần lượt từng biến GioiTinh, ThamNien vào mục
Horizontal Axis và nhấn nút Add.

19
Để biểu diễn quan hệ biến F_HL với cùng lúc hai biến GioiTinh, ThamNien trên đồ thị,
chúng ta sẽ đưa một biến định tính vào Horizontal Axis, biến định tính còn lại vào Separate
Lines, sau đó nhấp vào nút Add. Ưu tiên đưa biến định tính ít đáp án vào Separate Lines thì
đồ thị sẽ dễ nhìn hơn, trường hợp này GioiTinh chỉ có hai đáp án Nam/Nữ nên được đưa
vào Separate Lines.

20
Kết quả sau khi đưa biến vào sẽ hiển thị ở mục Plots như bên dưới. Nhấp Continue để quay
về cửa sổ ban đầu.

21
Ở tùy chọn Post Hoc..., đưa các biến định tính từ Factor(s) bên trái sang Post Hoc Tests for
để phân tích sâu ANOVA khi có khác biệt. Trong các tùy chọn phân tích sâu ANOVA ở
mục Equal Variances Assumed (giả định phương sai các nhóm bằng nhau), chọn một trong
các kiểm định, thường bạn có thể chọn LSD hoặc Bonferroni. Đối với phân tích Two-way
ANOVA, khi vi phạm giả định phương sai bằng nhau, chúng ta sẽ không đọc kết quả kiểm
định về sự khác biệt trung bình do các ước lượng sẽ không chính xác. Nhấp vào Continue
để quay về cửa sổ ban đầu.

22
Trong tùy chọn EM Means..., đưa toàn bộ các biến ở Factor(s) and Factor Interactions từ
bên trái sang mục Display Means for ở bên phải. Nhấp vào Continue quay về cửa sổ ban
đầu.

23
Trong tùy chọn Options, tích vào hai mục Descriptive statistics và Homogeneity tests.
Nhấp vào Continue quay về cửa sổ ban đầu, tiếp tục chọn OK để xuất kết quả ra output.

24
3.Đọc kết quả phân tích Two-way ANOVA trên SPSS 26
Với phần đọc kết quả, chúng ta sẽ xem tổng quát kết quả thống kê mô tả đơn và mô tả kết
hợp biến ở hai bảng Between-Subjects Factors và Descriptive Statistics.

25
Bảng Levene's Test of Equality of Error Variances cho kết quả kiểm định sự giống nhau về
phương sai sai số các nhóm giá trị.

Nếu sig kiểm định Levene ở hàng Based on Mean lớn hơn 0.05, chúng ta kết luận phương
sai sai số các nhóm giá trị là bằng nhau và đọc tiếp các bảng kết quả khác biệt trung bình
bên dưới.
Nếu sig kiểm định Levene ở hàng Based on Mean nhỏ hơn 0.05, chúng ta kết luận phương
sai sai số các nhóm giá trị là không bằng nhau và KẾT THÚC phép kiểm định ở đây do
không có đủ căn cứ để đánh giá sự khác biệt trung bình..
Kết quả ở ví dụ bên dưới sig kiểm định Levene ở Based on Mean bằng 0.354 > 0.05,
26
phương sai sai số các nhóm giá trị bằng nhau nên chúng ta sẽ đọc tiếp kết quả phần khác
biệt trung bình.

Bảng quan trọng nhất trong kiểm định Two-way ANOVA là Tests of Between-Subjects
Effects. Giá trị sig ở ba hàng GioiTinh, ThamNien, GioiTinh*ThamNien cho biết có sự
khác biệt trung bình F_HL ở các biến định tính này hay không. Trong đó, giá trị quan trọng
nhất là sig ở hàng Interaction GioiTinh*ThamNien cho biết sự kết hợp của hai biến
GioiTinh với ThamNien có ảnh hưởng lên F_HL hay không.
Cụ thể trong kết quả bên dưới:
 Sig kiểm định F ở hàng GioiTinh bằng 0.800 > 0.05, như vậy không có khác biệt sự
hài lòng giữa các nhân viên có giới tính khác nhau.
 Sig kiểm định F ở hàng ThamNien bằng 0.000 < 0.05, như vậy có khác biệt sự hài
lòng giữa các nhân viên có thâm niên làm việc khác nhau. SPSS sẽ xuất phần phân
tích sâu ANOVA cho biến ThamNien này ở bảng Post Hoc Test sau đó.
 Sig kiểm định F ở hàng GioiTinh*ThamNien bằng 0.002 < 0.05, như vậy có khác
biệt sự hài lòng giữa các nhân viên có thâm niên làm việc khác nhau ở các nhóm
giới tính khác nhau.

27
Đồ thị biểu diễn mối giá trị trung bình F_HL theo thâm niên và giới tính cho thấy:
 Với nhân viên nam: Sự hài lòng công việc có xu hướng tăng theo thâm niên khi
đường màu xanh dương dốc lên theo thâm niên tăng dần.
 Với nhân viên nữ: Sự hài lòng công việc không khác biệt nhiều theo các mức thâm
niên khi đường màu đỏ có xu hướng đi ngang dù thâm niên tăng dần.

28
Ở bảng Tests of Between-Subjects Effects, chúng ta đã biết được có khác biệt sự hài lòng
giữa các nhân viên có thâm niên làm việc khác nhau. SPSS cũng cung cấp thêm cho chúng
ta kết quả phân tích sâu ANOVA để xem chi tiết cặp giá trị nào có khác biệt.

29
Tài liệu tham khảo
1.Phương pháp phân cụm, https://tonghop365.com/clustering-1653639841, truy cập ngày
30/05/2022
2.Landau S, Everitt BS. A Handbook of Statistical Analyses Using SPSS, Chapman &
Hall/CRC, 2004.
3.Pagano M, Gauvreau K. Principles of Biostatistics, 2nd Edition, Duxbury
Press, Pacific Grove, CA, 2000.

30

You might also like