You are on page 1of 7

Chương 5: Phân tích phương sai (ANOVA- Analysis of variance)

I Phân tích phương sai 1 yếu tố


1.1 Có lặp
1.2 Không lặp
IIPhân tích phương sai 2 yếu tố có lặp
Định nghĩa phân tích phương sai
- Định nghĩa: Phân tích phương sai là một kỹ thuật thống kê tham số được sử
dụng để phân tích sự khác nhau giữa giá trị trung bình của các biến phụ thuộc
với nhau
- Phân tích phương sai cần so sánh giá trị trung bình của 3 nhóm trở lên.
Ví dụ (SGT:197) Trong một nghiên cứu về hiệu quả làm giảm cholesterol huyết thanh ở
người. Giả sử NNC muốn biết liệu 3 loại thuốc A,B, C có hiệu quả khác nhau trong việc
giảm cholesterol huyết thanh ở người hay không. Để thực hiện nghiên cứu này, một số
đối tượng nhân được thuốc A, một số thuốc B và một số thuốc C. Sau một khoảng thời
gian nhất định các phép đo được thực hiện để xác định mức độ giảm cholesterol huyết
thanh ở từng đối tượng. Kết quả thử nghiệm cho thấy rằng lượng cholesterol huyết
thanh được hạ thấp không giống nhau ở tất cả các đối tượng. Nói cách khác, có sự
thay đổi giữa các phép đo. Có lẽ, một số lý do của sự khác biệt là các đối tượng nhận
được các loại thuốc khác nhau. Khi xem xét các phép đo cholesterol huyết thanh của
những đối tượng dùng thuốc A, chúng ta thấy rằng lượng cholesterol huyết thanh được
hạ thấp không giống nhau giữa những đối tượng này. Tương tự đối với những người
dùng thuốc B và thuốc C. Như vậy, có thể có sự khác biệt giữa các phép đo trong các
nhóm điều trị. Nguyên do là sự khác biệt trong cấu trúc di truyền của các đối tượng và
chế độ ăn uống giữa các đối tượng đang được nghiên cứu. Từ đó các NNC có thể đưa
ra kết luận về hiệu quả của 3 loại thuốc bằng cách sử dụng các kỹ thuật phân tích
phương sai

Hiểu đơn giản, đây là một công cụ giúp xác định ảnh hưởng của các biến độc lập với
biến phụ thuộc trong một nghiên cứu hồi quy. Nhưng thay vì chỉ so sánh các đối tượng
trong một nhóm nghiên cứu, phân tích ANOVA giúp so sánh trong phạm vi rộng hơn,
giữa hai hoặc nhiều nhóm đối tượng.

Nghiên cứu hồi quy sử dụng để khám phá mối quan hệ giữa một biến phụ thuộc (biến phản
ứng) và một hoặc nhiều biến độc lập (biến dự đoán)

I. Phân tích phương sai một yếu tố

1.1 Phân tích phương sai 1 yếu tố không lặp

- Định nghĩa: Phân tích phương sai một yếu tố (còn gọi là oneway anova)
dùng để kiểm định giả thuyết trung bình bằng nhau của các nhóm mẫu với khả năng
phạm sai lầm chỉ là 5%.
Điều kiện (giả định) của phép phân tích phương sai một yếu tố
(I) Các nhóm so sánh độc lập và được chọn một cách ngẫu nhiên
(II) DL các nhóm có PPC
(III) Phương sai của các nhóm đồng nhất
(IV) có 3 hoặc nhiều nhóm quan sát được rút ra từ cùng 1 tổng thể

Các điều kiện này phải được kiểm định trước khi tiến hành phân tích phương sai
Đối với điều kiện (I), NNC phải đảm bảo và chịu trách nhiệm về sự độc lập của mỗi
nhóm và mỗi nhóm cũng như mỗi đối tượng trong nhóm phải đảm bảo được chọn một
cách ngẫu nhiên. Hai điều kiện (II) và (III) có thể thực hiện bằng SPSS

Biến số trong phân tích phương sai một yếu tố


-Biến điều trị (treatment variable) (biến quan sát, biến độc lập)
Vd: biến ‘thuốc’ với 3 ‘ giá trị’ của biến này gôm: thuốc A, thuốc B, thuốc C
-Biến đáp ứng (response variable)(biến phụ thuộc): Vd; Sự thay đổi cholesterol huyết
thanh.
-Biến ngoại lai (extraneous variable): Vd: thành phần di truyền và chế độ ăn uống
 Biến ngoại lai có ảnh hưởng đến biến đáp ứng
 biến điều trị là biến được quan tâm hàng đầu
Thuật toán ANOVA
1. Mô tả dữ liệu
Thử nghiệm
1 2 3 … K
X11 X12 X13 … X1k
X21 X22 X23 … X2k
X31 X32 X33 … X3k
… … … … …
Xn 1
1 2
Xn 2 Xn 3
3
… k
Xn k
Tổng T,1 T.2 T.3 … T.k T…
Trung bình x1 x2 x3 … xk x…

Trong đó:
Xij: quan sát thứ i trong thí nghiệm thứ j ( trong k thử nghiệm)
nj
T.j=∑ x ij tổng giá trị cua thử nghiệm thứ j
i=1
T. j
x . j= : giá trị trung bình của thử nghiệm thứ j
nj
T…: tổng các giá trị quan sát
T
X …= … : giá trị trung bình tổng các thử nghiệm
N
2. Giả định: đảm bảo rằng các nhóm mẫu có cùng phương sai, điều này là cần thiết
để kết quả của phân tích có tính đáng tin cậy và chính xác
- Các giả định chính bao gồm: giả định
+ giả định về sự độc lập
+ giả định về phương sai đồng nhất
+ giả định về phân phối chuẩn
- Các giả định phụ: tăng việc phân tích trở nên đáng tin cậy
Một số giả định phụ
+ giả định về phân phối độc lập
+ giả định về đồng nhất của sai số

Các giả định chính là cực kỳ quan trọng để đảm bảo tính chính xác của kết quả của ANOVA. Trước
khi tiến hành phân tích, việc kiểm tra và đảm bảo rằng các giả định này được thỏa mãn là rất quan
trọng. Nếu một trong số chúng không được thỏa mãn, cần xem xét các biện pháp điều chỉnh hoặc
sử dụng các phương pháp thống kê thích hợp để xử lý tình huống đó.
3) Giả thuyết
- Giả thuyết được sử dụng để kiểm tra sự khác biệt giữa các nhóm trên biến phụ thuộc.
Cụ thể, chúng ta thường sử dụng hai giả thuyết:
 Giả thuyết không (H0) giả định rằng không có sự khác biệt đáng kể giữa các
nhóm trên biến phụ thuộc.
+ Trong ngữ cảnh của ANOVA, H0 thường được biểu diễn là "Tất cả các nhóm có cùng
giá trị trung bình trên biến phụ thuộc"
+ Nếu không có bằng chứng đủ để bác bỏ giả thuyết không, chúng ta kết luận rằng
không có sự khác biệt đáng kể giữa các nhóm.
H0: μ1=μ2 = …= μk

Vd:giả sử bạn muốn thử nghiệm 3 loại thuốc A, B, C nhằm làm giảm lượng cholesterol
huyết thanh. Bạn chia thuốc thành 3 nhóm và thu thập dữ liệu về từng loại

Giả thuyết không (H0) trong trường hợp này có thể được sử dụng để kiểm tra xem có sự
khác biệt đáng kể về hiệu quả trung bình giữa các nhóm thuốc hay không. Một biểu
diễn của H0 có thể là:

"H0: Hiệu quả làm giảm lượng cholesterol trung bình của 3 loại thuốc A, B, C là như
nhau ."

Trong trường hợp này, giả thuyết không cho rằng không có sự khác biệt đáng kể về
hiệu quả thuốc trung bình giữa các nhóm thuốc. Để xác định xem liệu có đủ bằng
chứng để bác bỏ giả thuyết không và chấp nhận giả thuyết thay thế hay không
 Giả thuyết thay thế (alternative hypothesis), thường được ký hiệu là Ha , đưa ra
một tuyên bố ngược lại với giả thuyết không.
Trong ngữ cảnh của ANOVA, giả thuyết thay thế thường là "Có ít nhất một cặp nhóm có
giá trị trung bình khác nhau trên biến phụ thuộc"
Nếu có đủ bằng chứng để bác bỏ giả thuyết không, chúng ta chấp nhận giả thuyết thay
thế và kết luận rằng có sự khác biệt đáng kể giữa các nhóm.
4) Kiểm định thống kê: phân tích phương sai 1 yếu tố là tỷ lệ phương sai VR ( Variance
Ratio).
MSA
VR= MSA: trung bình bình phương giữa các nhóm
MSW
MSW: trung bình bình phương trong các nhóm
5) Phân phối của phép kiểm thống kê: Nếu giả thuyết H0 đúng và các giả định được
thỏa mãn thì VR có phân phối F ( Phân phối Fisher)
Phân phối F là một phân phối xác định bởi hai thông số tự do: tự do của tử số
(numerator degrees of freedom) và tự do của mẫu số (denominator degrees of
freedom). Trong phân tích ANOVA, tự do của tử số tương ứng với số lượng nhóm hoặc
điều kiện (k), và tự do của mẫu số là tổng số lượng quan sát trên tất cả các nhóm trừ đi
số lượng nhóm.
6) Quy tắc quyết định
Quy tắc quyết định tổng quát là: bác bỏ giả thuyết không (H0) nết giá trị tính toán của
VR lớn hơn hoặc bằng giá trị tới hạn của F đối với mức ý nghĩa α đã chọn
7) Tính toán giá trị của phép kiểm thống kê
SPSS thực hiện và xuất ra bảng tóm tắt các giá trị tính toán và cũng là kết quả được
đưa ra.
Nguồn biến Tổng bình Độ tự do Bình phương Tỷ số phương
thiên phương trung bình sai
Giữa các nhóm SSA k-1 SSA MSA
MSA= F=VR=
k−1 MSW
Trong nội bộ SSW N-k SSW
MSW=
các nhóm N −k
Tổng SST N-1

Anova sẽ tính toán lần lượt các giá trị


1. SSW (Within Groúp Sum of Squares) ( Tổng bình phương trong nội bộ các nhóm
SSW): Tính toán trong mỗi nhóm tổng bình phương độ lệch của các quan sát riêng lẻ
so với giá trị trung bình của chúng
k n
SSW= Σ j=1 Σ i=1 ˙ ¿
j

2. SSA (Among Groúp Sum of Squares) ( Tổng bình phương giữa các nhóm SSA): Đại
lượng này là thước đo sự thay đổi giữa các nhóm
k
SSA=∑ n j ( x j−x … )
2

j=1
3. SST (Total Sum of Squares): (Tổng bình phương toàn bộ): là tổng bình phương độ
lệch của các quan sát riêng lẻ so với giá trị trung bình của tất cả cá quan sát được
thực hiện cùng nhau hay bằng tổng bình phương trong nội bộ các nhóm và tổng bình
phương giữa các nhóm
k n 2
SST= SSW + SSA = Σ j=1 Σ i=1 ˙ ( x ij −x … )
j

4. Bình phương trung bình (Mean Square)


SSA
MSA=
k−1
SSW
MSW=
N −k
5. Tỷ số phương sai được tính theo công thức

MSA
F=VR=
MSW

Bậc tự do k-1
Khi chúng ta thực hiện ANOVA, chúng ta so sánh giá trị trung bình của các nhóm để xem
xét sự khác biệt giữa chúng. Để so sánh K nhóm, chúng ta chỉ cần K giá trị trung bình để
so sánh, bởi vì nếu chúng ta biết K - 1 giá trị trung bình
Bậc tự do N-K
Bậc tự do N−k cung cấp một ước lượng về mức độ tự do mà chúng ta có để ước lượng
phương sai bên trong các nhóm, nếu chúng ta có tổng cộng 100 quan sát và chúng
được chia thành 3 nhóm, N sẽ là 100 và k sẽ là 3. Do đó, bậc tự do N−k sẽ là 100−3=97
8) Quyết định thống kê
Nếu F ≥ Fa (k-1; N-k) thì bác bỏ giả thuyết H0
Nếu F¿ Fa (k-1; N-k) thì không bác bỏ giả thuyết H0
F-statistic (F) càng lớn, có khả năng cao là sự khác biệt giữa các nhóm là có ý nghĩa
thống kê

9) Kết luận: Khi bác bỏ giả thuyết H0 chúng ta kết luận rằng không phải tất cả trung bình
…. đều như nhau
Khi chấp nhận giả thuyết H0 chúng ta kết luân rằng tất cả ….. đều như nhau.
10) Xác định trị số p
- F-statistic không nói cho chúng ta biết xác suất của sự khác biệt đó có ý nghĩa thống kê
hay không. Để đánh giá điều này, chúng ta cần xem giá trị p
- Mức ý nghĩa của giá trị p đo lường mức độ tin cậy về việc bác bỏ giả thiết H 0
- Nếu giá trị p nhỏ hơn một ngưỡng nhất định (thường là 0.05), ta bác bỏ giả thiết H 0 và
kết luận rằng có sự khác biệt đáng kể giữa các nhóm.Ngược lại, nếu giá trị p lớn hơn
ngưỡng, ta không có đủ bằng chứng để bác bỏ giả thiết H 0.

-Khi cỡ mẫu lớn hơn 50 (tổng df khi SPSS xuất ra) thì sử dụng phép kiểm Kolmororov-
Smirnov . Khi cỡ mẫu nhỏ hơn 50 thì sử dụng phép kiểm Shapiro-Wild
- Chú ý: khi bác bỏ giả thuyết H0, sẽ tồn tại 1 cặp trung bình khác nhau có ý nghĩa
- Ví dụ, nếu chúng ta thực hiện một ANOVA để so sánh hiệu quả của ba phương pháp
điều trị A, B và C đối với một bệnh lý, và kết quả cho thấy có sự khác biệt đáng kể (bao
gồm ít nhất một cặp trung bình khác nhau), điều này có thể được hiểu là ít nhất một
phương pháp điều trị hiệu quả hơn một cách đáng kể so với ít nhất một phương pháp
khác
- Để tìm ra cặp trung bình nào khác nhau có ý nghĩa, cần thiết phải tiến
hành phân tích hậu kiểm (Post Hoc test). Là phương pháp điều chỉnh trị số
p.
- Chưa có câu trả lời thỏa đáng cho câu hỏi nên chọn phương pháp nào để
điều chỉnh trị số p, nhưng thường thấy:
1. Nếu k<10 có thể áp dụng bất cứ phương pháp nào để điều chỉnh
trị số p. Tuy nhiên trong trường hợp này, phương pháp Turkey được
sử dụng nhiều trong nghiên cứu
2. Nếu k>10 phương pháp Bonferroni có thể cho kết quả ‘âm tính giả’.
Trong trường hợp này, hai phương pháp Turkey, Holm và Scheffé
có thể áp dụng
- SPSS còn có các phương pháp sau:
1. LSD: dùng kiểm định t lần lượt cho từng cặp trung bình. phương
pháp LSD cần được cân nhắc kỹ lưỡng dựa trên mục tiêu của
nghiên cứu, số lượng nhóm, và mức độ kiểm soát sai lầm loại 1
mong muốn. Khi số lượng nhóm là ít , LSD có thể là lựa chọn tốt do
nó đơn giản và dễ hiểu.
2.
- Kiểm soát tỷ lệ sai lầm loại 1 (Type I error)( α ):
LSD không kiểm soát tỷ lệ sai lầm loại 1 như các phương pháp khác như
phương pháp Tukey hay phương pháp Bonferroni. Điều này có thể dẫn đến
việc tỷ lệ sai lầm loại 1 tăng cao khi thực hiện nhiều phép kiểm định so sánh
cặp nhóm.
- REGW và Ducan: dùng khi các nhóm có số đối tượng bằng nhau
Ducan Ít nhóm và số lượng
đối tượng trong mỗi
nhóm lớn và đồng đều
Tập trung vào so sánh
các cặp trung bình kề
nhau

REGW Sử dụng cho số lượng


nhóm lớn
Thực hiện so sánh tất
cả các cặp trung bình
giữa các nhóm

-Dunnett: Cho phép chọn so sánh các giá trị trung bình cảu các nhóm mẫu
còn lại với trung bình của một nhóm mẫu cụ thể nào được chọn ra để so
sánh (nhóm điều khiển)

You might also like