Professional Documents
Culture Documents
Để có thể nắm bắt được các nguyên tắc của phân tích phương sai được dễ dàng hơn,
chúng ta xem xét thí dụ sau :
Một nghiên cứu muốn tìm hiểu mối liên quan giữa màu sắc ưa thích và trí thông minh của
con người. Để làm được điều đó người ta chọn ra 3 nhóm tương ứng với ba tông màu ưa
thích là A, B và C. Như vậy mỗi nhóm đặc trưng cho một tổng thể.
Trong mỗi nhóm lấy ra 10 người một cách ngẫu nhiên và xác định chỉ số IQ (Intelligence
Quotient) cho từng người. Kết quả được ghi nhận ở Bảng 1 sau :
1
Nếu ta xem xét trung bình của ba nhóm thì ta thấy có sự khác biệt
khá rõ rệt. Tuy nhiên ta cần xem xét thêm sự biến động của IQ
trong từng nhóm .
Ta thấy rằng mức biến động của IQ trong từng nhóm là khá lớn,
điều này do ta lấy mẫu ngẫu nhiên. Như vậy ta cũng có thể đặt câu
hỏi: liệu sự khác biệt về IQ trung bình của 3 nhóm là thực sự do tác
động của yếu tố màu hay chỉ do ngẫu nhiên?
Để trả lời câu hỏi này ta đi so sánh hai sự biến động của IQ :
•sự biến động giữa các nhóm (between treatment),
•sụ biến động trong nội bộ từng nhóm (within treatment).
Nếu sự biến động giữa các nhóm lớn hơn một cách đáng kể thì
giữa các nhóm thực sự có sự khác biệt. Còn ngược lại, ta xem sự
khác biệt giữa các nhóm không có ý nghĩa về mặt thống kê.
Để đánh giá mức độ chênh lệch giữa hai sự biến động ấy, ta cần
một chỉ tiêu. Vì vậy, phân tích phương sai là một dạng của kiểm
định thống kê trong đó cặp giả thuyết được phát biểu như sau:
• Ho : Tất cả trung bình của các tổng thể đều bằng nhau.
• H1 : Ít nhất hai tổng thể có trung bình khác nhau.
2
3
Nhóm 1 : X 11 X 12 ... X 1J
Nhóm 2 : X 21 X 22 ... X 2 J
... ... ... ... ...
Nhóm I : X I1 X I 2 ... X IJ
4
Chú ý : Để áp dụng tốt phương pháp phân tích phương sai , ta cần có
các giả thiết sau được thỏa mãn
Chú ý : Các tổng bình phương còn ký hiệu : SSB = SSTr , SSW = SSE
5
Chú ý: Các trung bình bình phương còn ký hiệu : MSB = MSTr , MSW =MSE
6
Chú ý 1: Có nhiều cách khác nhau để tính các tổng bình phương SST ,
SSTr , SSE , tùy vào số liệu đề bài cho .
Chú ý 2: Nếu ký hiệu N=I.J là số tất cả các quan sát thì các bậc tự do là
N - 1 , I - 1 , N - I . Điều này sẽ vẫn đúng trong bài mẫu không cân bằng .
7
Nếu F F F ( , I 1, I .( J 1)) ta bác bỏ Hₒ .
8
Ví dụ 1
Y:X F=0,9866
10
Cách trình bày
I=3 , J=5 , N=I.J=15 , nên các bậc tự do là 2,12,14 .
X 1 0.56 1.12 .9 1.07 .94 4.59
X 2 0.72 0.69 0.87 0.78 0.91 3.97
X 3 0.62 1.08 1.07 0.99 0.93 4.69
X X 1 X 2 X 3 13.25
X
i, j
2
ij .562 1.122 .92 1.07 2 .942 .722 .692 .87 2 .782 .912
1 X 2 58.8251 13.252
SSTr X i
2
0.0609
J i I .J 5 15
12
D X Y ( A B C ) 2 : 15 SH STO X SST
( A2 B 2 C 2 ) : 5 ( A B C )2 : 15 SH STO Y SSTr
X Y SH STO X SSE
Y :2 SH STO Y MSTr
X :12 SH STO X MSE
Y:X F=0,9866
13
Cách trình bày
I=3 , J=5 , N=I.J=15 , nên các bậc tự do là 2,12,14 .
X 1 0.56 1.12 .9 1.07 .94 4.59
X 2 0.72 0.69 0.87 0.78 0.91 3.97
X 3 0.62 1.08 1.07 0.99 0.93 4.69
X X 1 X 2 X 3 13.25
X
i, j
2
ij .562 1.122 .92 1.07 2 .942 .722 .692 .87 2 .782 .912
1 X 2 58.8251 13.252
SSTr X i
2
0.0609
J i I .J 5 15
15
SSE ( J 1).( S12 S2 2 S32 ) 4.( D E F ) 0.37008 SH STO X SSE
( A2 B 2 C 2 ) : 5 ( A B C )2 : 15 0.0609 SH STO Y SSTr
Y : 2 0.0304 SH STO Y MSTr
16
Cách trình bày
I=3 , J=5 , N=I.J=15 , nên các bậc tự do là 2,12,14 .
X 1 0.56 1.12 .9 1.07 .94 4.59
X 2 0.72 0.69 0.87 0.78 0.91 3.97
X 3 0.62 1.08 1.07 0.99 0.93 4.69
X X 1 X 2 X 3 13.25
1 X 2 58.8251 13.252
SSTr X i
2
0.0609
J i I .J 5 15
MSTr SSTr : ( I 1) 0.0609 : 2 0.0304
17
Ví dụ 2
Hãy sử dụng phương pháp Anova để so sánh chất lượng không khí ở thành phố
Hồ
Chí Minh trong 3 năm liên tiếp , với số liệu được lấy trong 3 tháng đầu của mỗi
năm.
Nêu kết luận với mức ý nghĩa 5%.
Các ô vuông trong bảng đều có số liệu nhưng đã được ẩn đi.
s2 còn được gọi là phương sai mẫu hiệu chỉnh.
Xem như các giả thiết của bài toán Anova được thỏa mãn.
Năm Số liệu AQI về chỉ số bụi mịn PM2.5 Trung bình Phương
mẫu sai mẫu s2
2022 74 96 53 74 121 83.6 668.3
2021 83.4 644.3
2020 74 506
18
GiảI:
SSTr J .[( X 1 X ) 2 ( X 2 X ) 2 ( X 3 X ) 2 ]
5.[(83.6 80.3333) 2 (83.4 80.3333) 2 (74 80.3333)2 ] 300,9333
19
So sánh trung bình giữa các nhóm (so sánh bội
hay phân tích sâu Anova ( post-hoc ) ).
Sau khi phân tích phương sai, giả sử ta có F F F ( , I 1, I .( J 1))
, ta kết luận "yếu tố khảo sát có ảnh hưởng đến đại lượng khảo sát". Thực ra
điều này chỉ cho ta biết rằng có ít nhất hai nhóm mà số trung bình của chúng
khác nhau có ý nghĩa về mặt thống kê chứ không phải tất cả số trung bình
của các nhóm đều khác nhau đôi một. Vì thế bước tiếp theo thường là so
sánh tất cả các cặp nhóm để xem xét sự khác biệt của các số trung bình i
Có một số phương pháp để so sánh sự khác biệt này. Ở đây chúng ta xem
xét phương pháp "Sai biệt nhỏ nhất có ý nghĩa" (Least Significant Difference -
LSD) do Fisher đề xuất. Trong phương pháp này, ta so sánh trị số tuyệt đối
của hiệu số của trung bình mẫu hai nhóm với giá trị ngưỡng LSD được xác
định bằng công thức sau :
2.MSE
LSD T( I ( J 1)) .
J
Nếu :
X i X k LSD : sự khác biệt giữa X i và X k có ý nghĩa về mặt thống kê ,
nghĩa là i k
X i X k LSD : sự khác biệt giữa X i và X k không có ý nghĩa về mặt
thống kê , nghĩa là i k
20
Chú ý 1 : Ta có thể sử dụng khoảng tin cậy cho hiệu hai trung bình mẫu để đưa
ra kết luận về sự khác biệt giữa hai trung bình tổng thể như sau
Định nghĩa : Khoảng tin cậy với độ tin cậy 1-α của hiệu X i X k là :
X i X k LSD, X i X k LSD
Kết luận
0 X i X k LSD, X i X k LSD
0 X i X k LSD, X i X k LSD
Chú ý 2 : Bản chất của việc so sánh trên là bài toán kiểm định với cặp giả thuyết
kiểm định sau
H : i k
H : i k
21
Ví dụ 3
Hãy so sánh độ chịu kéo trung bình ứng với bốn mức tỷ lệ gỗ cứng trên với mức ý nghĩa 5%.
Giả thuyết H : 1 2 3 4
F 19.605 F0.05,3,20 3.10
Vậy bác bỏ H : Độ chịu kéo trung bình ứng với bốn mức tỷ lệ gỗ cứng trên là khác nhau với
mức ý nghĩa 5%. 22
2.MSE 2.6,51 2.6,51
LSD T( I ( J 1)) .
T0.05
(20)
. 2, 086. 3, 07
J 6 6
So sánh các cặp độ chịu kéo trung bình với mức ý nghĩa 5%.
X 3 X 2 1,33 LSD 3, 07 3 2
X 4 X 1 11,17 LSD 3, 07 4 1...
23
24
PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ VỚI MẪU
KHÔNG CÂN BẰNG
Ta xét các mẫu có kích thước lần lượt là J1 , J 2 ,..., J I .
Gỉa sử ta có bảng dữ liệu quan sát sau: Nhóm 1 : X 11 X 12 ... X 1J1
Nhóm 2 : X 21 X 22 ... X 2 J 2
... ... ... ... ...
Nhóm I : X I1 X I 2 ... X IJ I
Ký hiệu
N J1 J 2 ... J I , X i. =X i1 X i 2 ... X iJ , X i. X i. / J i , X X 1. X 2. ... X I .
i
Chú ý : Đẳng thức cơ bản Anova vẫn đúng tương tự trường hợp mẫu cân bằng.
25
Nếu F F F ( , I 1, N I ) ta bác bỏ Hₒ .
Ji 2
J 1.S
I I
SSE X ij X i. 2
2
Chú ý 1: i 1 j 1 i 1 với Si là phương
i i
sai
mẫu
Chú hiệu
ý 2 : chỉnh của nhóm
Sai số chuẩn ( mẫu thứ . trị trung bình của nhóm i là se MSE
) choi giá i
Ji
Chú ý 3 : Sai số chuẩn ( mẫu ) cho chênh lệch trung bình giữa 2
nhóm i và k là MSE MSE
seik
Ji Jk
Y:X F=26.5615
29
GiảI: •Ho : Hàm lượng Alcaloid trung bình các vùng đều bằng nhau.
•H1 : Ít nhất hai vùng có hàm lượng Alcaloid trung bình khác nhau.
Chú ý : I 3, J1 7, J 2 5, J 3 6 N 18 nên các bậc tự do là 2 , 15 , 17
A X 1. 50.1, E S12 0.2029
B X 2. 29.2, E S 2 2 0.043
C X 3. 38.1, F S32 0.023
SSE ( J1 1).S12 ( J 2 1).S 2 2 ( J 3 1).S32 ) 6.D 4.E 5.F 1.5041
SSTr ( A2 : 7 B 2 : 5 C 2 : 6) ( A B C ) 2 : 18 5.3270
MSTr SSTr / I 1 5.3270 / 2 2.6635
Vậy hai vùng 1 và 2 có hàm lượng Alcaloid trung bình khác nhau. 30
Mức ý nghĩa 0,05 :
31
Ví dụ 3.2
Giải :
a) I=5 , J=10 , N=I.J=50 , df(SST)=N-1=49 , df(SSTr)=I-1=4 , df(SSE)=N-I=45
MSTr 8.87
MSE 7.7875; SSTr 8,87.4 35, 48; SSE 7, 7875.45 350, 4390
F 1.139
SST SSTr SSE 385,9190; F 1,139 F F (0.05, 4, 45) 3, 21 Không ảnh hưởng
a1 X 1 se1.T ( N I ) 12 11,9225
32
Bài tập
Hãy sử dụng phương pháp Anova để so sánh chất lượng không khí ở thành phố
Hồ
Chí Minh trong 3 năm liên tiếp , với số liệu được lấy trong 3 tháng đầu của mỗi
năm.
Nêu kết luận với mức ý nghĩa 5%.
Các ô vuông trong bảng đều có số liệu nhưng đã được ẩn đi.
s2 còn được gọi là phương sai mẫu hiệu chỉnh.
Xem như các giả thiết của bài toán Anova được thỏa mãn.
Năm Số liệu AQI về chỉ số bụi mịn PM2.5 Trung bình Phương
mẫu sai mẫu s2
2022 74 96 53 74 121 83.6 668.3
2021 83.4 644.3
2020 74 506
33