You are on page 1of 33

Chương 8: PHÂN TÍCH PHƯƠNG SAI

Để có thể nắm bắt được các nguyên tắc của phân tích phương sai được dễ dàng hơn,
chúng ta xem xét thí dụ sau :
Một nghiên cứu muốn tìm hiểu mối liên quan giữa màu sắc ưa thích và trí thông minh của
con người. Để làm được điều đó người ta chọn ra 3 nhóm tương ứng với ba tông màu ưa
thích là A, B và C. Như vậy mỗi nhóm đặc trưng cho một tổng thể.
Trong mỗi nhóm lấy ra 10 người một cách ngẫu nhiên và xác định chỉ số IQ (Intelligence
Quotient) cho từng người. Kết quả được ghi nhận ở Bảng 1 sau :

Bảng 1 Chỉ số IQ của ba nhóm A, B, và C.


Nhóm A Nhóm B Nhóm C
102 89 51
88 100 76
106 92 90
93 76 117
98 64 103
104 104 64
90 66 64
103 98 50
99 90 89
92 82 67
Trung bình 97,5 86,1 77,1

1
Nếu ta xem xét trung bình của ba nhóm thì ta thấy có sự khác biệt
khá rõ rệt. Tuy nhiên ta cần xem xét thêm sự biến động của IQ
trong từng nhóm .
Ta thấy rằng mức biến động của IQ trong từng nhóm là khá lớn,
điều này do ta lấy mẫu ngẫu nhiên. Như vậy ta cũng có thể đặt câu
hỏi: liệu sự khác biệt về IQ trung bình của 3 nhóm là thực sự do tác
động của yếu tố màu hay chỉ do ngẫu nhiên?
Để trả lời câu hỏi này ta đi so sánh hai sự biến động của IQ :
•sự biến động giữa các nhóm (between treatment),
•sụ biến động trong nội bộ từng nhóm (within treatment).
Nếu sự biến động giữa các nhóm lớn hơn một cách đáng kể thì
giữa các nhóm thực sự có sự khác biệt. Còn ngược lại, ta xem sự
khác biệt giữa các nhóm không có ý nghĩa về mặt thống kê.
Để đánh giá mức độ chênh lệch giữa hai sự biến động ấy, ta cần
một chỉ tiêu. Vì vậy, phân tích phương sai là một dạng của kiểm
định thống kê trong đó cặp giả thuyết được phát biểu như sau:
• Ho : Tất cả trung bình của các tổng thể đều bằng nhau.
• H1 : Ít nhất hai tổng thể có trung bình khác nhau.

2
3
Nhóm 1 : X 11 X 12 ... X 1J
Nhóm 2 : X 21 X 22 ... X 2 J
... ... ... ... ...
Nhóm I : X I1 X I 2 ... X IJ

4
Chú ý : Để áp dụng tốt phương pháp phân tích phương sai , ta cần có
các giả thiết sau được thỏa mãn

Chú ý : Các tổng bình phương còn ký hiệu : SSB = SSTr , SSW = SSE

5
Chú ý: Các trung bình bình phương còn ký hiệu : MSB = MSTr , MSW =MSE

6
Chú ý 1: Có nhiều cách khác nhau để tính các tổng bình phương SST ,
SSTr , SSE , tùy vào số liệu đề bài cho .
Chú ý 2: Nếu ký hiệu N=I.J là số tất cả các quan sát thì các bậc tự do là
N - 1 , I - 1 , N - I . Điều này sẽ vẫn đúng trong bài mẫu không cân bằng .
7
Nếu F  F  F ( , I  1, I .( J  1)) ta bác bỏ Hₒ .

8
Ví dụ 1

Vậy ba phương pháp là giống nhau với mức ý nghĩa 1%.


9
Cách 1 dùng máy tính bỏ túi ES
Chú ý : I=3 , J=5 , N=I.J=15 , nên các bậc tự do là
2,12,14 .
.56  1.12  .9  1.07  .94  SH STO A  X 1
.72  .69  .87  .78  .91  SH STO B  X 2
.62  1.08  1.07  .99  .93  SH STO C  X 3
( A  B  C ) 2  : 15 SH STO D
.562  1.122  .92  1.07 2  .942  .72 2  .69 2  .87 2  .782  .912  .62 2  1.082  1.07 2  .99 2  .932 
D  SH STO X  SST
( A2  B 2  C 2 ) : 5  D  SH STO Y  SSTr
X  Y  SH STO X  SSE
Y :2  SH STO Y  MSTr

X :12  SH STO X  MSE

Y:X   F=0,9866
10
Cách trình bày
I=3 , J=5 , N=I.J=15 , nên các bậc tự do là 2,12,14 .
X 1  0.56  1.12  .9  1.07  .94  4.59
X 2  0.72  0.69  0.87  0.78  0.91  3.97
X 3  0.62  1.08  1.07  0.99  0.93  4.69
X  X 1  X 2  X 3  13.25
X
i, j
2
ij  .562  1.122  .92  1.07 2  .942  .722  .692  .87 2  .782  .912

.622  1.082  1.07 2  .992  .932  12.1351


X2 13.25
SST   X  2
ij  12.1351   0.4309
i, j I .J 15
X 12  X 2 2  X 32  58.8251

1 X 2 58.8251 13.252
SSTr   X i 
2
   0.0609
J i I .J 5 15

SSE  SST  SSTr  0.3701


MSTr  SSTr : ( I  1)  0.0609 : 2  0.0304
MSE  SSE :[ I ( J  1)]  0.0308
F  MSTr : MSE  0.9866
11
Cách 2 dùng máy tính bỏ túi ES
Đóng tần số : Shift Mode Stat Off
Nhập : Mode Stat 1-var xij
.56
1.12
.9
Shift Stat Sum  x = 4.59 Shift store A 1.07
.94
Shift Stat Sum  x = 4.4065
2
Shift store D
xij
Nhập : Mode Stat 1-var .72
.69
Shift Stat Sum  x = 3.97 Shift store B .87
.78

Shift Stat Sum  x = 3.1879 Shift store X


2
.91
xij
.62
Nhập : Mode Stat 1-var 1.08

Shift Stat Sum  x = 4.69 Shift store C


1.07
.99
Shift Stat Sum  x = 4.5407 Shift store Y
2
.93

12
D  X  Y  ( A  B  C ) 2 : 15  SH STO X  SST
( A2  B 2  C 2 ) : 5  ( A  B  C )2 : 15  SH STO Y  SSTr
X  Y  SH STO X  SSE
Y :2  SH STO Y  MSTr
X :12  SH STO X  MSE
Y:X   F=0,9866

13
Cách trình bày
I=3 , J=5 , N=I.J=15 , nên các bậc tự do là 2,12,14 .
X 1  0.56  1.12  .9  1.07  .94  4.59
X 2  0.72  0.69  0.87  0.78  0.91  3.97
X 3  0.62  1.08  1.07  0.99  0.93  4.69
X  X 1  X 2  X 3  13.25
X
i, j
2
ij  .562  1.122  .92  1.07 2  .942  .722  .692  .87 2  .782  .912

.622  1.082  1.07 2  .992  .932  12.1351


X2 13.252
SST   X  2
ij  12.1351   0.4309
i, j I .J 15
X 12  X 2 2  X 32  58.8251

1 X 2 58.8251 13.252
SSTr   X i 
2
   0.0609
J i I .J 5 15

SSE  SST  SSTr  0.3701


MSTr  SSTr : ( I  1)  0.0609 : 2  0.0304
MSE  SSE :[ I ( J  1)]  0.0308
F  MSTr : MSE  0.9866
14
Cách 3 dùng máy tính bỏ túi ES
Đóng tần số : Shift Mode Stat Off
xij
Nhập : Mode Stat 1-var .56
1.12
Shift Stat Sum  x = 4.59 Shift store A .9
1.07
.94
Shift Stat Var sx bình phương =0.04822 Shift store D
xij
Nhập : Mode Stat 1-var .72
.69
Shift Stat Sum  x = 3.97 Shift store B .87
.78
Shift Stat Var sx bình phương=0.00893 Shift store E .91
xij
.62
Nhập : Mode Stat 1-var 1.08

Shift Stat Sum  x = 4.69 Shift store C


1.07
.99
Shift Stat Var sx bình phương=0.03537 Shift store F .93

15
SSE  ( J  1).( S12  S2 2  S32 )  4.( D  E  F )  0.37008 SH STO X  SSE
( A2  B 2  C 2 ) : 5  ( A  B  C )2 : 15  0.0609 SH STO Y  SSTr
Y : 2  0.0304 SH STO Y  MSTr

X :12  0.03084 SH STO X  MSE


Y:X   F=0,9866

16
Cách trình bày
I=3 , J=5 , N=I.J=15 , nên các bậc tự do là 2,12,14 .
X 1  0.56  1.12  .9  1.07  .94  4.59
X 2  0.72  0.69  0.87  0.78  0.91  3.97
X 3  0.62  1.08  1.07  0.99  0.93  4.69
X  X 1  X 2  X 3  13.25

SSE  ( J  1).( S12  S 2 2  S32 )  4.( D  E  F )  0.37008 SH STO X  SSE


X 12  X 2 2  X 32  58.8251

1 X 2 58.8251 13.252
SSTr   X i 
2
   0.0609
J i I .J 5 15
MSTr  SSTr : ( I  1)  0.0609 : 2  0.0304

MSE  SSE :[ I ( J  1)]  0.0308


F  MSTr : MSE  0.9866

17
Ví dụ 2
Hãy sử dụng phương pháp Anova để so sánh chất lượng không khí ở thành phố
Hồ
Chí Minh trong 3 năm liên tiếp , với số liệu được lấy trong 3 tháng đầu của mỗi
năm.
Nêu kết luận với mức ý nghĩa 5%.
 Các ô vuông  trong bảng đều có số liệu nhưng đã được ẩn đi.
 s2 còn được gọi là phương sai mẫu hiệu chỉnh.
Xem như các giả thiết của bài toán Anova được thỏa mãn.
Năm Số liệu AQI về chỉ số bụi mịn PM2.5 Trung bình Phương
mẫu sai mẫu s2
2022 74 96 53 74 121 83.6 668.3
2021      83.4 644.3
2020      74 506

18
GiảI:

Chú ý : I=3 , J=5 , N=I.J=15 , nên các bậc tự do là 2,12,14 .


X 1  J . X 1  5.83, 6  418  A
X 2  J . X 2  5.83, 4  417  B
X 3  J . X 3  5.74  370  C
SSTr  ( A2  B 2  C 2 ) : 5  ( A  B  C ) 2 : 15  300,9333

SSE  ( J  1).( S12  S2 2  S32 )  4.(668.3  644.3  506)  7274, 4


MSTr = SSTr / ( I  1)  300,9333 : 2  150, 4667
MSE  SSE / [ I .( J  1)]  7274, 4 :12  606, 2
MSTr 150, 4667
F   0, 2482
MSE 606, 2
F  0, 2482  F  F ( , I  1, I .( J  1))  F (0.05, 2,12)  3,89  H
Vậy trung bình chỉ số bụi mịn các năm bằng nhau.
Chú ý : Ta có thể tính SSTr theo cách khác như sau :
X  ( X 1  X 2  X 3 ) : I  (83.6  83.4  74) : 3  80.3333

SSTr  J .[( X 1  X ) 2  ( X 2  X ) 2  ( X 3  X ) 2 ] 
 5.[(83.6  80.3333) 2  (83.4  80.3333) 2  (74  80.3333)2 ]  300,9333
19
So sánh trung bình giữa các nhóm (so sánh bội
hay phân tích sâu Anova ( post-hoc ) ).
Sau khi phân tích phương sai, giả sử ta có F  F  F ( , I  1, I .( J  1))
, ta kết luận "yếu tố khảo sát có ảnh hưởng đến đại lượng khảo sát". Thực ra
điều này chỉ cho ta biết rằng có ít nhất hai nhóm mà số trung bình của chúng
khác nhau có ý nghĩa về mặt thống kê chứ không phải tất cả số trung bình
của các nhóm đều khác nhau đôi một. Vì thế bước tiếp theo thường là so
sánh tất cả các cặp nhóm để xem xét sự khác biệt của các số trung bình i
Có một số phương pháp để so sánh sự khác biệt này. Ở đây chúng ta xem
xét phương pháp "Sai biệt nhỏ nhất có ý nghĩa" (Least Significant Difference -
LSD) do Fisher đề xuất. Trong phương pháp này, ta so sánh trị số tuyệt đối
của hiệu số của trung bình mẫu hai nhóm với giá trị ngưỡng LSD được xác
định bằng công thức sau :
2.MSE
LSD  T( I ( J 1)) .
J
Nếu :
X i  X k  LSD : sự khác biệt giữa X i và X k có ý nghĩa về mặt thống kê ,
nghĩa là i   k
X i  X k  LSD : sự khác biệt giữa X i và X k không có ý nghĩa về mặt
thống kê , nghĩa là i   k
20
Chú ý 1 : Ta có thể sử dụng khoảng tin cậy cho hiệu hai trung bình mẫu để đưa
ra kết luận về sự khác biệt giữa hai trung bình tổng thể như sau

Định nghĩa : Khoảng tin cậy với độ tin cậy 1-α của hiệu X i  X k là :

X i  X k  LSD, X i  X k  LSD 
Kết luận


0  X i  X k  LSD, X i  X k  LSD 

0  X i  X k  LSD, X i  X k  LSD 

Chú ý 2 : Bản chất của việc so sánh trên là bài toán kiểm định với cặp giả thuyết
kiểm định sau
H : i   k
H : i   k

21
Ví dụ 3

Hãy so sánh độ chịu kéo trung bình ứng với bốn mức tỷ lệ gỗ cứng trên với mức ý nghĩa 5%.

Giả thuyết H : 1  2  3  4
F  19.605  F0.05,3,20  3.10
Vậy bác bỏ H : Độ chịu kéo trung bình ứng với bốn mức tỷ lệ gỗ cứng trên là khác nhau với
mức ý nghĩa 5%. 22
2.MSE 2.6,51 2.6,51
LSD  T( I ( J 1)) .
 T0.05
(20)
.  2, 086.  3, 07
J 6 6
So sánh các cặp độ chịu kéo trung bình với mức ý nghĩa 5%.

X 3  X 2  1,33  LSD  3, 07  3  2
X 4  X 1  11,17  LSD  3, 07  4  1...

23
24
PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ VỚI MẪU
KHÔNG CÂN BẰNG
Ta xét các mẫu có kích thước lần lượt là J1 , J 2 ,..., J I .
Gỉa sử ta có bảng dữ liệu quan sát sau: Nhóm 1 : X 11 X 12 ... X 1J1
Nhóm 2 : X 21 X 22 ... X 2 J 2
... ... ... ... ...
Nhóm I : X I1 X I 2 ... X IJ I
Ký hiệu
N  J1  J 2  ...  J I , X i. =X i1  X i 2  ...  X iJ , X i.  X i. / J i , X  X 1.  X 2.  ...  X I .
i

Khi ấy ta có các tổng bình phương

Chú ý : Đẳng thức cơ bản Anova vẫn đúng tương tự trường hợp mẫu cân bằng.
25
Nếu F  F  F ( , I  1, N  I ) ta bác bỏ Hₒ .
Ji 2

     J  1.S
I I
SSE   X ij  X i. 2
2
Chú ý 1: i 1 j 1 i 1 với Si là phương
i i

sai
mẫu
Chú hiệu
ý 2 : chỉnh của nhóm
Sai số chuẩn ( mẫu thứ . trị trung bình của nhóm i là se  MSE
) choi giá i
Ji
Chú ý 3 : Sai số chuẩn ( mẫu ) cho chênh lệch trung bình giữa 2
nhóm i và k là MSE MSE
seik  
Ji Jk

Chú ý 4 : Hệ số LSD cho so sánh bội giữa hai nhóm thứ i và k là


1 1 
LSDik  T( N  I ) . MSE.   
26
 Ji J k 
Mức ý nghĩa 0,01.
27
Cách 1 dùng máy tính bỏ túi ES
Đóng tần số : Shift Mode Stat Off
Nhập : Mode Stat 1-var
Shift Stat Sum  x = 50.1 Shift store A

Shift Stat Var sx bình phương =0.2029 Shift store D

Nhập : Mode Stat 1-var

Shift Stat Sum  x = 29.2 Shift store B


Shift Stat Var sx bình phương=0.043 Shift store E

Nhập : Mode Stat 1-var


Shift Stat Sum  x = 38.1 Shift store C
Shift Stat Var sx bình phương=0.023 Shift store F
28
SSE  ( J1  1).S12  ( J 2  1).S 2 2  ( J 3  1).S32 )  6.D  4.E  5.F  1.5041 SH STO X
( A2 : 7  B 2 : 5  C 2 : 6)  ( A  B  C ) 2 : 18  5.3270 SH STO Y  SSTr
Y : 2  2.6635 SH STO Y  MSTr

X :15  0.1003 SH STO X  MSE

Y:X   F=26.5615

Chú ý: Để so sánh bội ta dùng


X1 A
X1   ,...
J1 J1

29
GiảI: •Ho : Hàm lượng Alcaloid trung bình các vùng đều bằng nhau.
•H1 : Ít nhất hai vùng có hàm lượng Alcaloid trung bình khác nhau.
Chú ý : I  3, J1  7, J 2  5, J 3  6  N  18 nên các bậc tự do là 2 , 15 , 17
A  X 1.  50.1, E  S12  0.2029
B  X 2.  29.2, E  S 2 2  0.043
C  X 3.  38.1, F  S32  0.023
SSE  ( J1  1).S12  ( J 2  1).S 2 2  ( J 3  1).S32 )  6.D  4.E  5.F  1.5041
SSTr  ( A2 : 7  B 2 : 5  C 2 : 6)  ( A  B  C ) 2 : 18  5.3270
MSTr  SSTr /  I  1  5.3270 / 2  2.6635

MSE  SSE / [ N  I ]  1.5041/15  0.1003


MSTr 2.6635
F   26.5615
MSE 0.1003
F  26.5615  F  F ( , I  1, N  I ))  F (0.01, 2,15)  6.36  H1
Vậy có Ít nhất hai vùng có hàm lượng Alcaloid trung bình khác nhau.
So sánh trung bình giữa hai nhóm 1 và 2 (so sánh bội )
1 1  1 1
LSD12  T( N  I ) . MSE.     2,947. 0,1003.     0,5465
 J1 J 2  7 5

X 2  X 1  1.2571  LSD12  0,5465  2  1...

Vậy hai vùng 1 và 2 có hàm lượng Alcaloid trung bình khác nhau. 30
Mức ý nghĩa 0,05 :

F  26.5615  F  F ( , I  1, N  I ))  F (0.05, 2,15)  3.68  H1


Vậy có Ít nhất hai vùng có hàm lượng Alcaloid trung bình khác nhau.

31
Ví dụ 3.2

Giải :
a) I=5 , J=10 , N=I.J=50 , df(SST)=N-1=49 , df(SSTr)=I-1=4 , df(SSE)=N-I=45

MSTr 8.87
MSE    7.7875; SSTr  8,87.4  35, 48; SSE  7, 7875.45  350, 4390
F 1.139

SST  SSTr  SSE  385,9190; F  1,139  F  F (0.05, 4, 45)  3, 21  Không ảnh hưởng

MSE 350, 4390


b) se1    5,9198
J1 10

T  N  I   T0,05 45  2, 014

a1  X 1  se1.T ( N  I )  12  11,9225

32
Bài tập
Hãy sử dụng phương pháp Anova để so sánh chất lượng không khí ở thành phố
Hồ
Chí Minh trong 3 năm liên tiếp , với số liệu được lấy trong 3 tháng đầu của mỗi
năm.
Nêu kết luận với mức ý nghĩa 5%.
 Các ô vuông  trong bảng đều có số liệu nhưng đã được ẩn đi.
 s2 còn được gọi là phương sai mẫu hiệu chỉnh.
Xem như các giả thiết của bài toán Anova được thỏa mãn.
Năm Số liệu AQI về chỉ số bụi mịn PM2.5 Trung bình Phương
mẫu sai mẫu s2
2022 74 96 53 74 121 83.6 668.3
2021     83.4 644.3
2020      74 506

33

You might also like