You are on page 1of 76

Phân tích phương sai (ANOVA)

Hoàng Văn Hà
University of Science, VNU - HCM
hvha@hcmus.edu.vn

V. H. Hoang ANOVA 1 / 56
Mục lục

1 Phân tích phương sai một nhân tố

2 Phân tích phương sai hai nhân tố (tự đọc)

V. H. Hoang ANOVA 2 / 56
Phân tích phương sai một nhân tố

Mục lục

1 Phân tích phương sai một nhân tố

2 Phân tích phương sai hai nhân tố (tự đọc)

V. H. Hoang ANOVA 3 / 56
Phân tích phương sai một nhân tố

Giới thiệu

Ví dụ 1
Một nhà máy sản xuất bao bì quan tâm đến việc tăng độ đàn hồi của các túi giấy do nhà
máy làm ra. Các kỹ sư của nhà máy cho trằng độ đàn hồi của các túi giấy bị ảnh hưởng
bởi hàm lượng gỗ cứng trong nguyên liệu, phạm vi thay đổi được quan tâm là từ 5% đến
20%. Các kỹ sư quyết định thử nghiệm với hàm lượng gỗ cứng trong bột gỗ ở 4 mức:
5%, 10%, 15% và 20%. Ở mỗi mức, 6 mẫu vật được chọn để kiểm trong trong phòng thí
nghiệm, theo thứ tự ngẫu nhiên. Kết quả cho bởi bảng bên dưới:

Hàm lượng Quan trắc


gỗ cứng (%) 1 2 3 4 5 6 Tổng Trung bình
5 7 8 15 11 9 10 60 10.00
10 12 17 13 18 19 15 94 15.67
15 14 18 19 17 16 18 102 17.00
20 19 25 22 23 18 20 127 21.17
383 15.96
Bảng 1: Độ đàn hồi của các bao bì giấy

V. H. Hoang ANOVA 4 / 56
Phân tích phương sai một nhân tố

Giới thiệu

Câu hỏi đặt ra là: có sự khác biệt về độ đàn hồi (Đơn vị: psi) giữa các sản phẩm có
hàm lượng gỗ cứng trong bột gỗ ở 4 mức khác nhau hay không?

V. H. Hoang ANOVA 5 / 56
Phân tích phương sai một nhân tố

Giới thiệu

Câu hỏi đặt ra là: có sự khác biệt về độ đàn hồi (Đơn vị: psi) giữa các sản phẩm có
hàm lượng gỗ cứng trong bột gỗ ở 4 mức khác nhau hay không?
Ví dụ trên đặt ra bài toán so sánh sự khác biệt giữa trung bình của nhóm khác nhau
(≥ 3).

V. H. Hoang ANOVA 5 / 56
Phân tích phương sai một nhân tố

Giới thiệu

Câu hỏi đặt ra là: có sự khác biệt về độ đàn hồi (Đơn vị: psi) giữa các sản phẩm có
hàm lượng gỗ cứng trong bột gỗ ở 4 mức khác nhau hay không?
Ví dụ trên đặt ra bài toán so sánh sự khác biệt giữa trung bình của nhóm khác nhau
(≥ 3).
Thí nghiệm trên được gọi là Thí nghiệm ngẫu nhiên đầy đủ với một nhân tố (The
completely Randomized Single-Factor).

V. H. Hoang ANOVA 5 / 56
Phân tích phương sai một nhân tố

Giới thiệu

Câu hỏi đặt ra là: có sự khác biệt về độ đàn hồi (Đơn vị: psi) giữa các sản phẩm có
hàm lượng gỗ cứng trong bột gỗ ở 4 mức khác nhau hay không?
Ví dụ trên đặt ra bài toán so sánh sự khác biệt giữa trung bình của nhóm khác nhau
(≥ 3).
Thí nghiệm trên được gọi là Thí nghiệm ngẫu nhiên đầy đủ với một nhân tố (The
completely Randomized Single-Factor).
Để trả lời câu hỏi, ta sử dụng kỹ thuật Phân tích phương sai (Analysis of Variance -
ANOVA).

V. H. Hoang ANOVA 5 / 56
Phân tích phương sai một nhân tố

Bài toán Phân tích phương sai

Giả sử ta cần so sánh k mức khác nhau của một nhân tố. Mỗi mức của nhân tố
được gọi là một phương thức xử lý (treatment). Kết quả của mỗi một phương thức
làm một biến ngẫu nhiên. Dữ liệu quan trắc (observations) được sẽ được biểu diễn
giống như trong bảng 1, mỗi giá trị trong bảng 1, ký hiệu là yij , gọi là quan trắc thứ
j được chọn dưới phương thức xử lý i. Giả sử ở mỗi phương thức xử lý, ta chọn số
quan trắc bằng nhau, bằng n.

V. H. Hoang ANOVA 6 / 56
Phân tích phương sai một nhân tố

Bài toán Phân tích phương sai

Giả sử ta cần so sánh k mức khác nhau của một nhân tố. Mỗi mức của nhân tố
được gọi là một phương thức xử lý (treatment). Kết quả của mỗi một phương thức
làm một biến ngẫu nhiên. Dữ liệu quan trắc (observations) được sẽ được biểu diễn
giống như trong bảng 1, mỗi giá trị trong bảng 1, ký hiệu là yij , gọi là quan trắc thứ
j được chọn dưới phương thức xử lý i. Giả sử ở mỗi phương thức xử lý, ta chọn số
quan trắc bằng nhau, bằng n.
Dữ liệu trong bảng 1 có thể được biểu diễn theo mô hình tuyến tính

Yij = µ + τi + ij (1)

với i = 1, 2, . . . , k và j = 1, 2, . . . , n. Trong đó:

V. H. Hoang ANOVA 6 / 56
Phân tích phương sai một nhân tố

Bài toán Phân tích phương sai

Giả sử ta cần so sánh k mức khác nhau của một nhân tố. Mỗi mức của nhân tố
được gọi là một phương thức xử lý (treatment). Kết quả của mỗi một phương thức
làm một biến ngẫu nhiên. Dữ liệu quan trắc (observations) được sẽ được biểu diễn
giống như trong bảng 1, mỗi giá trị trong bảng 1, ký hiệu là yij , gọi là quan trắc thứ
j được chọn dưới phương thức xử lý i. Giả sử ở mỗi phương thức xử lý, ta chọn số
quan trắc bằng nhau, bằng n.
Dữ liệu trong bảng 1 có thể được biểu diễn theo mô hình tuyến tính

Yij = µ + τi + ij (1)

với i = 1, 2, . . . , k và j = 1, 2, . . . , n. Trong đó:


Yij là quan trắc thứ (ij), µ là giá trị trung bình chung,

V. H. Hoang ANOVA 6 / 56
Phân tích phương sai một nhân tố

Bài toán Phân tích phương sai

Giả sử ta cần so sánh k mức khác nhau của một nhân tố. Mỗi mức của nhân tố
được gọi là một phương thức xử lý (treatment). Kết quả của mỗi một phương thức
làm một biến ngẫu nhiên. Dữ liệu quan trắc (observations) được sẽ được biểu diễn
giống như trong bảng 1, mỗi giá trị trong bảng 1, ký hiệu là yij , gọi là quan trắc thứ
j được chọn dưới phương thức xử lý i. Giả sử ở mỗi phương thức xử lý, ta chọn số
quan trắc bằng nhau, bằng n.
Dữ liệu trong bảng 1 có thể được biểu diễn theo mô hình tuyến tính

Yij = µ + τi + ij (1)

với i = 1, 2, . . . , k và j = 1, 2, . . . , n. Trong đó:


Yij là quan trắc thứ (ij), µ là giá trị trung bình chung,
τi là ảnh hưởng của phương thức xử lý thứ i và ij là thành phần sai số.

V. H. Hoang ANOVA 6 / 56
Phân tích phương sai một nhân tố

Bài toán Phân tích phương sai

Mô hình (1) được viết lại như sau

Yij = µi + ij (2)

với µi là trung bình của phương thức xử lý thứ i.


Các giả định của mô hình:
- Tổng thể có phân phối chuẩn,
- Tổng thể có phương sai bằng nhau, tức là ij ∼ N (0, σ 2 ),
- Mẫu phải được chọn ngẫu nhiên và độc lập.
- Đối với mô hình với các hiệu ứng cố định (fixed-effects model), điều kiện cho các
τi , i = 1, 2, . . . , k là
k
X
τi = 0. (3)
i=1

V. H. Hoang ANOVA 7 / 56
Phân tích phương sai một nhân tố

Bài toán Phân tích phương sai

Bảng dữ liệu tổng quát cho mô hình (2) là


Treatment Observations Totals Averages
1 y11 y12 · · · y1n y1· ȳ1·
2 y21 y22 · · · y2n y2· ȳ2·
.. .. .. .. .. .. ..
. . . . . . .
k yk1 yk2 · · · ykn yk· ȳk·
y·· ȳ··

Trong đó,
n
X
yi· = yij , ȳi· = yi· /n, i = 1, 2, . . . , k,
j=1
k X
X n
y·· = yij , ȳ·· = y·· /N, N = kn.
i=1 j=1

V. H. Hoang ANOVA 8 / 56
Phân tích phương sai một nhân tố

Giả thuyết của bài toán Phân tích phương sai một nhân tố

Giả thuyết:
H 0 : µ1 = µ2 = . . . = µ k ,
trung bình của tất cả các phương thức xử lý bằng nhau, hay nói cách khác, không
có sự khác biệt về trung bình giữa các nhóm.
Đối thuyết:
H1 : µi 6= µj với ít nhất một cặp 1 ≤ i, j ≤ k,
nghĩa là có tồn tại sự khác biệt giữa các nhóm, nhưng không có nghĩa là tất cả
trung bình đều khác nhau (có thể có một vài cặp).

V. H. Hoang ANOVA 9 / 56
Phân tích phương sai một nhân tố

Giả thuyết và đối thuyết

(
H 0 : µ1 = µ2 = . . . = µk ,
H1 : µi 6= µj với ít nhất một cặp 1 ≤ i, j ≤ k

V. H. Hoang ANOVA 10 / 56
Phân tích phương sai một nhân tố

Giả thuyết và đối thuyết

(
H 0 : µ1 = µ2 = . . . = µk ,
H1 : µi 6= µj với ít nhất một cặp 1 ≤ i, j ≤ k

V. H. Hoang ANOVA 11 / 56
Phân tích phương sai một nhân tố

Sự biến thiên

Sự biến thiên trong dữ liệu là chìa khóa để kiểm tra sự bằng nhau của trung bình
giữa các nhóm.
Ví dụ: trong mỗi trường hợp bên dưới, các giá trị trung bình nhìn có vẻ khác nhau,
nhưng sự biến thiên lớn trong các nhóm ở B là bằng chứng cho thấy rằng sự khác
nhau giữa các trung bình là rất nhỏ.

V. H. Hoang ANOVA 12 / 56
Phân tích phương sai một nhân tố

Phân tích sự biến thiên

Sự biến thiên toàn phần trong dữ liệu có thể phân chia thành hai thành phần như sau

SST = SSW + SSB (4)


k X
X n k X
X n k
X
(yij − ȳ·· )2 = (yij − ȳi· )2 + n (ȳi· − ȳ·· )2
i=1 j=1 i=1 j=1 i=1

Trong đó
SST = Tổng bình phương toàn phần (Total Sum of Squares).
SSW = Tổng bình phương bên trong các các nhóm (Sum of Squares Within
Groups).
SSB = Tổng bình phương giữa các nhóm (Sum of Squares Between Groups)

V. H. Hoang ANOVA 13 / 56
Phân tích phương sai một nhân tố

Phân tích sự biến thiên

Sự biến thiên toàn phần trong dữ liệu có thể phân chia thành hai thành phần như sau

SST = SSW + SSB (4)


k X
X n k X
X n k
X
(yij − ȳ·· )2 = (yij − ȳi· )2 + n (ȳi· − ȳ·· )2
i=1 j=1 i=1 j=1 i=1

Trong đó
SST = Tổng bình phương toàn phần (Total Sum of Squares).
SSW = Tổng bình phương bên trong các các nhóm (Sum of Squares Within
Groups).
SSB = Tổng bình phương giữa các nhóm (Sum of Squares Between Groups)

SSW còn được ký hiệu là SSE (Tổng bình phương sai số).

V. H. Hoang ANOVA 13 / 56
Phân tích phương sai một nhân tố

Phân tích sự biến thiên

V. H. Hoang ANOVA 14 / 56
Phân tích phương sai một nhân tố

Sự biến thiên toàn phần

V. H. Hoang ANOVA 15 / 56
Phân tích phương sai một nhân tố

Sự biến thiên trong từng nhóm

V. H. Hoang ANOVA 16 / 56
Phân tích phương sai một nhân tố

Sự biến thiên giữa các nhóm

V. H. Hoang ANOVA 17 / 56
Phân tích phương sai một nhân tố

Công thức rút gọn

Tổng các bình phương của ANOVA với cỡ mẫu bằng nhau trong mỗi phương thức xử lý
thường được tính bởi các công thức rút gọn sau
k X
n
X y··2
SST = yij2 − , (5)
i=1 j=1
N
k
X yi·2 y2
SSB = − ·· , (6)
i=1
n N
SSW = SST − SSB. (7)

V. H. Hoang ANOVA 18 / 56
Phân tích phương sai một nhân tố

Trung bình bình phương

• Trung bình bình phương toàn phần


SST
MST = . (8)
kn − 1
• Trung bình bình phương trong từng nhóm
SSW
MSW = . (9)
k(n − 1)

• Trung bình bình phương giữa các nhóm


SSB
MSB = . (10)
k −1

V. H. Hoang ANOVA 19 / 56
Phân tích phương sai một nhân tố

Trung bình bình phương

• Trung bình bình phương toàn phần


SST
MST = . (8)
kn − 1
• Trung bình bình phương trong từng nhóm
SSW
MSW = . (9)
k(n − 1)

• Trung bình bình phương giữa các nhóm


SSB
MSB = . (10)
k −1

V. H. Hoang ANOVA 19 / 56
Phân tích phương sai một nhân tố

Trung bình bình phương

• Trung bình bình phương toàn phần


SST
MST = . (8)
kn − 1
• Trung bình bình phương trong từng nhóm
SSW
MSW = . (9)
k(n − 1)

• Trung bình bình phương giữa các nhóm


SSB
MSB = . (10)
k −1

MSW còn được ký hiệu là MSE (Trung bình bình phương sai số).

V. H. Hoang ANOVA 19 / 56
Phân tích phương sai một nhân tố

ANOVA một nhân tố và Thống kê F

(
H 0 : µ1 = µ2 = . . . = µk ,
H1 : µi 6= µj với ít nhất một cặp 1 ≤ i, j ≤ k

• Thống kê kiểm định


MSB
F = . (11)
MSW
Thống kê F là tỷ số giữa phương sai ước lượng giữa các nhóm với phương sai ước lượng
trong từng nhóm.
• Bậc tự do
- df1 = k − 1 (k = số nhóm),
- df2 = k(n − 1) (kn = N: tổng số phần tử khảo sát ở tất cả các nhóm).

V. H. Hoang ANOVA 20 / 56
Phân tích phương sai một nhân tố

Bảng ANOVA một nhân tố

Nguồn của sự biến thiên SS df MS F


Giữa các nhóm SSB k −1 MSB
MSB
Trong từng nhóm SSW k(n − 1) MSW F = MSW
Tổng SST kn − 1

• Bác bỏ H0 khi:
f > fα;k−1,k(n−1) (12)

V. H. Hoang ANOVA 21 / 56
Phân tích phương sai một nhân tố

Ví dụ

VÍ DỤ 1. (tiếp theo)
Với α = 0.01, ta kiểm định giả thuyết
(
H 0 : µ1 = µ2 = µ3 = µ 4
H1 : µi 6= µj với ít nhất một cặp 1 ≤ i, j ≤ 4

Tính các tổng bình phương liên quan, từ bảng 1 ta có


4 X
6
X y··2   3832
SST = yij2 − = 72 + 82 + . . . + 202 − = 512.96,
i=1 j=1
N 24
4
X yi·2 y2 602 + 942 + 1022 + 1272 3832
SSB = − ·· = − = 382.79,
i=1
n N 6 24
SSW = SST − SSB = 512.96 − 382.79 = 130.17.

V. H. Hoang ANOVA 22 / 56
Phân tích phương sai một nhân tố

Ví dụ

Đồ thị boxplot cho so sánh trung bình:

V. H. Hoang ANOVA 23 / 56
Phân tích phương sai một nhân tố

Ví dụ

Tính giá trị thống kê kiểm định:


MSB SSB/(k − 1) 382.79/3
f = = = = 19.60.
MSW SSW /(kn − k) 130.17/20

Vì f0.01;3,20 = 4.94, nên ta bác bỏ H0 và kết luận rằng hàm lượng gỗ cứng trong
nguyên liệu có ảnh hưởng đến độ đàn hồi của các bao bì giấy.
Kết luận dùng p-giá trị:

p = P(F3,20 > 19.60) = 3.59 × 10−6 ,

vì p = 3.59 × 10−6  0.01, nên ta có đủ bằng chứng mạnh để bác bỏ H0 .

V. H. Hoang ANOVA 24 / 56
Phân tích phương sai một nhân tố

ANOVA với cỡ mẫu không bằng nhau

• Khi cỡ mẫu giữa các phương thức xử lý không bằng nhau, các công thức tính tổng bình
phương cần phải hiệu chỉnh lại. Xét bài toán ANOVA với k phương thức xử lý, với
phương
P thức thứ i(i = 1, 2, . . . , k), chọn mẫu ni phần tử. Tổng số phần tử là
N = ki=1 ni . Công thức tính SST , SSB và SSW được hiệu chỉnh lại như sau:
ni
k X
X y··2
SST = yij2 − (13)
i=1 j=1
N
k
X yi·2 y2
SSB = − ·· (14)
i=1
ni N
SSW = SST − SSB (15)

V. H. Hoang ANOVA 25 / 56
Phân tích phương sai một nhân tố

So sánh bội sau ANOVA

Khi giả thuyết H0 : µ1 = µ2 = . . . = µk được bác bỏ trong ANOVA, ta biết có sự


khác biệt giữa các nhóm (các phương thức thí nghiệm khác nhau), nhưng ANOVA
không chỉ rõ nhóm nào gây ra sự khác biệt.

V. H. Hoang ANOVA 26 / 56
Phân tích phương sai một nhân tố

So sánh bội sau ANOVA

Khi giả thuyết H0 : µ1 = µ2 = . . . = µk được bác bỏ trong ANOVA, ta biết có sự


khác biệt giữa các nhóm (các phương thức thí nghiệm khác nhau), nhưng ANOVA
không chỉ rõ nhóm nào gây ra sự khác biệt.
Để xác định trung bình của nhóm nào là khác biệt, ta sử dụng phương pháp so sánh
bội (Multiple comparison method). Một phương pháp so sánh bội đơn giản là
Phương pháp ý nghĩa độ lệch nhỏ nhất (Least significant difference - LSD) của
Fisher.

V. H. Hoang ANOVA 26 / 56
Phân tích phương sai một nhân tố

So sánh bội sau ANOVA

Khi giả thuyết H0 : µ1 = µ2 = . . . = µk được bác bỏ trong ANOVA, ta biết có sự


khác biệt giữa các nhóm (các phương thức thí nghiệm khác nhau), nhưng ANOVA
không chỉ rõ nhóm nào gây ra sự khác biệt.
Để xác định trung bình của nhóm nào là khác biệt, ta sử dụng phương pháp so sánh
bội (Multiple comparison method). Một phương pháp so sánh bội đơn giản là
Phương pháp ý nghĩa độ lệch nhỏ nhất (Least significant difference - LSD) của
Fisher.
Nội dung của phương pháp LSD là so sánh tất cả các cặp giá trị trung bình với giả
thuyết H0 : µi = µj (với mọi i 6= j), sử dụng thống kê t
ȳi· − ȳj·
t= r (16)
2MSW
n

V. H. Hoang ANOVA 26 / 56
Phân tích phương sai một nhân tố

So sánh bội sau ANOVA

Giả sử với đối thuyết hai phía, cặp giá trị trung bình µi và µj gọi là khác nhau có ý
nghĩa nếu
|ȳi· − ȳj· | > LSD
với r
k(n−1) 2MSW
LSD = tα/2 . (17)
n

V. H. Hoang ANOVA 27 / 56
Phân tích phương sai một nhân tố

So sánh bội sau ANOVA

Giả sử với đối thuyết hai phía, cặp giá trị trung bình µi và µj gọi là khác nhau có ý
nghĩa nếu
|ȳi· − ȳj· | > LSD
với r
k(n−1) 2MSW
LSD = tα/2 . (17)
n
Nếu mỗi phương thức thí nghiệm có cỡ mẫu khác nhau, LSD được định nghĩa như
sau s  
N−k 1 1
LSD = tα/2 MSW +
ni nj

trong đó N là tổng số phần tử khảo sát, k là số nhóm, ni và nj lần lượt là số phần


tử của phương thức thí nghiệm thứ i và j.

V. H. Hoang ANOVA 27 / 56
Phân tích phương sai một nhân tố

Ví dụ

Thực hiện so sánh bội với kết quả phân tích ANOVA trong ví dụ 1, ta có số nhóm k = 4,
20
n = 6, MSW = 6.51 và t0.975 = 2.086; trung bình ở các phương thức xử lý như sau

ȳ1· = 10.00, ȳ2· = 15.67, ȳ3· = 17.00, ȳ4· = 21.17.


20
p p
Giá trị LSD = t0.975 2MSW /n = 2.086 2 × 6.51/6 = 3.07. So sánh các cặp giá trị
trung bình như sau:

4 vs. 1 = 21.17 − 10.00 = 11.17 > 3.07,


4 vs. 2 = 21.17 − 15.67 = 5.50 > 3.07,
4 vs. 3 = 21.17 − 17.00 = 4.17 > 3.07,
3 vs. 1 = 17.00 − 10.00 = 7.00 > 3.07,
3 vs. 2 = 17.00 − 15.67 = 1.33 < 3.07,
2 vs. 1 = 15.67 − 10.00 = 5.67 > 3.07.

V. H. Hoang ANOVA 28 / 56
Phân tích phương sai một nhân tố

Ví dụ

Từ phân tích trên, ta nhận thấy rằng ngoại trừ cặp giá trị trung bình của nhóm 2 và 3,
tất cả các cặp còn lại đều khác nhau có ý nghĩa. Điều này chứng tỏ rằng hàm lượng gỗ
cứng trong bột gỗ ở mức 10% và 15% đều cho ra những sản phẩm có độ đàn hồi xấp xỉ
bằng nhau. Kết quả có thể được mô tả bởi hình vẽ sau:

V. H. Hoang ANOVA 29 / 56
Phân tích phương sai một nhân tố

Ví dụ

Ví dụ 2
Theo dõi doanh thu (Đv: triệu đồng/tháng) của 4 cửa hàng thuộc một công ty, người ta
được số liệu sau:
Cửa hàng
Tháng kinh doanh
1 2 3 4
1 12.3 14.2 15.6 17.2
2 12.6 12.4 17.1 15.8
3 11.6 11.5 18.2 12.2
4 15.2 11.6 12.5 11.7
5 18.6 12.1 11.8 12.4
6 17.1 13.5 14.8 13.3

Với mức ý nghĩa 5%, hãy so sánh doanh thu trung bình tháng của các cửa hàng thuộc
công ty nói trên.

V. H. Hoang ANOVA 30 / 56
Phân tích phương sai một nhân tố

Ví dụ 2 (tt)

Các bước kiểm định:

V. H. Hoang ANOVA 31 / 56
Phân tích phương sai một nhân tố

Ví dụ 2 (tt)

Các bước kiểm định:


Phát biểu giả thuyết H0 và đối thuyết H1 :
H0 : Không có sự khác biệt về doanh thu trung bình giữa các cửa hàng của công ty,
H1 : Ít nhất có hai cửa hàng có doanh thu trung bình khác nhau.

V. H. Hoang ANOVA 31 / 56
Phân tích phương sai một nhân tố

Ví dụ 2 (tt)

Các bước kiểm định:


Phát biểu giả thuyết H0 và đối thuyết H1 :
H0 : Không có sự khác biệt về doanh thu trung bình giữa các cửa hàng của công ty,
H1 : Ít nhất có hai cửa hàng có doanh thu trung bình khác nhau.
Lập bảng ANOVA:

V. H. Hoang ANOVA 31 / 56
Phân tích phương sai một nhân tố

Ví dụ 2 (tt)

Các bước kiểm định:


Phát biểu giả thuyết H0 và đối thuyết H1 :
H0 : Không có sự khác biệt về doanh thu trung bình giữa các cửa hàng của công ty,
H1 : Ít nhất có hai cửa hàng có doanh thu trung bình khác nhau.
Lập bảng ANOVA:
ta cần tính các đại lượng SST , SSW (hoặc SSE) và SSB = SST − SSW ,

V. H. Hoang ANOVA 31 / 56
Phân tích phương sai một nhân tố

Ví dụ 2 (tt)

Các bước kiểm định:


Phát biểu giả thuyết H0 và đối thuyết H1 :
H0 : Không có sự khác biệt về doanh thu trung bình giữa các cửa hàng của công ty,
H1 : Ít nhất có hai cửa hàng có doanh thu trung bình khác nhau.
Lập bảng ANOVA:
ta cần tính các đại lượng SST , SSW (hoặc SSE) và SSB = SST − SSW ,
từ đó suy ra MSB và MSW (hoặc MSE ), và tính thống kê F = MSB/MSW .

V. H. Hoang ANOVA 31 / 56
Phân tích phương sai một nhân tố

Ví dụ 2 (tt)

Ta có k = 4 (4 nhóm), n = 6 (theo dõi trong 6 tháng) và N = kn = 24. Tính các


tổng quan trắc và trung bình của mỗi nhóm:
Cửa hàng
Tháng kinh doanh
1 2 3 4
1 12.3 14.2 15.6 17.2
2 12.6 12.4 17.1 15.8
3 11.6 11.5 18.2 12.2
4 15.2 11.6 12.5 11.7
5 18.6 12.1 11.8 12.4
6 17.1 13.5 14.8 13.3
Tổng 87.4 75.3 90.0 82.6
Trung bình 14.5667 12.55 15 13.7667
Tổng tất cả:
4 X
X 6
y.. = yij = 87.4 + 75.3 + 90.0 + 82.6 = 335.3.
i=1 j=1

V. H. Hoang ANOVA 32 / 56
Phân tích phương sai một nhân tố

Ví dụ 2 (tt)

Tính các tổng bình phương:


4 X
6
X y..2   335.32
SST = yij2 − = 12.32 + 12.62 + · · · + 13.32 − = 123.87,
i=1 j=1
N 24
4
X yi.2 y2 87.42 + 75.32 + 902 + 82.62 335.32
SSB = − .. = − = 20.85,
i=1
6 N 6 24
SSW = SST − SSB = 4794.319 − 4691.297 = 103.02.

V. H. Hoang ANOVA 33 / 56
Phân tích phương sai một nhân tố

Ví dụ 2 (tt)

Tính các tổng bình phương:


4 X
6
X y..2   335.32
SST = yij2 − = 12.32 + 12.62 + · · · + 13.32 − = 123.87,
i=1 j=1
N 24
4
X yi.2 y2 87.42 + 75.32 + 902 + 82.62 335.32
SSB = − .. = − = 20.85,
i=1
6 N 6 24
SSW = SST − SSB = 4794.319 − 4691.297 = 103.02.

Tính các trung bình bình phương sai số:


SSB 20.85
MSB = = = 6.95,
k −1 3
SSW 103.02
MSW = = = 5.151.
N −k 20

V. H. Hoang ANOVA 33 / 56
Phân tích phương sai một nhân tố

Ví dụ 2 (tt)

Tính các tổng bình phương:


4 X
6
X y..2   335.32
SST = yij2 − = 12.32 + 12.62 + · · · + 13.32 − = 123.87,
i=1 j=1
N 24
4
X yi.2 y2 87.42 + 75.32 + 902 + 82.62 335.32
SSB = − .. = − = 20.85,
i=1
6 N 6 24
SSW = SST − SSB = 4794.319 − 4691.297 = 103.02.

Tính các trung bình bình phương sai số:


SSB 20.85
MSB = = = 6.95,
k −1 3
SSW 103.02
MSW = = = 5.151.
N −k 20
Tính thống kê kiểm định F :
MSB 6.95
F = = = 1.349.
MSW 5.151

V. H. Hoang ANOVA 33 / 56
Phân tích phương sai một nhân tố

Ví dụ 2 (tt)

Ta thu được bảng ANOVA sau:


Nguồn của sự biến thiên SS df MS F
Giữa các nhóm 20.85 3 6.95
6.95
Trong từng nhóm 103.02 20 5.151 F = = 1.349
5.151
Tổng 123.87 23

V. H. Hoang ANOVA 34 / 56
Phân tích phương sai một nhân tố

Ví dụ 2 (tt)

Ta thu được bảng ANOVA sau:


Nguồn của sự biến thiên SS df MS F
Giữa các nhóm 20.85 3 6.95
6.95
Trong từng nhóm 103.02 20 5.151 F = = 1.349
5.151
Tổng 123.87 23
Bác bỏ H0 nếu: F > f0.05;3,20 .

V. H. Hoang ANOVA 34 / 56
Phân tích phương sai một nhân tố

Ví dụ 2 (tt)

Ta thu được bảng ANOVA sau:


Nguồn của sự biến thiên SS df MS F
Giữa các nhóm 20.85 3 6.95
6.95
Trong từng nhóm 103.02 20 5.151 F = = 1.349
5.151
Tổng 123.87 23
Bác bỏ H0 nếu: F > f0.05;3,20 .
Kết luận: tra bảng Fisher, ta có f0.05;3,20 = 3.098.
Vì F = 1.349 < 3.098, suy ra chưa đủ cơ sở để bác bỏ H0 . Với mức ý nghĩa 5%, ta
có thể kết luận rằng doanh thu trung bình giữa các cửa hàng là như nhau.

V. H. Hoang ANOVA 34 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Mục lục

1 Phân tích phương sai một nhân tố

2 Phân tích phương sai hai nhân tố (tự đọc)

V. H. Hoang ANOVA 35 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Giới thiệu ANOVA 2 nhân tố

ANOVA hai nhân tố dùng để:


Nghiên cứu tác động của
Hai nhân tố được quan tâm trên một biến phụ thuộc (biến giải thích).
Ví dụ: ảnh hưởng của ánh sáng (cường độ: mạnh, trung bình, yếu) và lượng nước
(nhiều, ít) tưới lên chiều cao của cây.
Tương tác giữa các mức khác nhau của hai nhân tố.
Chẳng hạn, có tương tác nào giữa cường độ ánh sáng mạnh chiếu lên cây khi tưới
nhiều nước hay không?

V. H. Hoang ANOVA 36 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Các giả định của mô hình

Bài toán ANOVA hai nhân tố được biểu diễn theo mô hình thống kê tuyến tính như sau:
(
i = 1, 2, . . . , a
Yij = µ + τi + βj + ij . (18)
j = 1, 2, . . . , b

với µ là trung bình chung, τi là ảnh hưởng của phương thức xử lý thứ i (của nhân tố A),
βj là ảnh hưởng của khối thứ j (của nhân tố B); ij là thành phần sai số.
Các giả định:
Tổng thể có phân phối chuẩn,
Tổng thể có phương sai bằng nhau,
Mẫu ngẫu nhiên được chọn độc lập.

V. H. Hoang ANOVA 37 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Thiết kê và phân tích

Đối với bài toán ANOVA 2 nhân tố, ta sử dụng phương pháp thiết kế gọi là Thiết kế
khối ngẫu nhiên đầy đủ (Randomized complete block design). Phương pháp là chọn
b khối (block) ứng với b mức của nhân tố B và lặp lại thí nghiệm đầy đủ với a mức
tương ứng của nhân tố A. Như vậy sẽ có a quan trắc ứng với mỗi khối, với thứ tự
chọn một cách ngẫu nhiên bên trong khối đó. Mô tả phương pháp như hình vẽ bên
dưới:

V. H. Hoang ANOVA 38 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Thiết kế và phân tích

• Bảng dữ liệu cho ANOVA 2 nhân tố:

V. H. Hoang ANOVA 39 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Phân tích sự biến thiên

V. H. Hoang ANOVA 40 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Tổng các bình phương

• Định nghĩa tổng các bình phương như sau:


a X
X b
Toàn phần : SST = (yij − ȳ·· )2 , (19)
i=1 j=1
a
X
Giữa các nhóm : SSG = b (ȳi· − ȳ·· )2 , (20)
i=1
b
X
Giữa khác khối : SSB = a (ȳ·j − ȳ·· )2 , (21)
j=1
a X
X b
Sai số : SSE = (yij − ȳ·j − ȳi· + ȳ·· )2 . (22)
i=1 j=1

• Bậc tự do tương ứng:


ab − 1 = (a − 1) + (b − 1) + (a − 1)(b − 1).

V. H. Hoang ANOVA 41 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Trung bình bình phương

Các trung bình bình phương được định nghĩa như sau:
SST
MST = , (23)
ab − 1
SSG
MSG = , (24)
a−1
SSB
MSB = , (25)
b−1
SSE
MSE = . (26)
(a − 1)(b − 1)

V. H. Hoang ANOVA 42 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Giả thuyết của bài toán ANOVA 2 nhân tố

Đối với các nhóm (nhân tố A):


(
H0a : τ1 = τ2 = . . . = τa = 0
(27)
H1a : τi 6= 0 với ít nhất một i

Thống kê kiểm định F :


MSG
Fa = . (28)
MSE
Bác bỏ H0a khi:
f0a > fα;a−1,(a−1)(b−1) .

V. H. Hoang ANOVA 43 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Giả thuyết của bài toán ANOVA 2 nhân tố

Đối với các khối (nhân tố B):


(
H0b : β1 = β2 = . . . = βb = 0
(29)
H1b : βj 6= 0 với ít nhất một j

Thống kê kiểm định F :


MSB
Fb = . (30)
MSE
Bác bỏ H0b khi:
f0b > fα;b−1,(a−1)(b−1) .

V. H. Hoang ANOVA 44 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Bảng ANOVA 2 nhân tố

Nguồn của sự biến thiên SS df MS F


MSG
Giữa các nhóm SSG a−1 MSG Fa = MSE
MSB
Giữa các khối SSB b−1 MSB Fb = MSE

Sai số SSE (a − 1)(b − 1) MSE


Tổng SST ab − 1

V. H. Hoang ANOVA 45 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Nhiều hơn một quan trắc trong một ô

Một thiết kế ANOVA 2 chiều có nhiều hơn một quan trắc trong mỗi ô làm tăng
nguồn gây ra sự biến thiên.
Xuất hiện tương tác giữa các nhóm và các khối: như vậy sự tương tác giữa hai nhân
tố chỉ có thể xác định được khi số quan trắc trong 1 ô > 1.
Gọi
a = số nhóm (nhân tố A),
b = số khối (nhân tố B),
n = số quan trắc trong mỗi ô,
N = abn = tổng số quan trắc ứng với ab ô.
Mô hình được biểu diễn như sau 
i

 = 1, 2, . . . , a
Yijk = µ + τi + βj + (τ β)ij + ijk j = 1, 2, . . . , b (31)

k = 1, 2, . . . , n

V. H. Hoang ANOVA 46 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Nhiều hơn một quan trắc trong một ô

Bảng dữ liệu cho mô hình:

V. H. Hoang ANOVA 47 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Phân tích sự biến thiên

V. H. Hoang ANOVA 48 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Các ký hiệu

Ta định nghĩa các đại lượng sau:


b X
n
X yi··
yi·· = yijk , ȳi·· = i = 1, 2, . . . , a,
j=1 k=1
bn
a X
n
X y·j·
y·j· = yijk , ȳ·j· = j = 1, 2, . . . , b,
i=1 k=1
an
n
(
X yij· i = 1, 2, . . . , a
yij· = yijk , ȳij· = ,
n j = 1, 2, . . . , b
k=1
a X
b X
n
X y···
y··· = yijk , ȳ··· = .
i=1 j=1 k=1
abn

V. H. Hoang ANOVA 49 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Tổng các bình phương với tương tác

a X
X b X
n
Toàn phần : SST = (yijk − ȳ··· )2 , (32)
i=1 j=1 k=1
a
X
Giữa các nhóm : SSG = bn (ȳi·· − ȳ··· )2 , (33)
j=1
b
X
Giữa các khối : SSB = an (ȳ·j· − ȳ··· )2 , (34)
j=1
a X
X b
Tương tác : SSI = n (ȳij· − ȳi·· − ȳ·j· + ȳ··· )2 . (35)
i=1 j=1

V. H. Hoang ANOVA 50 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Trung bình bình phương

Các trung bình bình phương được định nghĩa như sau:
SST
MST = , (36)
abn − 1
SSG
MSG = , (37)
a−1
SSB
MSB = , (38)
b−1
SSI
MSI = , (39)
(a − 1)(b − 1)
SSE
MSE = . (40)
ab(n − 1)

V. H. Hoang ANOVA 51 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Giả thuyết của bài toán ANOVA 2 nhân tố (n > 1)

Đối với các nhóm (nhân tố A):


(
H0a : τ1 = τ2 = . . . = τa = 0
(41)
H1a : τi 6= 0 với ít nhất một i

Thống kê kiểm định F :


MSG
Fa = . (42)
MSE
Bác bỏ H0a khi:
fa > fα;a−1,ab(n−1) .

V. H. Hoang ANOVA 52 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Giả thuyết của bài toán ANOVA 2 nhân tố (n > 1)

Đối với các khối (nhân tố B):


(
H0b : β1 = β2 = . . . = βb = 0
(43)
H1b : βj 6= 0 với ít nhất một j

Thống kê kiểm định F :


MSB
Fb = . (44)
MSE
Bác bỏ H0b khi:
fb > fα;b−1,ab(n−1) .

V. H. Hoang ANOVA 53 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Giả thuyết của bài toán ANOVA 2 nhân tố (n > 1)

Đối với tương tác giữa A và B


(
H0b : (τ β)11 = (τ β)12 = . . . = (τ β)ab = 0
(45)
H1b : (τ β)ij 6= 0 với ít nhất một cặp (i, j)

Thống kê kiểm định F :


MSI
Fab = . (46)
MSE
Bác bỏ H0ab khi:
fab > fα;(a−1)(b−1),ab(n−1) .

V. H. Hoang ANOVA 54 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Bảng ANOVA 2 nhân tố (n > 1)

Nguồn của sự biến thiên SS df MS F


MSG
Giữa các nhóm SSG a−1 MSG Fa = MSE
MSB
Giữa các khối SSB b−1 MSB Fb = MSE
MSI
Tương tác SSI (a − 1)(b − 1) MSI Fab = MSE

Sai số SSE ab(n − 1) MSE


Tổng SST abn − 1

V. H. Hoang ANOVA 55 / 56
Phân tích phương sai hai nhân tố (tự đọc)

Ví dụ về tương tác

V. H. Hoang ANOVA 56 / 56

You might also like