Professional Documents
Culture Documents
Chap 7 - ANOVA
Chap 7 - ANOVA
Hoàng Văn Hà
University of Science, VNU - HCM
hvha@hcmus.edu.vn
V. H. Hoang ANOVA 1 / 56
Mục lục
V. H. Hoang ANOVA 2 / 56
Phân tích phương sai một nhân tố
Mục lục
V. H. Hoang ANOVA 3 / 56
Phân tích phương sai một nhân tố
Giới thiệu
Ví dụ 1
Một nhà máy sản xuất bao bì quan tâm đến việc tăng độ đàn hồi của các túi giấy do nhà
máy làm ra. Các kỹ sư của nhà máy cho trằng độ đàn hồi của các túi giấy bị ảnh hưởng
bởi hàm lượng gỗ cứng trong nguyên liệu, phạm vi thay đổi được quan tâm là từ 5% đến
20%. Các kỹ sư quyết định thử nghiệm với hàm lượng gỗ cứng trong bột gỗ ở 4 mức:
5%, 10%, 15% và 20%. Ở mỗi mức, 6 mẫu vật được chọn để kiểm trong trong phòng thí
nghiệm, theo thứ tự ngẫu nhiên. Kết quả cho bởi bảng bên dưới:
V. H. Hoang ANOVA 4 / 56
Phân tích phương sai một nhân tố
Giới thiệu
Câu hỏi đặt ra là: có sự khác biệt về độ đàn hồi (Đơn vị: psi) giữa các sản phẩm có
hàm lượng gỗ cứng trong bột gỗ ở 4 mức khác nhau hay không?
V. H. Hoang ANOVA 5 / 56
Phân tích phương sai một nhân tố
Giới thiệu
Câu hỏi đặt ra là: có sự khác biệt về độ đàn hồi (Đơn vị: psi) giữa các sản phẩm có
hàm lượng gỗ cứng trong bột gỗ ở 4 mức khác nhau hay không?
Ví dụ trên đặt ra bài toán so sánh sự khác biệt giữa trung bình của nhóm khác nhau
(≥ 3).
V. H. Hoang ANOVA 5 / 56
Phân tích phương sai một nhân tố
Giới thiệu
Câu hỏi đặt ra là: có sự khác biệt về độ đàn hồi (Đơn vị: psi) giữa các sản phẩm có
hàm lượng gỗ cứng trong bột gỗ ở 4 mức khác nhau hay không?
Ví dụ trên đặt ra bài toán so sánh sự khác biệt giữa trung bình của nhóm khác nhau
(≥ 3).
Thí nghiệm trên được gọi là Thí nghiệm ngẫu nhiên đầy đủ với một nhân tố (The
completely Randomized Single-Factor).
V. H. Hoang ANOVA 5 / 56
Phân tích phương sai một nhân tố
Giới thiệu
Câu hỏi đặt ra là: có sự khác biệt về độ đàn hồi (Đơn vị: psi) giữa các sản phẩm có
hàm lượng gỗ cứng trong bột gỗ ở 4 mức khác nhau hay không?
Ví dụ trên đặt ra bài toán so sánh sự khác biệt giữa trung bình của nhóm khác nhau
(≥ 3).
Thí nghiệm trên được gọi là Thí nghiệm ngẫu nhiên đầy đủ với một nhân tố (The
completely Randomized Single-Factor).
Để trả lời câu hỏi, ta sử dụng kỹ thuật Phân tích phương sai (Analysis of Variance -
ANOVA).
V. H. Hoang ANOVA 5 / 56
Phân tích phương sai một nhân tố
Giả sử ta cần so sánh k mức khác nhau của một nhân tố. Mỗi mức của nhân tố
được gọi là một phương thức xử lý (treatment). Kết quả của mỗi một phương thức
làm một biến ngẫu nhiên. Dữ liệu quan trắc (observations) được sẽ được biểu diễn
giống như trong bảng 1, mỗi giá trị trong bảng 1, ký hiệu là yij , gọi là quan trắc thứ
j được chọn dưới phương thức xử lý i. Giả sử ở mỗi phương thức xử lý, ta chọn số
quan trắc bằng nhau, bằng n.
V. H. Hoang ANOVA 6 / 56
Phân tích phương sai một nhân tố
Giả sử ta cần so sánh k mức khác nhau của một nhân tố. Mỗi mức của nhân tố
được gọi là một phương thức xử lý (treatment). Kết quả của mỗi một phương thức
làm một biến ngẫu nhiên. Dữ liệu quan trắc (observations) được sẽ được biểu diễn
giống như trong bảng 1, mỗi giá trị trong bảng 1, ký hiệu là yij , gọi là quan trắc thứ
j được chọn dưới phương thức xử lý i. Giả sử ở mỗi phương thức xử lý, ta chọn số
quan trắc bằng nhau, bằng n.
Dữ liệu trong bảng 1 có thể được biểu diễn theo mô hình tuyến tính
V. H. Hoang ANOVA 6 / 56
Phân tích phương sai một nhân tố
Giả sử ta cần so sánh k mức khác nhau của một nhân tố. Mỗi mức của nhân tố
được gọi là một phương thức xử lý (treatment). Kết quả của mỗi một phương thức
làm một biến ngẫu nhiên. Dữ liệu quan trắc (observations) được sẽ được biểu diễn
giống như trong bảng 1, mỗi giá trị trong bảng 1, ký hiệu là yij , gọi là quan trắc thứ
j được chọn dưới phương thức xử lý i. Giả sử ở mỗi phương thức xử lý, ta chọn số
quan trắc bằng nhau, bằng n.
Dữ liệu trong bảng 1 có thể được biểu diễn theo mô hình tuyến tính
V. H. Hoang ANOVA 6 / 56
Phân tích phương sai một nhân tố
Giả sử ta cần so sánh k mức khác nhau của một nhân tố. Mỗi mức của nhân tố
được gọi là một phương thức xử lý (treatment). Kết quả của mỗi một phương thức
làm một biến ngẫu nhiên. Dữ liệu quan trắc (observations) được sẽ được biểu diễn
giống như trong bảng 1, mỗi giá trị trong bảng 1, ký hiệu là yij , gọi là quan trắc thứ
j được chọn dưới phương thức xử lý i. Giả sử ở mỗi phương thức xử lý, ta chọn số
quan trắc bằng nhau, bằng n.
Dữ liệu trong bảng 1 có thể được biểu diễn theo mô hình tuyến tính
V. H. Hoang ANOVA 6 / 56
Phân tích phương sai một nhân tố
V. H. Hoang ANOVA 7 / 56
Phân tích phương sai một nhân tố
Trong đó,
n
X
yi· = yij , ȳi· = yi· /n, i = 1, 2, . . . , k,
j=1
k X
X n
y·· = yij , ȳ·· = y·· /N, N = kn.
i=1 j=1
V. H. Hoang ANOVA 8 / 56
Phân tích phương sai một nhân tố
Giả thuyết của bài toán Phân tích phương sai một nhân tố
Giả thuyết:
H 0 : µ1 = µ2 = . . . = µ k ,
trung bình của tất cả các phương thức xử lý bằng nhau, hay nói cách khác, không
có sự khác biệt về trung bình giữa các nhóm.
Đối thuyết:
H1 : µi 6= µj với ít nhất một cặp 1 ≤ i, j ≤ k,
nghĩa là có tồn tại sự khác biệt giữa các nhóm, nhưng không có nghĩa là tất cả
trung bình đều khác nhau (có thể có một vài cặp).
V. H. Hoang ANOVA 9 / 56
Phân tích phương sai một nhân tố
(
H 0 : µ1 = µ2 = . . . = µk ,
H1 : µi 6= µj với ít nhất một cặp 1 ≤ i, j ≤ k
V. H. Hoang ANOVA 10 / 56
Phân tích phương sai một nhân tố
(
H 0 : µ1 = µ2 = . . . = µk ,
H1 : µi 6= µj với ít nhất một cặp 1 ≤ i, j ≤ k
V. H. Hoang ANOVA 11 / 56
Phân tích phương sai một nhân tố
Sự biến thiên
Sự biến thiên trong dữ liệu là chìa khóa để kiểm tra sự bằng nhau của trung bình
giữa các nhóm.
Ví dụ: trong mỗi trường hợp bên dưới, các giá trị trung bình nhìn có vẻ khác nhau,
nhưng sự biến thiên lớn trong các nhóm ở B là bằng chứng cho thấy rằng sự khác
nhau giữa các trung bình là rất nhỏ.
V. H. Hoang ANOVA 12 / 56
Phân tích phương sai một nhân tố
Sự biến thiên toàn phần trong dữ liệu có thể phân chia thành hai thành phần như sau
Trong đó
SST = Tổng bình phương toàn phần (Total Sum of Squares).
SSW = Tổng bình phương bên trong các các nhóm (Sum of Squares Within
Groups).
SSB = Tổng bình phương giữa các nhóm (Sum of Squares Between Groups)
V. H. Hoang ANOVA 13 / 56
Phân tích phương sai một nhân tố
Sự biến thiên toàn phần trong dữ liệu có thể phân chia thành hai thành phần như sau
Trong đó
SST = Tổng bình phương toàn phần (Total Sum of Squares).
SSW = Tổng bình phương bên trong các các nhóm (Sum of Squares Within
Groups).
SSB = Tổng bình phương giữa các nhóm (Sum of Squares Between Groups)
SSW còn được ký hiệu là SSE (Tổng bình phương sai số).
V. H. Hoang ANOVA 13 / 56
Phân tích phương sai một nhân tố
V. H. Hoang ANOVA 14 / 56
Phân tích phương sai một nhân tố
V. H. Hoang ANOVA 15 / 56
Phân tích phương sai một nhân tố
V. H. Hoang ANOVA 16 / 56
Phân tích phương sai một nhân tố
V. H. Hoang ANOVA 17 / 56
Phân tích phương sai một nhân tố
Tổng các bình phương của ANOVA với cỡ mẫu bằng nhau trong mỗi phương thức xử lý
thường được tính bởi các công thức rút gọn sau
k X
n
X y··2
SST = yij2 − , (5)
i=1 j=1
N
k
X yi·2 y2
SSB = − ·· , (6)
i=1
n N
SSW = SST − SSB. (7)
V. H. Hoang ANOVA 18 / 56
Phân tích phương sai một nhân tố
V. H. Hoang ANOVA 19 / 56
Phân tích phương sai một nhân tố
V. H. Hoang ANOVA 19 / 56
Phân tích phương sai một nhân tố
MSW còn được ký hiệu là MSE (Trung bình bình phương sai số).
V. H. Hoang ANOVA 19 / 56
Phân tích phương sai một nhân tố
(
H 0 : µ1 = µ2 = . . . = µk ,
H1 : µi 6= µj với ít nhất một cặp 1 ≤ i, j ≤ k
V. H. Hoang ANOVA 20 / 56
Phân tích phương sai một nhân tố
• Bác bỏ H0 khi:
f > fα;k−1,k(n−1) (12)
V. H. Hoang ANOVA 21 / 56
Phân tích phương sai một nhân tố
Ví dụ
VÍ DỤ 1. (tiếp theo)
Với α = 0.01, ta kiểm định giả thuyết
(
H 0 : µ1 = µ2 = µ3 = µ 4
H1 : µi 6= µj với ít nhất một cặp 1 ≤ i, j ≤ 4
V. H. Hoang ANOVA 22 / 56
Phân tích phương sai một nhân tố
Ví dụ
V. H. Hoang ANOVA 23 / 56
Phân tích phương sai một nhân tố
Ví dụ
Vì f0.01;3,20 = 4.94, nên ta bác bỏ H0 và kết luận rằng hàm lượng gỗ cứng trong
nguyên liệu có ảnh hưởng đến độ đàn hồi của các bao bì giấy.
Kết luận dùng p-giá trị:
V. H. Hoang ANOVA 24 / 56
Phân tích phương sai một nhân tố
• Khi cỡ mẫu giữa các phương thức xử lý không bằng nhau, các công thức tính tổng bình
phương cần phải hiệu chỉnh lại. Xét bài toán ANOVA với k phương thức xử lý, với
phương
P thức thứ i(i = 1, 2, . . . , k), chọn mẫu ni phần tử. Tổng số phần tử là
N = ki=1 ni . Công thức tính SST , SSB và SSW được hiệu chỉnh lại như sau:
ni
k X
X y··2
SST = yij2 − (13)
i=1 j=1
N
k
X yi·2 y2
SSB = − ·· (14)
i=1
ni N
SSW = SST − SSB (15)
V. H. Hoang ANOVA 25 / 56
Phân tích phương sai một nhân tố
V. H. Hoang ANOVA 26 / 56
Phân tích phương sai một nhân tố
V. H. Hoang ANOVA 26 / 56
Phân tích phương sai một nhân tố
V. H. Hoang ANOVA 26 / 56
Phân tích phương sai một nhân tố
Giả sử với đối thuyết hai phía, cặp giá trị trung bình µi và µj gọi là khác nhau có ý
nghĩa nếu
|ȳi· − ȳj· | > LSD
với r
k(n−1) 2MSW
LSD = tα/2 . (17)
n
V. H. Hoang ANOVA 27 / 56
Phân tích phương sai một nhân tố
Giả sử với đối thuyết hai phía, cặp giá trị trung bình µi và µj gọi là khác nhau có ý
nghĩa nếu
|ȳi· − ȳj· | > LSD
với r
k(n−1) 2MSW
LSD = tα/2 . (17)
n
Nếu mỗi phương thức thí nghiệm có cỡ mẫu khác nhau, LSD được định nghĩa như
sau s
N−k 1 1
LSD = tα/2 MSW +
ni nj
V. H. Hoang ANOVA 27 / 56
Phân tích phương sai một nhân tố
Ví dụ
Thực hiện so sánh bội với kết quả phân tích ANOVA trong ví dụ 1, ta có số nhóm k = 4,
20
n = 6, MSW = 6.51 và t0.975 = 2.086; trung bình ở các phương thức xử lý như sau
V. H. Hoang ANOVA 28 / 56
Phân tích phương sai một nhân tố
Ví dụ
Từ phân tích trên, ta nhận thấy rằng ngoại trừ cặp giá trị trung bình của nhóm 2 và 3,
tất cả các cặp còn lại đều khác nhau có ý nghĩa. Điều này chứng tỏ rằng hàm lượng gỗ
cứng trong bột gỗ ở mức 10% và 15% đều cho ra những sản phẩm có độ đàn hồi xấp xỉ
bằng nhau. Kết quả có thể được mô tả bởi hình vẽ sau:
V. H. Hoang ANOVA 29 / 56
Phân tích phương sai một nhân tố
Ví dụ
Ví dụ 2
Theo dõi doanh thu (Đv: triệu đồng/tháng) của 4 cửa hàng thuộc một công ty, người ta
được số liệu sau:
Cửa hàng
Tháng kinh doanh
1 2 3 4
1 12.3 14.2 15.6 17.2
2 12.6 12.4 17.1 15.8
3 11.6 11.5 18.2 12.2
4 15.2 11.6 12.5 11.7
5 18.6 12.1 11.8 12.4
6 17.1 13.5 14.8 13.3
Với mức ý nghĩa 5%, hãy so sánh doanh thu trung bình tháng của các cửa hàng thuộc
công ty nói trên.
V. H. Hoang ANOVA 30 / 56
Phân tích phương sai một nhân tố
Ví dụ 2 (tt)
V. H. Hoang ANOVA 31 / 56
Phân tích phương sai một nhân tố
Ví dụ 2 (tt)
V. H. Hoang ANOVA 31 / 56
Phân tích phương sai một nhân tố
Ví dụ 2 (tt)
V. H. Hoang ANOVA 31 / 56
Phân tích phương sai một nhân tố
Ví dụ 2 (tt)
V. H. Hoang ANOVA 31 / 56
Phân tích phương sai một nhân tố
Ví dụ 2 (tt)
V. H. Hoang ANOVA 31 / 56
Phân tích phương sai một nhân tố
Ví dụ 2 (tt)
V. H. Hoang ANOVA 32 / 56
Phân tích phương sai một nhân tố
Ví dụ 2 (tt)
V. H. Hoang ANOVA 33 / 56
Phân tích phương sai một nhân tố
Ví dụ 2 (tt)
V. H. Hoang ANOVA 33 / 56
Phân tích phương sai một nhân tố
Ví dụ 2 (tt)
V. H. Hoang ANOVA 33 / 56
Phân tích phương sai một nhân tố
Ví dụ 2 (tt)
V. H. Hoang ANOVA 34 / 56
Phân tích phương sai một nhân tố
Ví dụ 2 (tt)
V. H. Hoang ANOVA 34 / 56
Phân tích phương sai một nhân tố
Ví dụ 2 (tt)
V. H. Hoang ANOVA 34 / 56
Phân tích phương sai hai nhân tố (tự đọc)
Mục lục
V. H. Hoang ANOVA 35 / 56
Phân tích phương sai hai nhân tố (tự đọc)
V. H. Hoang ANOVA 36 / 56
Phân tích phương sai hai nhân tố (tự đọc)
Bài toán ANOVA hai nhân tố được biểu diễn theo mô hình thống kê tuyến tính như sau:
(
i = 1, 2, . . . , a
Yij = µ + τi + βj + ij . (18)
j = 1, 2, . . . , b
với µ là trung bình chung, τi là ảnh hưởng của phương thức xử lý thứ i (của nhân tố A),
βj là ảnh hưởng của khối thứ j (của nhân tố B); ij là thành phần sai số.
Các giả định:
Tổng thể có phân phối chuẩn,
Tổng thể có phương sai bằng nhau,
Mẫu ngẫu nhiên được chọn độc lập.
V. H. Hoang ANOVA 37 / 56
Phân tích phương sai hai nhân tố (tự đọc)
Đối với bài toán ANOVA 2 nhân tố, ta sử dụng phương pháp thiết kế gọi là Thiết kế
khối ngẫu nhiên đầy đủ (Randomized complete block design). Phương pháp là chọn
b khối (block) ứng với b mức của nhân tố B và lặp lại thí nghiệm đầy đủ với a mức
tương ứng của nhân tố A. Như vậy sẽ có a quan trắc ứng với mỗi khối, với thứ tự
chọn một cách ngẫu nhiên bên trong khối đó. Mô tả phương pháp như hình vẽ bên
dưới:
V. H. Hoang ANOVA 38 / 56
Phân tích phương sai hai nhân tố (tự đọc)
V. H. Hoang ANOVA 39 / 56
Phân tích phương sai hai nhân tố (tự đọc)
V. H. Hoang ANOVA 40 / 56
Phân tích phương sai hai nhân tố (tự đọc)
V. H. Hoang ANOVA 41 / 56
Phân tích phương sai hai nhân tố (tự đọc)
Các trung bình bình phương được định nghĩa như sau:
SST
MST = , (23)
ab − 1
SSG
MSG = , (24)
a−1
SSB
MSB = , (25)
b−1
SSE
MSE = . (26)
(a − 1)(b − 1)
V. H. Hoang ANOVA 42 / 56
Phân tích phương sai hai nhân tố (tự đọc)
V. H. Hoang ANOVA 43 / 56
Phân tích phương sai hai nhân tố (tự đọc)
V. H. Hoang ANOVA 44 / 56
Phân tích phương sai hai nhân tố (tự đọc)
V. H. Hoang ANOVA 45 / 56
Phân tích phương sai hai nhân tố (tự đọc)
Một thiết kế ANOVA 2 chiều có nhiều hơn một quan trắc trong mỗi ô làm tăng
nguồn gây ra sự biến thiên.
Xuất hiện tương tác giữa các nhóm và các khối: như vậy sự tương tác giữa hai nhân
tố chỉ có thể xác định được khi số quan trắc trong 1 ô > 1.
Gọi
a = số nhóm (nhân tố A),
b = số khối (nhân tố B),
n = số quan trắc trong mỗi ô,
N = abn = tổng số quan trắc ứng với ab ô.
Mô hình được biểu diễn như sau
i
= 1, 2, . . . , a
Yijk = µ + τi + βj + (τ β)ij + ijk j = 1, 2, . . . , b (31)
k = 1, 2, . . . , n
V. H. Hoang ANOVA 46 / 56
Phân tích phương sai hai nhân tố (tự đọc)
V. H. Hoang ANOVA 47 / 56
Phân tích phương sai hai nhân tố (tự đọc)
V. H. Hoang ANOVA 48 / 56
Phân tích phương sai hai nhân tố (tự đọc)
Các ký hiệu
V. H. Hoang ANOVA 49 / 56
Phân tích phương sai hai nhân tố (tự đọc)
a X
X b X
n
Toàn phần : SST = (yijk − ȳ··· )2 , (32)
i=1 j=1 k=1
a
X
Giữa các nhóm : SSG = bn (ȳi·· − ȳ··· )2 , (33)
j=1
b
X
Giữa các khối : SSB = an (ȳ·j· − ȳ··· )2 , (34)
j=1
a X
X b
Tương tác : SSI = n (ȳij· − ȳi·· − ȳ·j· + ȳ··· )2 . (35)
i=1 j=1
V. H. Hoang ANOVA 50 / 56
Phân tích phương sai hai nhân tố (tự đọc)
Các trung bình bình phương được định nghĩa như sau:
SST
MST = , (36)
abn − 1
SSG
MSG = , (37)
a−1
SSB
MSB = , (38)
b−1
SSI
MSI = , (39)
(a − 1)(b − 1)
SSE
MSE = . (40)
ab(n − 1)
V. H. Hoang ANOVA 51 / 56
Phân tích phương sai hai nhân tố (tự đọc)
V. H. Hoang ANOVA 52 / 56
Phân tích phương sai hai nhân tố (tự đọc)
V. H. Hoang ANOVA 53 / 56
Phân tích phương sai hai nhân tố (tự đọc)
V. H. Hoang ANOVA 54 / 56
Phân tích phương sai hai nhân tố (tự đọc)
V. H. Hoang ANOVA 55 / 56
Phân tích phương sai hai nhân tố (tự đọc)
Ví dụ về tương tác
V. H. Hoang ANOVA 56 / 56