You are on page 1of 10

HCMUT CNCP XÁC SUẤT THỐNG KÊ NGUYỄN QUỐC VƯƠNG

Phân Tích Phương Sai


1. Định nghĩa phân tích phương sai
Phương tích phương sai là một mô hình dùng để xem xét sự biến động của một biến
ngẫu nhiên định lượng X chịu tác động trực tiếp của một hay nhiều yếu tố nguyên
nhân (định tính). Giải nghĩa: Là bài toán so sánh trung bình các nhóm (tổng thể) dựa
vào khảo xác các mẫu, xem thử giá trung trung bình của các nhóm có khác nhau hay
không hoặc trung bình nhóm là lớn nhất, nhỏ nhất?
Lưu ý, chỉ học phân tích phân sai một yếu tố
Ví dụ 1: Khi theo dõi tác động của điều kiện thời gian chiếu sáng đến sự sinh trưởng
của 1 loại cây non, người ta gieo trồng cùng 1 loại hạt giống trong 3 điều kiện A, B, C
có thời gian chiếu sáng trong ngày khác nhau và thu được số liệu mẫu sau:
Thời gian chiếu Chiều cao của cây (cm)
sáng
A (>12 giờ) 48 51 57 62 59 55
B (từ 8-10 giờ) 46 42 45 50 47 51
C(<8 giờ) 44 55 53 56 54
Bài toán sẽ được đặt ra:
- Thời gian chiếu sáng có ảnh hưởng đến chiều cao của cây non hay không?
- Trong các điều kiện trên điều kiện nào giúp cây con sinh trưởng mạnh nhất?
Lưu ý, chỉ thực hiện phân tích phân sai một yếu tố Anova (so sánh trung bình) cho k
tổng thể nếu các tổng thể này có phân phối chuẩn, phương sai tổng thể bằng nhau và
các mẫu là độc lập
2. Bài toán phân tích phương sai (phân tích Anova)
Bài toán: Cho k tổng thể có phân phối chuẩn có phương sai bằng nhau 𝑁(𝜇𝑖 , 𝜎𝑖2 )
𝑖 = 1,2,3, … 𝑘 (𝑡ℎườ𝑛𝑔 𝑘 ≥ 3)

XEM TÀI LIỆU TẠI BACHKHOACNCP.COM KHÓA HỌC XÁC SUẤT THỐNG KÊ 1
HCMUT CNCP XÁC SUẤT THỐNG KÊ NGUYỄN QUỐC VƯƠNG

Khảo xác k mẫu ta có


Mẫu 1 Mẫu 2 Mẫu 3 … Mẫu k
Mẫu quan 𝑥11 , 𝑥21 , …, 𝑥12 , 𝑥22 , …, 𝑥13 , 𝑥23 , …, 𝑥1𝑘 , 𝑥2𝑘 , …,
sát được
𝑥𝑛1;1 𝑥𝑛2;2 𝑥𝑛3;3 𝑥𝑛𝑘;𝑘
Kích thước 𝑛1 𝑛2 𝑛3 … 𝑛𝑘
Trung bình 𝑥̅1 𝑥2
̅̅̅ 𝑥3
̅̅̅ … 𝑥𝑘
̅̅̅
từng mẫu
Kích thước 𝑁 = 𝑛1 + 𝑛2 + 𝑛3 + ⋯ + 𝑛𝑘
mẫu gộp

Step 1:Giả thuyết kiểm định


 𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘
 𝐻1 : ∃𝜇𝑖 ≠ 𝜇𝑗 (tồn tại ít nhất 1 cặp trung bình tổng thể khác nhau)
Step 2: Miền bác bỏ 𝐻0
𝑅𝑅 = ((𝑓𝛼 𝑘 − 1; 𝑁 − 𝑘 ); +∞)
Xác định 𝑓𝛼 𝑘 − 1; 𝑁 − 𝑘 bằng các tra bảng fisher với mức ý nghĩa 𝛼, cột 𝑘 − 1 và
hàng 𝑁 − 𝑘
Step 3: Tính tiêu chuẩn kiểm định 𝐹
Source of Tổng bình Bậc tự Phương sai Tiêu chuẩn
groups phương chêch do kiểm định 𝐹
lệch
Between SSB (sstr) k-1 𝑆𝑆𝐵 𝑀𝑆𝐵
𝑀𝑆𝐵 = 𝐹=
groups 𝑘−1 𝑀𝑆𝑊
Within groups SSW (sse) N-k 𝑆𝑆𝑊
𝑀𝑆𝑊 =
𝑁−𝑘
Total SST N-1 N là kích thước mẫu
gộp, k là số mẫu
khảo xác

XEM TÀI LIỆU TẠI BACHKHOACNCP.COM KHÓA HỌC XÁC SUẤT THỐNG KÊ 2
HCMUT CNCP XÁC SUẤT THỐNG KÊ NGUYỄN QUỐC VƯƠNG

Tính toán:
 Trung bình chung của k mẫu

∑𝑖=𝑘,𝑗=𝑛
𝑖,𝑗=1
𝑘
𝑥𝑖𝑗
𝑥̅ =
𝑁
 Tính chêch lệch bình phương giữa các nhóm SSB (hay SSG hoặc SSTr)
𝑘

𝑆𝑆𝐵 = ∑ 𝑛𝑖 (𝑥̅𝑖 − 𝑥̅ )2 = 𝑛1 (𝑥̅1 − 𝑥̅ )2 + 𝑛2 (̅̅̅


𝑥2 − 𝑥̅ )2 + ⋯ + 𝑛𝑘 (̅̅̅
𝑥𝑘 − 𝑥̅ )2
𝑖=1

 Tính tổng chêch lệch bình phương trong nội bộ mẫu SSW (hay SSE)
Mẫu 1 Mẫu 2 … Mẫu k
𝑘 𝑘 … 𝑘
2 2 2
𝑆𝑆1 = ∑(𝑥1𝑗 − 𝑥̅1 ) 𝑆𝑆2 = ∑(𝑥2𝑗 − ̅̅̅)
𝑥2 𝑆𝑆𝑘 = ∑(𝑥𝑘𝑗 − ̅̅̅)
𝑥𝑘
𝑖=1 𝑖=1 𝑖=1

Bấm máy: Bấm máy: Bấm máy:


𝑆𝑆1 = 𝑠12 . (𝑛1 − 1) 𝑆𝑆2 = 𝑠22 . (𝑛2 − 1) 𝑆𝑆𝑘 = 𝑠𝑘2 . (𝑛𝑘 − 1)
𝑆𝑆𝑊 = 𝑆𝑆1 + 𝑆𝑆2 + ⋯ + 𝑆𝑆𝑘
 Tính tổng chêch lệch bình phương toàn bộ SST
𝑖=𝑘,𝑗=𝑛𝑘
2
𝑆𝑆𝑇 = ∑ (𝑥𝑖𝑗 − 𝑥̅ )
𝑖,𝑗=1

Mối quan hệ giữa SSB, SSW, SST


𝑆𝑆𝑇 = 𝑆𝑆𝑊 + 𝑆𝑆𝐺
 Tính phương sai giữa các nhóm
𝑆𝑆𝐵
𝑀𝑆𝐵 =
𝑘−1
 Tính phương sai trong nội bộ nhóm
𝑆𝑆𝑊
𝑀𝑆𝑊 =
𝑁−𝑘

XEM TÀI LIỆU TẠI BACHKHOACNCP.COM KHÓA HỌC XÁC SUẤT THỐNG KÊ 3
HCMUT CNCP XÁC SUẤT THỐNG KÊ NGUYỄN QUỐC VƯƠNG

 Tính phương sai toàn bộ


𝑆𝑆𝑇
𝑀𝑆𝑇 =
𝑁−1
 Tính tiêu chuẩn kiểm định 𝐹
𝑀𝑆𝐵
𝐹=
𝑀𝑆𝑊
 Hệ số xác định
𝑆𝑆𝐵
𝑅2 = 𝑥100%
𝑆𝑆𝑇
Step 4: Kết luận
- Nếu F ∈ 𝑅𝑅 thì ta có thể bác bỏ giả thuyết 𝐻𝑜 , chấp nhận giả thuyết 𝐻1
- Nếu 𝐹 ∉ 𝑅𝑅 thì ta không bác bỏ ý kiến 𝐻𝑜 (chưa có đủ bằng chứng để bác
bỏ 𝐻𝑜 )
Ví dụ 2: Khi theo dõi tác động của điều kiện thời gian chiếu sáng đến sự sinh trưởng
của 1 loại cây non, người ta gieo trồng cùng 1 loại hạt giống trong 3 điều kiện A, B, C
có thời gian chiếu sáng trong ngày khác nhau và thu được số liệu mẫu sau:
Thời gian Chiều cao của cây (cm)
chiếu
sáng
A (>12 48 51 57 62 59 55
giờ)
B (từ 8-10 46 42 45 50 47 51
giờ)
C(<8 giờ) 44 55 53 56 54
Hãy dùng phương pháp Anova để so sánh chiều cao trung bình của các cây con trong
3 điều kiện ngoại cảnh trên với mức ý nghĩa 5%. (biết rằng các tổng thể độc lập, có
phân phối chuẩn và phương sai bằng nhau)
Bài giải mẫu
Gọi 𝜇1 , 𝜇2 , 𝜇3 lần lượt là chiều cao trung bình của các cây con được trồng trong các
điều kiện A; B; C.
Giả thuyết kiểm định

XEM TÀI LIỆU TẠI BACHKHOACNCP.COM KHÓA HỌC XÁC SUẤT THỐNG KÊ 4
HCMUT CNCP XÁC SUẤT THỐNG KÊ NGUYỄN QUỐC VƯƠNG

 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3
 𝐻1 : ∃𝜇𝑖 ≠ 𝜇𝑗 (tồn tại ít nhất 1 cặp trung bình tổng thể khác nhau)
Miền bác bỏ 𝐻0
𝑅𝑅 = ((𝑓𝛼 𝑘 − 1; 𝑁 − 𝑘 ); +∞) 𝑣ớ𝑖 𝑘 = 3, 𝑁 = 17, 𝛼 = 5%
 𝑅𝑅 = ((𝑓0.05 2; 14); +∞) = (3,74; +∞) (tra bảng fisher)
Ta có:
𝑖=𝑘,𝑗=𝑛𝑘
∑𝑖,𝑗=1 𝑥𝑖𝑗 48+51+57+62+⋯+53+56+64
 𝑥̅ = = = 51,47
𝑁 17
48+51+57+62+59+55
 𝑥̅1 = = 55,33
6
46+42+45+50+57+51
 ̅̅̅
𝑥2 = = 46,83
6
44+55+53+56+54
 ̅̅̅
𝑥3 = = 52,4
6

Tính SSB
3

𝑆𝑆𝐵 = ∑ 𝑛𝑖 (𝑥̅𝑖 − 𝑥̅ )2
𝑖=1
= 6(55,33 − 51,47)2 + 6(46,83 − 51,47)2 + 5(52,4 − 51,47)2
= 222,87

Tính SSW
2
 𝑆𝑆1 = ∑𝑘𝑖=1(𝑥1𝑗 − 𝑥̅1 ) = (48 − 55,33)2 + (51 − 55,33)2 + ⋯ +
(55 − 55,33)2
2
 𝑆𝑆2 = ∑𝑘𝑖=1(𝑥1𝑗 − 𝑥̅1 ) = (46 − 46,83)2 + (42 − 46,83)2 + ⋯ +
(51 − 46,83)2
2
 𝑆𝑆3 = ∑𝑘𝑖=1(𝑥1𝑗 − 𝑥̅1 ) = (44 − 52,4)2 + (55 − 52,4)2 + ⋯ + (54 − 52,4)2
 𝑆𝑆𝑊 = 𝑆𝑆1 + 𝑆𝑆2 + 𝑆𝑆3 = 281,37
Tính tổng chêch lệch bình phương toàn bộ SST
𝑖=𝑘,𝑗=𝑛𝑘
2
𝑆𝑆𝑇 = ∑ (𝑥𝑖𝑗 − 𝑥̅ ) = 𝑆𝑆𝐵 + 𝑆𝑆𝑊 = 504.24
𝑖,𝑗=1

XEM TÀI LIỆU TẠI BACHKHOACNCP.COM KHÓA HỌC XÁC SUẤT THỐNG KÊ 5
HCMUT CNCP XÁC SUẤT THỐNG KÊ NGUYỄN QUỐC VƯƠNG

Source of Tổng bình Bậc tự do Phương sai Tiêu chuẩn kiểm


groups phương chêch định
lệch
Between SSB = 222,87 k-1=3-1 𝑆𝑆𝐵 𝑀𝑆𝐵
𝑀𝑆𝐵 = 𝐹= = 5,54
groups 𝑘−1 𝑀𝑆𝑊
= 111,4
Within SSW = 281,37 N-k=17- 𝑆𝑆𝑊
𝑀𝑆𝑊 =
groups 3 𝑁−𝑘
= 20.1
Total SST = 504.24 N-1=17- N là kích thước mẫu
1 gộp, k là số mẫu khảo
xác
Kết luận:
Vì 𝐹 ∈ 𝑅𝑅 nên ta bác bỏ 𝐻0 có nghĩa là chiều cao trung bình của các cây con được
trồng trong các điều kiện A; B; C có khác nhau.
3. Phân tích sâu Anova một yếu tố
Khi kết luận cho bài toán Anova, có 2 trường hợp xảy ra:
+ Chưa bác bỏ được giả thiết H0 , hay là chưa có bằng chứng về sự khác biệt của các
trung bình.
+ Bác bỏ 𝐻0 , chấp nhận 𝐻1  Trung bình của các nhóm không bằng nhau (hay là sự
khác biệt có ý nghĩa thống kê). Nói chung thì chúng ta không biết được sự khác biệt
đó là từ một hay từ những nhóm nào. Do đó ta có thể muốn phân tích thêm: nhóm nào
đó có trung bình lớn hơn, bằng, hay nhỏ hơn so với những nhóm khác? Để làm được
điều đó chúng ta sẽ học 2 phương pháp
 LSD test
 Dùng các khoảng tin cậy (LSD confidence intervals)
3.1 LSD test
Ta phải kiểm tra từng cặp mẫu theo quy trình sau (𝐶𝑘2 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝)
Giả thuyết
 𝐻0 : 𝜇𝑖 = 𝜇𝑗
 𝐻1 : 𝜇𝑖 ≠ 𝜇𝑗

XEM TÀI LIỆU TẠI BACHKHOACNCP.COM KHÓA HỌC XÁC SUẤT THỐNG KÊ 6
HCMUT CNCP XÁC SUẤT THỐNG KÊ NGUYỄN QUỐC VƯƠNG

Giả thuyế 𝐻0 được bác bỏ nếu |𝑥̅𝑖 − 𝑥̅𝑗 | > 𝐿𝑆𝐷𝑖;𝑗 với
𝑡𝛼 1 1
𝐿𝑆𝐷𝑖;𝑗 = ; (𝑁 − 𝑘) ∗ √𝑀𝑆𝑊( + ) (gọi là giá trị thống kê kiểm định)
2 𝑛𝑖 𝑛𝑗

𝑡𝛼 𝛼
Cách tính: ; (𝑁 − 𝑘 ): Tra bảng student tại cột và hàng N-k
2 2

𝑡𝛼 2𝑀𝑆𝑊
Thường bài toán sẽ cho 𝑛𝑖 = 𝑛𝑗 = 𝑛 thì 𝐿𝑆𝐷𝑖;𝑗 = ; (𝑁 − 𝑘 )√
2 𝑛

Kết luận:
 |𝑥̅𝑖 − 𝑥̅𝑗 | > 𝐿𝑆𝐷𝑖;𝑗 thì bác bỏ 𝐻0 có nghĩa là 𝜇𝑖 ≠ 𝜇𝑗
o 𝑥̅𝑖 > 𝑥̅𝑗 kết luận 𝜇𝑖 > 𝜇𝑗
o 𝑥̅𝑖 < 𝑥̅𝑗 kết luận 𝜇𝑖 < 𝜇𝑗
 |𝑥̅𝑖 − 𝑥̅𝑗 | ≤ 𝐿𝑆𝐷𝑖;𝑗 thì công nhận 𝜇𝑖 = 𝜇𝑗
3.2 Khoảng ước lượng LSD với độ tin cậy 1-
Ta phải kiểm tra từng cặp mẫu theo quy trình sau (𝐶𝑘2 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝)
Xác định khoảng ước lượng LSD cho độ chênh lệch (𝜇𝑖 − 𝜇𝑗 ):
(𝑥̅𝑖 − 𝑥̅𝑗 ) ± 𝐿𝑆𝐷𝑖;𝑗

𝑡𝛼 2𝑀𝑆𝑊
Với giá trị thống kê kiểm định 𝐿𝑆𝐷𝑖;𝑗 = ; ( 𝑁 − 𝑘 )√
2 𝑛

Kết luận
 Nếu khoảng ước lượng không chứa số 0 thì kết luận 𝜇𝑖 = 𝜇𝑗
 Nếu khoảng ước lượng không chứa số 0 thì ta nói có sự khác biệt giữa hai giá trị trung
bình 𝜇𝑖 và 𝜇𝑗
o (𝑥̅𝑖 − 𝑥̅𝑗 ) ± 𝐿𝑆𝐷𝑖;𝑗 < 0: 𝜇𝑖 < 𝜇𝑗
o (𝑥̅𝑖 − 𝑥̅𝑗 ) ± 𝐿𝑆𝐷𝑖;𝑗 > 0: 𝜇𝑖 > 𝜇𝑗
Ví dụ 3: Xét ví dụ 2, so sánh trung bình tổng thể của 𝜇1 và 𝜇2 bằng 2 cách LSD test
và khoảng ước lượng LSD với độ tin cậy 1-
Ta tính giá trị kiểm định thống kê:
𝑡0.05 1 1
𝐿𝑆𝐷1;2 = ; (17 − 3)√20,1( + ) = 5,55
2 6 6

Cách 1: Dùng LSD test


Giả thuyết
XEM TÀI LIỆU TẠI BACHKHOACNCP.COM KHÓA HỌC XÁC SUẤT THỐNG KÊ 7
HCMUT CNCP XÁC SUẤT THỐNG KÊ NGUYỄN QUỐC VƯƠNG

 𝐻0 : 𝜇𝑖 = 𝜇𝑗
 𝐻1 : 𝜇𝑖 ≠ 𝜇𝑗
Ta tính giá trị kiểm định thống kê
𝐿𝑆𝐷1;2 = 5,55
Kết luận:
 |𝑥̅1 − ̅̅̅|
𝑥2 = 8,5 > 𝐿𝑆𝐷1;2 = 5,55 thì bác bỏ 𝐻0 có nghĩa là 𝜇1 ≠ 𝜇2
 Mà 𝑥̅1 > ̅̅̅𝑥2 kết luận 𝜇1 > 𝜇2
Cách 2: Khoảng ước lượng LSD với độ tin cậy 1-
Xác định khoảng ước lượng LSD cho độ chênh lệch (𝜇1 − 𝜇2 ):
(𝑥̅1 − ̅̅̅)
𝑥2 ± 𝐿𝑆𝐷1;2

𝑡0.05 1 1
Với giá trị thống kê kiểm định 𝐿𝑆𝐷1;2 = ; (17 − 3)√20,1( + ) = 5,55
2 6 6

Vậy khoảng độ chêch lệch (𝜇1 − 𝜇2 ) là


(𝑥̅1 − ̅̅̅
𝑥2 ) ± 𝐿𝑆𝐷1;2 = (2,95; 14,05)
Kết luận
 Nếu khoảng ước lượng không chứa số 0 thì ta nói có sự khác biệt giữa hai giá
trị trung bình 𝜇1 và 𝜇2
 (𝑥̅1 − ̅̅̅
𝑥2 ) ± 𝐿𝑆𝐷1;2 = (2,95; 14,05) > 0 𝑛ê𝑛 𝜇1 > 𝜇2
Nhận xét: Qua 2 cách làm thì đều cho ra cùng một kết quả 𝜇1 > 𝜇2 nên tùy vào yêu cầu
đề mà ta sẽ sử dụng cách nào phù hợp
Ví dụ 4 (đề thi 212): Hãy sử dụng phương pháp Anova để so sánh chiều cao các cây
thông ba lá ở 3 khu vực rừng khác nhau, các số liệu được lấy ở những cây thông đã 6
năm tuổi. Nêu kết luận với mức ý nghĩa 1%.

Xem như các giả thiết của bài toán Anova được thỏa mãn.

XEM TÀI LIỆU TẠI BACHKHOACNCP.COM KHÓA HỌC XÁC SUẤT THỐNG KÊ 8
HCMUT CNCP XÁC SUẤT THỐNG KÊ NGUYỄN QUỐC VƯƠNG

Ví dụ 5: Hãy sử dụng phương pháp Anova để so sánh chất lượng không khí ở thành phố
Hồ Chí Minh trong 3 năm liên tiếp, với số liệu được lấy trong 3 tháng đầu của mỗi năm.
Nêu kết luận với mức ý nghĩa 5%.

 ảng đều có số liệu nhưng đã được ẩn đi.


 𝑠 2 còn được gọi là phương sai mẫu hiệu chỉnh.
Xem như các giả thiết của bài toán Anova được thỏa mãn.
MỘT SỐ CÂU TRONG ĐỀ THI

XEM TÀI LIỆU TẠI BACHKHOACNCP.COM KHÓA HỌC XÁC SUẤT THỐNG KÊ 9
HCMUT CNCP XÁC SUẤT THỐNG KÊ NGUYỄN QUỐC VƯƠNG

XEM TÀI LIỆU TẠI BACHKHOACNCP.COM KHÓA HỌC XÁC SUẤT THỐNG KÊ 10

You might also like