Professional Documents
Culture Documents
LỚP: DT-09
NHÓM: 08
GIÁO VIÊN HƯỚNG DẪN: Cô Nguyễn Kiều Dung
Danh sách thành viên
STT HỌ VÀ TÊN MSSV LỚP
Dữ liệu B: Khảo sát sự phân ngành sinh viên K16 Khoa Điện-Điện tử Trường Đại
học Bách Khoa thành phố Hồ Chí Minh
(Nguồn:http://dee.hcmut.edu.vn/index.php?route=product%2Fproduct&product_id
=873).
Chọn h=10
Ta xác định được cận trên cận dưới của mỗi tổ:
Tổ 1: 17 - 27
Tổ 2: 27 - 37
Tổ 3: 37 - 47
Tổ 4: 47 – 58
Nhập các giá trị 27 37 47 58 vào các ô từ A9 đến A12.
Chọn chức năng Data/ Data Analysis/ Histogram
+ Input Range: địa chỉ chứa dữ liệu.
+ Bin Range: địa chỉ chứa bảng phân tổ.
+ Output Option: vị trí xuất kết quả.
+ Chọn Cumalative Percentage để tính tần số tích lũy.
2. Vẽ biểu đồ histogram ( biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu
đồ mật độ với dữ liệu (A).
Biểu đồ phân bố tần số:
+ Quét chọn bảng tần số.
+ Dùng chức năng Insert Column Chart trên Menu Insert
Kết quả: Do dữ liệu là định lượng, ta có thể chỉnh sửa như sau.
3. Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát
với độ tin cậy 95% với dữ liệu (A).
Các đặc trưng của mẫu:
+ Nhập dữ liệu theo cột.
+ Sử dụng chức đăng Data/ Data Analysis/ Descriptive Statistics
+ Input Range: địa chỉ chứa dữ liệu.
+ Output Options: địa chỉ xuất kết quả.
+ Confidence Level for Means: độ tin cậy.
Kết quả:
Ước lượng thời gian trung bình hoàn thành 1 vòng đua dò line (độ tin cậy 95%).
Cơ sở lý thuyết: Ước lượng khoảng tin cậy chính là tìm ra khoảng ước lượng
(G1,G2) cho tham số 𝜃 trong tổng thể sao cho ứng với độ tin cậy (confidence)
bằng (1-α) cho trước, P(G1< θ < G2) = (1-α).Hàm ước lượng:
+ a=E(x)=𝑥̅
𝑠
+ ε = zα.
√𝑛
+ (𝑥̅ ± ε)
Khoảng ước lượng thời gian hoàn thành vòng đua:
- Gọi X (s) là thời gian hoàn thành vòng đua lò line.
- Các đặc trưng của mẫu (đã tính ở trên): n=40 a=34.95 s=11.2112
- Độ tin cậy 1-α=95% => zα=1.96
𝑠
- Độ chính xác của khoảng ƯL ε = zα. = 3.4743
√𝑛
- Khoảng ước lượng cho X: (𝑥̅ – ε, 𝑥̅ + ε) = (31.4747;38,4243).
4. Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
Cơ sở lý thuyết: Dữ liệu đinh tính dạng phân loại là một tình huống thường gặp
trong thông kê, để tóm tắt thông tin của dữ liệu định tín nói chung, ngoài dùng
bảng tần số, chúng ta có thể sử dụng các phương pháp trình bày dữ liệu định tính
dạng phân loại bằng 3 dạng đồ thị cơ bản: đồ thị thanh đứng, đồ thị thanh ngang và
đồ thị hình tròn.
+ Nhập dữ liệu+tính tỷ lệ cho từng yếu tố:
Kết luận: Chấp nhận H0 mẫu phù hợp phân phối chuẩn.
Bài 2:
Điểm đánh giá của 20 người dùng thử về 2 loại sản phẩm đậu phộng trước và
sau cải tiến được thu thập trên thang điểm 10 như sau:
Trước cải tiến 7 8 6 8 7 7 7 6 8 6
Sau cải tiến 7 9 5 9 5 6 8 7 8 7
Trước cải tiến 6 9 6 4 6 7 8 5 4 3
Sau cải tiến 8 8 8 7 6 7 7 6 7 6
Hãy cho biết hiệu quả của việc cải tiến sản phẩm với mức ý nghĩa 6%. Tìm
thêm giá trị P trong kiểm định
BÀI LÀM:
Dạng bài: Bài toán kiểm định giá trị trung bình dữ liệu tương ứng từng cặp
Công cụ: t-Test Paired Two Sample for Means
Cơ sở lý thuyết:
Trong trường hợp hai mẫu nhỏ (N < 30) phụ thuộc (thí dụ: kết quả của một nhóm
chuột được xét nghiệm máu hai lần – trước và sau khi uống thuốc – hay một nhóm
bệnh nhân trải qua hai thí nghiệm – được thử thuốc trên tay này và giả dược trên kia)
và không giả định rằng phương sai của hai mẫu bằng nhau, ta có thể áp dụng trắc
nghiệm Tqs để so sánh giá trị trung bình của hai mẫu dữ liệu tương ứng từng cặp.
- Giả thiết
Trắc nghiệm 2 bên
H0 : a 1 = a 2
H1 : a 1 ≠ a 2
Trắc nghiệm bên phải
H0 : a 1 = a 2
H1 : a 1 > a 2
Trắc nghiệm bên trái
H0 : a 1 = a 2
H1 : a 1 < a 2
Di = Xi – Yi (i = 1, 2, …N)
N
D i
D i 1
N
N
( D D) i
2
SD i 1
( N 1)
D
Tqs
SD / N
- Biện luận
Nếu Tqs ∈ Wα thì bác bỏ giả thiết H0, chấp nhận giả thiết H1
Nếu Tqs ∉ Wα thì tạm chấp nhận giả thiết H0.
- Giá trị P
Nếu P < 𝛼 ⇔ Tqs ∈ Wα ⇒ Bác bỏ giả thiết H0, chấp nhận giả thiết H1.
Nếu P > 𝛼 ⇔ Tqs ∉ Wα ⇒ Tạm chấp nhận giả thiết H0.
Thực hiện bài toán bằng excel
Bước 1: Nhập dữ liệu vào máy tính
Bước 2: Vào Data/ Data Analysis/ t-Test: Paired Two Sample for Mean
Bước 3: Chọn các mục như hình
+ Variable 1 Range (Phạm vi của dữ liệu 1)
+ Variable 2 Range (Phạm vi của dữ liệu 2)
+ Hypothesized Mean Difference (Sai biệt giữa hai giá trị trung bình ước
tính)
+ Labels (Nhãn dữ liệu)
+ Alpha (Mức ý nghĩa 𝛼)
+ Output Range (Vị Trí xuất dữ liệu)
Kết quả
Biện luận
- Giả thiết kiểm định H0: a1 = a2 “Việc cải tiến sản phẩm không hiệu quả hơn”
- Giả thiết đối H1: a1 < a2 “Việc cải tiến sản phẩm có hiệu quả hơn”
- Tqs = -1,9898
- Miền bác bỏ Wα = (−∞ ; -1,6280)
⇒ Ta thấy Tqs = -1,9898 ∈ Wα ⇒ Bác bỏ giả thiết H0, chấp nhận giả thiết H1.
Vậy ta kết luận “Việc cải tiến sản phẩm có hiệu quả hơn”
Kiểm định bằng giá trị P
Ta thấy P = 0,0306 < 𝛼 = 0,06 ⇒ Bác bỏ giả thiết H0, chấp nhận giả thiết H1
Vậy ta kết luận “Việc cải tiến sản phẩm có hiệu quả hơn”
Bài 3:
Hàm lượng saponin (mg) của cùng một loại dược liệu được thu hái mùa (khô và
mưa: trong mỗi mùa lấy mẫu ba lần - đầu. giữa và cuối) và từ ba miền (nam. trung
và bắc) được tóm tắt như sau:
Mùa Miền
Thời điểm Nam Trung Bắc
Đầu mùa 2.4 2.1 3.2
Mùa khô Giữa mùa 2.3 2.2 3.2
Cuối mùa 2.5 2.3 3.4
Đầu mùa 2.4 2.2 3.3
Mùa mưa Giữa mùa 2.5 2.1 3.5
Cuối mùa 2.7 2.3 3.4
Hãy cho biết hàm lượng saponin có khác nhau theo mùa hay miền? Hai yếu tố mùa
và miền có sự tương tác với nhau hay không? Sử dụng mức ý nghĩa 2%.
BÀI LÀM:
Dạng bài: Phân tích phương sai hai yếu tố (có lặp)
Công cụ giải: Áp dụng “Anova: Two-Factor With Replication”
Cơ sở lý thuyết:
Để tăng chính xác khi kết luận về ảnh hưởng của 2 yếu tố nguyên nhân đến yếu
tố kết quả của mẫu cho 1 tổng thể, ta tăng cỡ mẫu quan sát trong điều kiện cho
phép. Gọi L là số quan sát trong ô ta có dạng tổng quát của L quan sát trong 1 ô
có dạng như sau:
Dòng Nhóm
(blocks) 1 2 … K
1ô
Có ba giả thuyết H0 trong trường hợp phân tích phương sai hai chiều nhiều quan
sát trong một ô tương ứng với ba tỉ số F (F1,F2 và F3).
Hai giả thuyết H0 tương ứng với tỉ số F1 và F2 :trung bình chỉ tiêu nghiên cứu
của chỉ tiêu theo cột và theo hàng thì bằng nhau.
Giả thuyết H0 tương ứng với tỉ số F3: không có sự ảnh hưởng qua lại giữa các chỉ
tiêu theo cột và hàng đến chỉ tiêu nghiên cứu.
𝑆𝑆𝑇 = ∑ ∑ ∑(𝑥𝑖𝑗𝑠 − 𝑥̅ )2
𝑖=1 𝑗=1 𝑠=1
2. Tổng các chênh lệch bình phương giữa các nhóm (between – groups):
𝐾
𝑆𝑆𝐺 = 𝐻𝐿 ∑(𝑥̅𝑖 − 𝑥̅ )2
𝑖=1
SSG phản ánh phần biến thiên của yếu tố định lượng kết quả đang nghiên cứu do
ảnh hưởng của yếu tố nguyên nhân thứ nhất, yếu tố dùng để phân nhóm ở cột.
3. Tổng các chênh lệch bình phương giữa các khối (between – blocks):
𝐻
2
𝑆𝑆𝐵 = 𝐾𝐿 ∑(𝑥̅𝑗 − 𝑥̅ )
𝑗=1
SSB phản ánh phần biến thiên của yếu tố định lượng kết quả đang nghiên cứu do
ảnh hưởng của yếu tố nguyên nhân thứ hai, yếu tố dùng để phân nhóm ở dòng.
4. Tổng các chênh lệch bình phương giữa các ô (giao nhau giữa các nhóm và khối):
𝐾 𝐻
2
𝑆𝑆𝐼 = 𝐿 ∑ ∑(𝑥̅𝑖𝑗 − 𝑥̅𝑖 − 𝑥̅𝑗 + 𝑥̅ )
𝑖=1 𝑗=1
SSI phản ánh phần biến thiên do tác động qua lại giữa hai yếu tố đang nghiên cứu.
5. Tổng các chênh lệch bình phương phần dư:
𝐾 𝐻 𝐿
𝑆𝑆𝐵
2. Phương sai giữa các khối: 𝑀𝑆𝐵 =
𝐻−1
𝑆𝑆𝐼
3. Phương sai giữa các ô: 𝑀𝑆𝐼 = (𝐾−1)×(𝐻−1)
𝑆𝑆𝐸
4. Phương sai dư: 𝑀𝑆𝐸 =
𝐾×𝐻×(𝐿−1)
Bước 4: Kiểm định giả thuyết về ảnh hưởng của yếu tố nguyên nhân thứ nhất(cột),
yếu tố nguyên nhân thứ hai (dòng), tương tác giữa hai yếu tố đến yếu tố kết quả
bằng các tỉ số F:
𝑀𝑆𝐺 𝑀𝑆𝐵 𝑀𝑆𝐼
𝐹1 = 𝐹2 = 𝐹3 =
𝑀𝑆𝐸 𝑀𝑆𝐸 𝑀𝑆𝐸
Bước 5: Nguyên tắc quyết định trong ANOVA hai yếu tố:
1. Đối với F1 ở mức ý nghĩa α, giả thuyết H0 cho rằng trung bình của k tổng thể theo
yếu tố nguyên nhân thứ nhất (cột) bằng nhau bị bác bỏ khi:
F1 > 𝐹(𝐾−1).𝐾𝐻(𝐿−1),𝛼
2. Đối với F2 ở mức ý nghĩa α, giả thuyết H0 cho rằng trung bình của H tổng thể theo
yếu tố nguyên nhân thứ hai (dòng) bằng nhau bị bác bỏ khi:
F2 > 𝐹(𝐻−1).𝐾𝐻(𝐿−1),𝛼
3. Đối với F3 ở mức ý nghĩa α, , giả thuyết H0 cho rằng không có tác động qua lại giữa
yếu tố thứ nhất (cột) và yếu tố thứ hai (dòng) bị bác bỏ khi:
F3 > 𝐹(𝐾−1)(𝐻−1).𝐾𝐻(𝐿−1),𝛼
Trong đó:
𝐹(𝐾−1).𝐾𝐻(𝐿−1),𝛼 là giá trị tra trong bảng phân phối F với K-1 bậc tự do ở tử số và
KH(L-1) bậc tự do ở mẫu số.
𝐹(𝐻−1).𝐾𝐻(𝐿−1),𝛼 là giá trị tra trong bảng phân phối F với H-1 bậc tự do ở tử số và
KH(L-1) bậc tự do ở mẫu số.
𝐹(𝐾−1)(𝐻−1).𝐾𝐻(𝐿−1),𝛼 là giá trị tra trong bảng phân phối F với (K-1)(H-1) bậc tự do
ở tử số và KH(L-1) bậc tự do ở mẫu số.
H1: hàm lượng saponin (mg) của cùng một loại dược liệu được thu hái theo miền
(Columns) khác nhau đều bằng nhau
H2: hàm lượng saponin (mg) của cùng một loại dược liệu được thu hái theo mùa
(Sample) khác nhau đều bằng nhau
H3: không có sự tương tác giữa hai yếu tố mùa và miền đến hàm lượng Saponin
(Interactic)
Kết quả và biện luận:
F1 = 164.87 > F0.02 = 5.5163 Bác bỏ giả thuyết H1 (miền)
F2 = 2.78261 < F0.02 =7.18775 Chấp nhận giả thuyết H2 (mùa)
F3 = 0.69565 < F0.02 = 5.5163 Chấp nhận giả thuyết H3 (mùa × miền )
Vậy hàm lượng Saponin trong dược liệu được quan sát khác nhau theo miền, tạm chấp
nhận hàm lượng không có sự khác nhau theo mùa.
Không có sự tương tác giữa hai yếu tố mùa và miền trên hàm lượng ấy
Bài 4:
Khảo sát số người sử dụng lốp xe của 3 hãng Causumina, Kenda, DRC trong thời
gian khảo sát tại một cửa hàng ngẫu nhiên, lốp xe được phân loại theo loại xe.
Hãng của lốp xe
Loại xe
Causumina Kenda DRC
Xe đạp 42 36 58
Xe đạp điện 32 47 29
Xe gắn máy 51 63 49
Xe mô tô 23 34 14
Xe khác 79 92 64
Hãy nhận xét xem nhu cầu sử dụng lốp xe của 3 Hãng trên tại một cửa hàng ngẫu
nhiên có giống nhau không với mức ý nghĩa 1%?
BÀI LÀM
Dạng bài: Kiểm định tính độc lập
Phương pháp giải: Áp dụng Kiểm định chi bình phương 2.
Công cụ giải: hàm CHITEST trên Excel.
I. Cơ sở lý thuyết:
1. Khái niệm thống kê:
Đối với một thí nghiệm có hai kết quả (binomial experiment) - thí dụ, đối với
một thuốc được kê đơn: có hay không – bạn thường so sánh hai tỉ số với
nhau (thực nghiệm với lí thuyết hay thực nghiệm với thực nghiệm). Song đối với một
thí nghiệm có nhiều kết quả (multinomial experiment) – thí dụ, bác sĩ đánh giá
tình trạng của các bệnh nhân được điều trị bởi thuốc trong một khoảng thời gian – bạn
cần so sánh nhiều tỉ số. Trắc nghiệm “khi” bình phương (2) cho phép bạn so sánh
không những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc xác suất) một cách tiện lợi. 2 là
phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0. Giả sử bạn có một
công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k kết quả và mỗi
kết quả mang một trong các xác suất thực nghiệm là Pi (i = 1, 2, … k). Nếu gọi Pi,0 là
các giá trị lý thuyết tương ứng với Pi thì các tần số lí thuyết sẽ là Ei = NPi,0.
Điều kiện để áp dụng trắc nghiệm 2 một cách thành công là các tần số lí thuyết Ei
phải ≥ 5.
2. Giả thiết
H0: P1 = P1,0; P2 = P2,0; … ; Pk = Pk,0 “Các cặp Pi và Pi,0 giống nhau”.
H1 : “Ít nhất có một cặp Pi và Pi,0 khác nhau”.
k (Oij Eij ) 2
Giá trị thống kê: 2
i 1
Eij
Biện luận:
Nếu 2 2 Bác bỏ giả thuyết H0 (DF = k-1)
j 1 i 1 Eij
Nếu P(X >2) > α Chấp nhận giả thuyết H0 và ngược lại.
3. Giải thuật
- Tính các tổng số
- Tổng hàng (row totals)
- Tổng cột (column totals)
- Tổng cộng (grand total)
- Tính các tần số lý thuyết
- Tần số lý thuyết = tổng hàng x tổng cột / tổng cộng
II. Áp dụng Excel:
Bảng số liệu
Tính tổng hàng và tổng cột bằng cách dùng hàm SUM
Giả sử tính tổng hàng 3 là E3: =SUM(B3:D3)
(Nhấp vào ô E3 rồi nhập hàm SUM rồi kéo con trỏ từ B3 đến D3)
Giả sử tính tổng cột B là B8: =SUM(B3:B7)
(Nhấp vào ô B8 rồi nhập hàm SUM rồi kéo con trỏ từ B3 đến B7)
Tính các tần số lý thuyết: tần số lý thuyết = (Tổng hàng ×Tổng cột)/(Tổng
cộng):
Sử dụng hàm CHITEST tính xác suất P(X> 2 ):
Giả thiết H0: Phân bố tỉ lệ nhu cầu sử dụng của 3 hãng trên như nhau.
H1: Phân bố tỉ lệ nhu cầu sử dụng của 3 hãng trên khác nhau.
BÀI LÀM:
Bảng số liệu về thời gian thí nghiệm mạch điện tử với công suất tiêu thụ trên
tải được lấy ngẫu nhiên trên các thiết bị :
Công suấ t(W) 150 120 600 122 148 700 120 346 900 950
Hệ số tương quan:
xy x. y
R
sˆx .sˆy
Kết quả:
=> Ta có hệ số tương quan là R = 0.74871046 chứng tỏ giữa thời gian và công suất tiêu
thụ có quan hệ khá chặt chẽ và có tương quan thuận.
b) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước
lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
Cơ sở lý thuyết:
Giả thiết H0: X và Y không có tương quan tuyến tính:
r n2
T
1 r2
Thực hiện trên Excel:
Tính T: Chọn ô B9 và nhập biểu thức =B7*SQRT(10-2)/SQRT(1-B7^2)
Tính c: chọn ô B10 và nhập biểu thức =TINV(0.05,8) (c là phân vị mức α/2 =
0.025 của phân bố Student với n-2=8 bậc tự do).
Vì |T| > c nên bác bỏ giả thiết H0. Vậy: X và Y có tương quan tuyến tính.
xy x. y
B
Trong đó: sˆ 2x
A y B.x
- Kiểm định hệ số a,b :
+ Giả thiết 𝐻0: “Phương trình hồi quy tuyến tính không thích hợp.”
+ Giả thiết 𝐻1: “Phương trình hồi quy tuyến tính thích hợp.”
⇒ Dùng kết quả từ bảng SUMMARY OUTPUT từ câu trên ta xác định được
Cơ sở lý thuyết :
Phương trình tổng quát cho biến phụ thuộc Y có liên quan đến k biến số độc lập Xi
(i=1,2,...,k):
𝑌𝑋̂
1 𝑋2 …𝑋𝑘
= B0 + B1X1 + B2X2 …..+ BkXk
Bảng ANOVA :
Nguồn sai Tổng số bình Bình phương trung Giá trị thống
Bậc tự do
số phương bình kê
SSR MSR
Hồi quy K SSR MSR F
k MSR
SSE
Sai số N–k–1 SSE MSE
N k 1
Tổng cộng N–1 SST = SSR + SSE
SSR kF
R2
SST ( N k 1) kF
Giá trị R2 được hiệu chỉnh (Adjusted R Square)
( N 1) R 2 k k (1 R 2 )
R 2ii R2
N k 1 N k 1
(𝑅𝑖𝑖2 sẽ trở nên âm hay không xác định nếu R2 hay N nhỏ)
Độ lệch chuẩn:
SSN
S= (S ≤ 0,30 là khá tốt)
N k 1
Biện luận:
Phương trình hồi quy: yx1 , x2 = 328,1383 +4,6495x1 + 2,5602x2
Để kiểm định các hệ số hồi quy ta xét:
Hệ số hồi quy t Stat:
4,5580 > 2.262 (bảng Student với α/2=0.025 và n=9)
Bác bỏ H0, tức hệ số tự do có ý nghĩa.
9,9105 > 2.262 (bảng Student với α/2=0.025 và n=9)
Bác bỏ H0, tức hệ số gắn với X1 có ý nghĩa.
6,7477 > 2.262 (bảng Student với α/2=0.025 và n=9)
Bác bỏ H0, tức hệ số gắn với X2 có ý nghĩa.
Để kiểm định về sự thích hợp của phương trình hồi quy ta xét:
Hệ số F = 134,7484 > 4,257 (bảng Fisher với α=0.05 n1= 2 và n2=9)
Bác bỏ H0, tức phương trình hồi quy thích hợp.
Kết luận : Cả ba hệ số hồi quy gắn với X1, X2 và hệ số tự do có ý nghĩa thống kê.
Hay có thể nói Doanh số bán có liên quan tuyến tính với cả chi phí quảng cáo và chi
phí chào hàng
Bài 6: Tìm 1 ví dụ liên quan đến chuyên ngành học để minh họa cho một bài
toán phân tích phương sai cụ thể. Yêu cầu:
+ Dạng bài toán PTPS: tùy chọn, có thể giống dạng PTPS ở Bài 3. (Lưu ý:
đơn giản nhất là bài toán PTPS 1 yếu tố).
+ Trình bày cơ sở lý thuyết, nhớ lưu ý điều kiện để bài toán thực hiện
được.
+ Trình bày lời giải theo 2 cách: tính trực tiếp theo công thức và ứng dụng
Excel.
Bài làm :
Cơ sở lý thuyết:
Trường hợp k tổng thể có phân phối bình thường và phương sai bằng nhau:
Ba giả định về các nhóm tiến hành phân tích ANOVA:
+ Các tổng thể có phân phối bình thường;
+ Các phương sai tổng thể bằng nhau;
+ Các quan sát lấy mẫu là độc lập nhau;
Tổng thể
1 2 3 … k
x11 x21 x31 xk1
x12 x22 x32 xk2
… … … … …
x1n1 x2n2 x3n3 xknk
Giả sử trung bình các tổng thể được ký hiệu là tb1,tb2,… thì khi các giả định trên được
đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm
định giả thuyết như sau:
H0 : tb1 = tb2= tb3= tb4=…=tbk;
H1 : Tồn tại ít nhất một cặp trung bình tổng thể khác nhau;
Bước 1:
Tính trung bình mẫu từng nhóm 𝑥̅1 ; ̅̅̅;
𝑥2 … ; ̅̅̅
𝑥𝑘 theo công thức:
∑𝑛𝑗=1
𝑖
𝑥𝑖𝑗
𝑥̅𝑖 = (𝑖 = 1,2,3, … )
𝑛𝑖
Và trung bình của k mẫu (trung bình chung của toàn bộ mẫu khảo sát):
∑𝑘𝑖=1 𝑛𝑖 𝑥̅𝑖
𝑥̅ = 𝑘
∑𝑖=1 𝑛𝑖
Bước 2: Tính tổng các chênh lệch bình phương :
+ Tổng các chênh lệch bình phương trong trong nội bộ nhóm SSW (sum of squares within
group) và tổng chênh lệch các bình phương giữa các nhóm SSG (sum of squares between
group),
+SSW phản ánh phần biến thiên của yếu tố kết quả do ảnh hưởng của các yếu tố khác,
chứ không phải của yếu tố nguyên nhân đang nghiên cứu (là yếu tố dùng để phân biệt các
tổng thể/ nhóm đang so sánh).
Tổng chênh lệch bình phương của từng nhóm được tính theo công thức:
𝑛
1
Nhóm 1: 𝑆𝑆1 = ∑𝑗=1(𝑥1𝑗 − 𝑥̅1 )2
𝑛
2
Nhóm 2: 𝑆𝑆2 = ∑𝑗=1 𝑥2 2
(𝑥2𝑗 − ̅̅̅)
Tương tự như vậy cho đến nhóm thứ k được SSk. Vậy SSW được tính như sau:
SSW = SS1 + SS2 + … + SSk
Một cách tổng quát ta có công thức:
𝑘 𝑛𝑖
+SSG phản ánh phần biến thiên của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân
đang nghiên cứu.
𝑘
𝑆𝑆𝐺 = ∑ 𝑛𝑖 (𝑥̅𝑖 − 𝑥̅ )2
𝑖=1
+Tổng chênh lệch bình phương toàn bộ SST phản ánh biến thiên của yếu tố kết quả do
ảnh hưởng của tất cả nguyên nhân.
𝑘 𝑛𝑗
𝑆𝑆𝑇 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅ )2
𝑖=1 𝑗=1
Như vậy ta có SST = SSG +SSW . Vậy SST là biến thiên của yếu tố kết quả được phân
tích thành hai phần phần biến thiên do yếu tố đang nghiên cứu tạo ra (SSG) và phần biến
thiên còn lại do các yếu tố khác tạo ra (SSW). Nếu phần biến thiên do các yếu tố đang xét
càng đáng kể so với phần biến thiên của các yếu tố khác không xét tạo ra, thì chúng ta
càng có cơ sở để bác bỏ H0 và kết luận là yếu tố nguyên nhân đang xét ảnh hưởng có ý
nghĩa đến kết quả.
Bước 3 : Tính phương sai :
𝑆𝑆𝑊
Phương sai nội bộ nhóm 𝑀𝑆𝑊 =
𝑛−𝑘
𝑆𝑆𝐺
Phương sai giữa các nhóm 𝑀𝑆𝐺 =
𝑘−1
Ta bác bỏ giả thiết H0 cho rằng trị trung bình của k tổng thể bằng nhau khi :
𝐹 > 𝐹(𝑘−1;𝑛−𝑘);∝
𝐹(𝑘−1;𝑛−𝑘);∝ là giá trị giới hạn tra từ bảng phân phối FISHER với bậc tự do k-1 tra theo
hàng đầu tiên và n-k tra theo hàng đầu tiên, lưu ý chọn bảng có mức ý nghĩa phù hợp.
Bảng kết quả tổng quát của ANOVA :
Nguồn biến Tổng chênh Bậc tự do Phương sai Tỉ số
thiên lệch bình (df) (MS) (F)
phương(SS)
Giữa các nhóm SSG k-1 𝑆𝑆𝐺 𝑀𝑆𝐺
𝑀𝑆𝐺 = 𝐹=
𝑘−1 𝑀𝑆𝑊
Nội bộ nhóm SSW n-k 𝑆𝑆𝑊
𝑀𝑆𝑊 =
𝑛−𝑘
Bước 4: Tính tỉ số F:
𝑀𝑆𝐺 133,0739
𝐹= = = 25,3344
𝑀𝑆𝑊 5,2527
Ta tra bảng phân phối Fisher với mức ý nghĩa ∝ = 0,05 tại các bậc tự do tương ứng
𝐹(𝑘−1; 𝑛−𝑘);∝ = 𝐹(5−1; 100−5);0,05 = 2,4675
Vì F = 25,3344> 𝐹(𝑘−1;𝑛−𝑘);∝ = 2,4675 nên ta có thể bác bỏ được giả thuyết H0 và
chấp nhận giả định H1 hay ta nói rằng tốc độ download mạng viễn thông viettel có phụ
thuộc vào vị trí (quận) trong tp Hồ Chí Minh.
Cách 2: Giải bằng excel như sau:
Bước 1: Nhập bảng dữ liệu: