You are on page 1of 42

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA



BÁO CÁO BÀI TẬP LỚN


XÁC SUẤT THỐNG KÊ

LỚP: DT-09
NHÓM: 08
GIÁO VIÊN HƯỚNG DẪN: Cô Nguyễn Kiều Dung
 Danh sách thành viên
STT HỌ VÀ TÊN MSSV LỚP

1 Phạm Lộc Ân 171055 DT09

2 Huỳnh Trọng Hiếu 1711277 DT09

3 Trần Đức Huy 1711556 DT09

4 Nguyễn Hoàng Phụng 1710246 DT09

5 Bùi Minh Trí 1710348 DT09

6 Lê Tuấn Đạt 1710949 DT10


Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử
dụng các dữ liệu đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ biểu đồ histogram ( biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu
đồ mật độ với dữ liệu (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan
sát với độ tin cậy 95% với dữ liệu (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất
nào đó hay không ( lưu ý phải sử dụng các hàm thống kê trong excel).
Bài Làm
 Dữ liệu A: Khảo sát thời gian hoàn thành vòng đua dò line của 40 sinh viên khoa
điện khi thực hành môn Nhập môn về kỹ thuật (EE1001) ta có bảng số liệu như
sau: (Thời gian: giây(s) )
17 23 23 24 45 46 54 34 27 34
37 30 51 43 24 40 23 25 46 21
29 41 47 39 55 23 27 29 45 41
21 28 58 41 48 47 34 27 19 32

 Dữ liệu B: Khảo sát sự phân ngành sinh viên K16 Khoa Điện-Điện tử Trường Đại
học Bách Khoa thành phố Hồ Chí Minh
(Nguồn:http://dee.hcmut.edu.vn/index.php?route=product%2Fproduct&product_id
=873).

Ngành đào tạo Số sinh viên


Kỹ thuật điện, điện tử 99
Kỹ thuật điện tử, truyền thông 150
Kỹ thuật điều khiển, tự động hóa 93

1. Thực hiện phương pháp phân tổ dữ liệu (A):


 Cơ sở lý thuyết:
- Khi bạn phân tổ thì mỗi tổ sẽ có giới hạn dưới và giới hạn trên, giới hạn dưới là trị
số nhỏ nhất của tổ và giới hạn trên là trị số lớn nhất của tổ. Chênh lệch giữa giới
hạn dưới và giới hạn trên là trị số khoảng cách tổ…
- Các bước của thủ tục phân bố đều
+ Xác định số tổ cần chia (k): không có qui định về số k, thông thường chia trong
khoảng từ 5 tổ đến 15 tổ.
+ Một số công thức tham khảo giúp ta xác đinh được số tổ cần chia phù hợp mới
từng cơ sở dữ liệu như sau:
k = (2*n)^(1/3)
k = 1+3.3*log(n)
+ Xác định trị số khoảng cách tổ (h): h = (Xmax – Xmin)/k (Xmax giá trị lớn nhất, Xmin
giá trị nhỏ nhất, k số tổ)
+ Xác định cận trên cận dưới của các tổ:
Tổ 1: (Xmin;Xmin +h)
Tổ 2: (Xmin +h; Xmin +2h).......
 Sử dụng Excel để giải quyết bài toán:
 Nhập dữ liệu vào Excel:

 Xác định số tổ cần chia: k = (2*n)^(1/3)


Chọn ô A6 nhập biểu thức: =(2*Count(A1;J4)^(1/3)) (count đếm tổng ô chứa dữ
liệu số).
Chọn k = 4.
 Xác định khoảng cách h:
Chọn B6 nhập biểu thức: = Max(A1:J4)
Chọn C6 nhập biểu thức: = Min(A1:J4)
Chọn D7 nhập biểu thức: = (B6-C6)/4

Chọn h=10
 Ta xác định được cận trên cận dưới của mỗi tổ:
Tổ 1: 17 - 27
Tổ 2: 27 - 37
Tổ 3: 37 - 47
Tổ 4: 47 – 58
Nhập các giá trị 27 37 47 58 vào các ô từ A9 đến A12.
 Chọn chức năng Data/ Data Analysis/ Histogram
+ Input Range: địa chỉ chứa dữ liệu.
+ Bin Range: địa chỉ chứa bảng phân tổ.
+ Output Option: vị trí xuất kết quả.
+ Chọn Cumalative Percentage để tính tần số tích lũy.

Có thể chỉnh sửa lại như sau:

2. Vẽ biểu đồ histogram ( biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu
đồ mật độ với dữ liệu (A).
 Biểu đồ phân bố tần số:
+ Quét chọn bảng tần số.
+ Dùng chức năng Insert Column Chart trên Menu Insert
Kết quả: Do dữ liệu là định lượng, ta có thể chỉnh sửa như sau.

 Biểu đồ tích lũy tần số:


+ Quét chọn cột tần số tích lũy.
+ Dùng chức năng Insert Line trên Menu Insert.

 Biểu đồ mật độ:


+ Quét chọn bảng tần số.
+ Dùng chức năng Insert Column Chart trên Menu Insert.
Kết quả: Do biểu đồ mật độ, ta có thể điều chỉnh như sau.

3. Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát
với độ tin cậy 95% với dữ liệu (A).
 Các đặc trưng của mẫu:
+ Nhập dữ liệu theo cột.
+ Sử dụng chức đăng Data/ Data Analysis/ Descriptive Statistics
+ Input Range: địa chỉ chứa dữ liệu.
+ Output Options: địa chỉ xuất kết quả.
+ Confidence Level for Means: độ tin cậy.
Kết quả:
 Ước lượng thời gian trung bình hoàn thành 1 vòng đua dò line (độ tin cậy 95%).
 Cơ sở lý thuyết: Ước lượng khoảng tin cậy chính là tìm ra khoảng ước lượng
(G1,G2) cho tham số 𝜃 trong tổng thể sao cho ứng với độ tin cậy (confidence)
bằng (1-α) cho trước, P(G1< θ < G2) = (1-α).Hàm ước lượng:
+ a=E(x)=𝑥̅
𝑠
+ ε = zα.
√𝑛

+ (𝑥̅ ± ε)
 Khoảng ước lượng thời gian hoàn thành vòng đua:
- Gọi X (s) là thời gian hoàn thành vòng đua lò line.
- Các đặc trưng của mẫu (đã tính ở trên): n=40 a=34.95 s=11.2112
- Độ tin cậy 1-α=95% => zα=1.96
𝑠
- Độ chính xác của khoảng ƯL ε = zα. = 3.4743
√𝑛
- Khoảng ước lượng cho X: (𝑥̅ – ε, 𝑥̅ + ε) = (31.4747;38,4243).
4. Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
 Cơ sở lý thuyết: Dữ liệu đinh tính dạng phân loại là một tình huống thường gặp
trong thông kê, để tóm tắt thông tin của dữ liệu định tín nói chung, ngoài dùng
bảng tần số, chúng ta có thể sử dụng các phương pháp trình bày dữ liệu định tính
dạng phân loại bằng 3 dạng đồ thị cơ bản: đồ thị thanh đứng, đồ thị thanh ngang và
đồ thị hình tròn.
+ Nhập dữ liệu+tính tỷ lệ cho từng yếu tố:

 Biểu đồ thanh ngang:


+ Quét địa chỉ chứa dữ liệu.
+ Sử dụng chức năng Clustered Bar trên Menu Insert
 Biểu đồ thanh đứng:
+ Quét địa chỉ chứa dữ liệu
+ Dùng chức năng Clustered Column Chart trên Menu Insert.

 Biểu đồ hình tròn


+ Quét chọn cột tỉ lệ
+ Dùng chức năng Insert Pie trên Menu Insert.
5. Hãy kiểm định xem dữ liệu (A).
Sử dụng bảng phân tổ dữ liệu A của phần 1 để kiểm định phân phối chuẩn

+ Nhập và tính các đặc trưng của mẫu:


+ GTKD H0: Mẫu phù hợp phân phối Chuẩn N(a,σ2).
+ GT đối H1: Mẫu không phù hợp với phân phối Chuẩn.
+ a = 34.0625 σ = 10.7788
+ Tra bảng Chi – BP với k = 4; r = 2 => χ2α(k – r – 1) = 7.88
+ Miền bác bỏ Wα = (7.88; +∞).
+ Tính tiêu chuẩn kiểm định.
Sử dụng hàm NORMDIST: trả về phân bố chuẩn với giá trị trung bình và độ lệch
chuẩn đã xác định.
Cú pháp: NORMDIST(x,mean,standard_dev,cumulative)
 X: giá trị cần tính phân bố.
 Mean: giá trị bình của phân phối.
 Standard_dev: độ lệch chuẩn của phân phối.
 Cumulative: True trả về giá trị tích phân từ âm vô cùng tới x của hàm mật độ
xác suất.
1 𝑛𝑖^2
Tính χ2qs= ∑ – n = 3.2966 ∉ Wα
𝑛 𝑝𝑖

Kết luận: Chấp nhận H0 mẫu phù hợp phân phối chuẩn.
Bài 2:
Điểm đánh giá của 20 người dùng thử về 2 loại sản phẩm đậu phộng trước và
sau cải tiến được thu thập trên thang điểm 10 như sau:
Trước cải tiến 7 8 6 8 7 7 7 6 8 6
Sau cải tiến 7 9 5 9 5 6 8 7 8 7
Trước cải tiến 6 9 6 4 6 7 8 5 4 3
Sau cải tiến 8 8 8 7 6 7 7 6 7 6
Hãy cho biết hiệu quả của việc cải tiến sản phẩm với mức ý nghĩa 6%. Tìm
thêm giá trị P trong kiểm định
BÀI LÀM:
 Dạng bài: Bài toán kiểm định giá trị trung bình dữ liệu tương ứng từng cặp
 Công cụ: t-Test Paired Two Sample for Means
 Cơ sở lý thuyết:
Trong trường hợp hai mẫu nhỏ (N < 30) phụ thuộc (thí dụ: kết quả của một nhóm
chuột được xét nghiệm máu hai lần – trước và sau khi uống thuốc – hay một nhóm
bệnh nhân trải qua hai thí nghiệm – được thử thuốc trên tay này và giả dược trên kia)
và không giả định rằng phương sai của hai mẫu bằng nhau, ta có thể áp dụng trắc
nghiệm Tqs để so sánh giá trị trung bình của hai mẫu dữ liệu tương ứng từng cặp.
- Giả thiết
Trắc nghiệm 2 bên
H0 : a 1 = a 2
H1 : a 1 ≠ a 2
Trắc nghiệm bên phải
H0 : a 1 = a 2
H1 : a 1 > a 2
Trắc nghiệm bên trái
H0 : a 1 = a 2
H1 : a 1 < a 2

- Giá trị thống kê


GT KĐ H0 GT đối H1 Miền bác bỏ với mức ý nghĩa 𝛼
a1 ≠ a2 Wα = ( −∞ ; - t α (n – 1)) ∪ (t α (n – 1) ; +∞)
2 2
a1 = a 2 a1 > a 2 Wα = (t 𝛼 (n – 1) ; +∞)
a1 < a 2 Wα = (−∞ ; -t α (n – 1))

Di = Xi – Yi (i = 1, 2, …N)
N

D i
D i 1
N
N

 ( D  D) i
2

SD  i 1
( N  1)

D
Tqs 
SD / N

- Biện luận
Nếu Tqs ∈ Wα thì bác bỏ giả thiết H0, chấp nhận giả thiết H1
Nếu Tqs ∉ Wα thì tạm chấp nhận giả thiết H0.
- Giá trị P
Nếu P < 𝛼 ⇔ Tqs ∈ Wα ⇒ Bác bỏ giả thiết H0, chấp nhận giả thiết H1.
Nếu P > 𝛼 ⇔ Tqs ∉ Wα ⇒ Tạm chấp nhận giả thiết H0.
 Thực hiện bài toán bằng excel
Bước 1: Nhập dữ liệu vào máy tính

Bước 2: Vào Data/ Data Analysis/ t-Test: Paired Two Sample for Mean
Bước 3: Chọn các mục như hình
+ Variable 1 Range (Phạm vi của dữ liệu 1)
+ Variable 2 Range (Phạm vi của dữ liệu 2)
+ Hypothesized Mean Difference (Sai biệt giữa hai giá trị trung bình ước
tính)
+ Labels (Nhãn dữ liệu)
+ Alpha (Mức ý nghĩa 𝛼)
+ Output Range (Vị Trí xuất dữ liệu)

 Kết quả
 Biện luận
- Giả thiết kiểm định H0: a1 = a2 “Việc cải tiến sản phẩm không hiệu quả hơn”
- Giả thiết đối H1: a1 < a2 “Việc cải tiến sản phẩm có hiệu quả hơn”
- Tqs = -1,9898
- Miền bác bỏ Wα = (−∞ ; -1,6280)
⇒ Ta thấy Tqs = -1,9898 ∈ Wα ⇒ Bác bỏ giả thiết H0, chấp nhận giả thiết H1.
Vậy ta kết luận “Việc cải tiến sản phẩm có hiệu quả hơn”
 Kiểm định bằng giá trị P
Ta thấy P = 0,0306 < 𝛼 = 0,06 ⇒ Bác bỏ giả thiết H0, chấp nhận giả thiết H1
Vậy ta kết luận “Việc cải tiến sản phẩm có hiệu quả hơn”

Bài 3:

Hàm lượng saponin (mg) của cùng một loại dược liệu được thu hái mùa (khô và
mưa: trong mỗi mùa lấy mẫu ba lần - đầu. giữa và cuối) và từ ba miền (nam. trung
và bắc) được tóm tắt như sau:
Mùa Miền
Thời điểm Nam Trung Bắc
Đầu mùa 2.4 2.1 3.2
Mùa khô Giữa mùa 2.3 2.2 3.2
Cuối mùa 2.5 2.3 3.4
Đầu mùa 2.4 2.2 3.3
Mùa mưa Giữa mùa 2.5 2.1 3.5
Cuối mùa 2.7 2.3 3.4

Hãy cho biết hàm lượng saponin có khác nhau theo mùa hay miền? Hai yếu tố mùa
và miền có sự tương tác với nhau hay không? Sử dụng mức ý nghĩa 2%.

BÀI LÀM:

 Dạng bài: Phân tích phương sai hai yếu tố (có lặp)
 Công cụ giải: Áp dụng “Anova: Two-Factor With Replication”
 Cơ sở lý thuyết:
Để tăng chính xác khi kết luận về ảnh hưởng của 2 yếu tố nguyên nhân đến yếu
tố kết quả của mẫu cho 1 tổng thể, ta tăng cỡ mẫu quan sát trong điều kiện cho
phép. Gọi L là số quan sát trong ô ta có dạng tổng quát của L quan sát trong 1 ô
có dạng như sau:
Dòng Nhóm
(blocks) 1 2 … K

1 X111 X112 … X11L X211 X212 … X21L XK11 XK12 … XK1L


… XK21 XK22 … XK2L
2 X121 X122 … X12L X221 X222 … X22L
… …
… … …
… XKH1 XKH2 … XKHL
H X1H1 X1H2 … X1HL X2H1 X2H2 … X2HL

Có ba giả thuyết H0 trong trường hợp phân tích phương sai hai chiều nhiều quan
sát trong một ô tương ứng với ba tỉ số F (F1,F2 và F3).

 Hai giả thuyết H0 tương ứng với tỉ số F1 và F2 :trung bình chỉ tiêu nghiên cứu
của chỉ tiêu theo cột và theo hàng thì bằng nhau.
 Giả thuyết H0 tương ứng với tỉ số F3: không có sự ảnh hưởng qua lại giữa các chỉ
tiêu theo cột và hàng đến chỉ tiêu nghiên cứu.

Bước 1: Tính các trung bình:

 Trung bình mẫu từng nhóm – group(cột):


∑𝐻 𝐿
𝑗=1 ∑𝑠=1 𝑥𝑖𝑗𝑠
𝑥̅𝑖 = (i=1,2,3…K)
𝐻×𝐿

 Trung bình mẫu từng khối – block(dòng):


∑𝐾 𝐿
𝑖=1 ∑𝑠=1 𝑥𝑖𝑗𝑠
𝑥̅𝑗 = (j= 1,2,3…L)
𝐾×𝐿

 Trung bình mẫu từng ô:


∑𝐿𝑠=1 𝑥𝑖𝑗𝑠
𝑥̅𝑖𝑗 =
𝐿
 Trung bình chung toàn bộ quan sát:
∑𝐾𝑖=1 ∑𝐻 𝐿
𝑗=1 ∑𝑠=1 𝑥𝑖𝑗𝑠
𝑥̅ =
𝐾×𝐻×𝐿
Bước 2: Tính tổng các chênh lệch bình phương:
1. Tổng các chênh lệch bình phương toàn bộ:
SST=SSG+SSB+SSI+SSE
𝐾 𝐻 𝐿

𝑆𝑆𝑇 = ∑ ∑ ∑(𝑥𝑖𝑗𝑠 − 𝑥̅ )2
𝑖=1 𝑗=1 𝑠=1

2. Tổng các chênh lệch bình phương giữa các nhóm (between – groups):
𝐾

𝑆𝑆𝐺 = 𝐻𝐿 ∑(𝑥̅𝑖 − 𝑥̅ )2
𝑖=1

SSG phản ánh phần biến thiên của yếu tố định lượng kết quả đang nghiên cứu do
ảnh hưởng của yếu tố nguyên nhân thứ nhất, yếu tố dùng để phân nhóm ở cột.
3. Tổng các chênh lệch bình phương giữa các khối (between – blocks):
𝐻
2
𝑆𝑆𝐵 = 𝐾𝐿 ∑(𝑥̅𝑗 − 𝑥̅ )
𝑗=1

SSB phản ánh phần biến thiên của yếu tố định lượng kết quả đang nghiên cứu do
ảnh hưởng của yếu tố nguyên nhân thứ hai, yếu tố dùng để phân nhóm ở dòng.
4. Tổng các chênh lệch bình phương giữa các ô (giao nhau giữa các nhóm và khối):
𝐾 𝐻
2
𝑆𝑆𝐼 = 𝐿 ∑ ∑(𝑥̅𝑖𝑗 − 𝑥̅𝑖 − 𝑥̅𝑗 + 𝑥̅ )
𝑖=1 𝑗=1

SSI phản ánh phần biến thiên do tác động qua lại giữa hai yếu tố đang nghiên cứu.
5. Tổng các chênh lệch bình phương phần dư:
𝐾 𝐻 𝐿

𝑆𝑆𝐸 = ∑ ∑ ∑(𝑥𝑖𝑗𝑠 − 𝑥̅𝑖𝑗 )2 = 𝑆𝑆𝑇 − 𝑆𝑆𝐺 − 𝑆𝑆𝐵 − 𝑆𝑆𝐼


𝑖=1 𝑗=1 𝑠=1

Bước 3: Tính các phương sai:


𝑆𝑆𝐺
1. Phương sai giữa các nhóm: 𝑀𝑆𝐺 =
𝐾−1

𝑆𝑆𝐵
2. Phương sai giữa các khối: 𝑀𝑆𝐵 =
𝐻−1

𝑆𝑆𝐼
3. Phương sai giữa các ô: 𝑀𝑆𝐼 = (𝐾−1)×(𝐻−1)

𝑆𝑆𝐸
4. Phương sai dư: 𝑀𝑆𝐸 =
𝐾×𝐻×(𝐿−1)

Bước 4: Kiểm định giả thuyết về ảnh hưởng của yếu tố nguyên nhân thứ nhất(cột),
yếu tố nguyên nhân thứ hai (dòng), tương tác giữa hai yếu tố đến yếu tố kết quả
bằng các tỉ số F:
𝑀𝑆𝐺 𝑀𝑆𝐵 𝑀𝑆𝐼
𝐹1 = 𝐹2 = 𝐹3 =
𝑀𝑆𝐸 𝑀𝑆𝐸 𝑀𝑆𝐸
Bước 5: Nguyên tắc quyết định trong ANOVA hai yếu tố:
1. Đối với F1 ở mức ý nghĩa α, giả thuyết H0 cho rằng trung bình của k tổng thể theo
yếu tố nguyên nhân thứ nhất (cột) bằng nhau bị bác bỏ khi:
F1 > 𝐹(𝐾−1).𝐾𝐻(𝐿−1),𝛼
2. Đối với F2 ở mức ý nghĩa α, giả thuyết H0 cho rằng trung bình của H tổng thể theo
yếu tố nguyên nhân thứ hai (dòng) bằng nhau bị bác bỏ khi:
F2 > 𝐹(𝐻−1).𝐾𝐻(𝐿−1),𝛼
3. Đối với F3 ở mức ý nghĩa α, , giả thuyết H0 cho rằng không có tác động qua lại giữa
yếu tố thứ nhất (cột) và yếu tố thứ hai (dòng) bị bác bỏ khi:
F3 > 𝐹(𝐾−1)(𝐻−1).𝐾𝐻(𝐿−1),𝛼
Trong đó:
 𝐹(𝐾−1).𝐾𝐻(𝐿−1),𝛼 là giá trị tra trong bảng phân phối F với K-1 bậc tự do ở tử số và
KH(L-1) bậc tự do ở mẫu số.
 𝐹(𝐻−1).𝐾𝐻(𝐿−1),𝛼 là giá trị tra trong bảng phân phối F với H-1 bậc tự do ở tử số và
KH(L-1) bậc tự do ở mẫu số.
 𝐹(𝐾−1)(𝐻−1).𝐾𝐻(𝐿−1),𝛼 là giá trị tra trong bảng phân phối F với (K-1)(H-1) bậc tự do
ở tử số và KH(L-1) bậc tự do ở mẫu số.

 Thực hiện bài toán bằng Excel

Nhập dữ liệu vào bảng tính

Vào Data/ Data Analysis/Anova:Two-Factor With Replication


Chọn như hình vẽ:
Các giả thuyết H0 đặt ra:

 H1: hàm lượng saponin (mg) của cùng một loại dược liệu được thu hái theo miền
(Columns) khác nhau đều bằng nhau
 H2: hàm lượng saponin (mg) của cùng một loại dược liệu được thu hái theo mùa
(Sample) khác nhau đều bằng nhau
 H3: không có sự tương tác giữa hai yếu tố mùa và miền đến hàm lượng Saponin
(Interactic)
Kết quả và biện luận:
F1 = 164.87 > F0.02 = 5.5163  Bác bỏ giả thuyết H1 (miền)
F2 = 2.78261 < F0.02 =7.18775  Chấp nhận giả thuyết H2 (mùa)
F3 = 0.69565 < F0.02 = 5.5163  Chấp nhận giả thuyết H3 (mùa × miền )

Vậy hàm lượng Saponin trong dược liệu được quan sát khác nhau theo miền, tạm chấp
nhận hàm lượng không có sự khác nhau theo mùa.

Không có sự tương tác giữa hai yếu tố mùa và miền trên hàm lượng ấy

Bài 4:
Khảo sát số người sử dụng lốp xe của 3 hãng Causumina, Kenda, DRC trong thời
gian khảo sát tại một cửa hàng ngẫu nhiên, lốp xe được phân loại theo loại xe.
Hãng của lốp xe
Loại xe
Causumina Kenda DRC
Xe đạp 42 36 58
Xe đạp điện 32 47 29
Xe gắn máy 51 63 49
Xe mô tô 23 34 14
Xe khác 79 92 64

Hãy nhận xét xem nhu cầu sử dụng lốp xe của 3 Hãng trên tại một cửa hàng ngẫu
nhiên có giống nhau không với mức ý nghĩa 1%?

BÀI LÀM
 Dạng bài: Kiểm định tính độc lập
 Phương pháp giải: Áp dụng Kiểm định chi bình phương 2.
 Công cụ giải: hàm CHITEST trên Excel.
I. Cơ sở lý thuyết:
1. Khái niệm thống kê:
Đối với một thí nghiệm có hai kết quả (binomial experiment) - thí dụ, đối với
một thuốc được kê đơn: có hay không – bạn thường so sánh hai tỉ số với
nhau (thực nghiệm với lí thuyết hay thực nghiệm với thực nghiệm). Song đối với một
thí nghiệm có nhiều kết quả (multinomial experiment) – thí dụ, bác sĩ đánh giá
tình trạng của các bệnh nhân được điều trị bởi thuốc trong một khoảng thời gian – bạn
cần so sánh nhiều tỉ số. Trắc nghiệm “khi” bình phương (2) cho phép bạn so sánh
không những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc xác suất) một cách tiện lợi. 2 là
phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0. Giả sử bạn có một
công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k kết quả và mỗi
kết quả mang một trong các xác suất thực nghiệm là Pi (i = 1, 2, … k). Nếu gọi Pi,0 là
các giá trị lý thuyết tương ứng với Pi thì các tần số lí thuyết sẽ là Ei = NPi,0.
Điều kiện để áp dụng trắc nghiệm 2 một cách thành công là các tần số lí thuyết Ei
phải ≥ 5.
2. Giả thiết
H0: P1 = P1,0; P2 = P2,0; … ; Pk = Pk,0 “Các cặp Pi và Pi,0 giống nhau”.
H1 : “Ít nhất có một cặp Pi và Pi,0 khác nhau”.

k  (Oij  Eij ) 2 
Giá trị thống kê:  2    
i 1 
 Eij 

Oi: các tần số thực nghiệm (observed frequency);

Ei: các tần số lý thuyết (expected frequency).

Biện luận:
 Nếu  2  2  Bác bỏ giả thuyết H0 (DF = k-1)

Trong chương trình MS-EXCEL có hàm CHITEST có thể tính:


r c (Oij  Eij )2
- Giá trị  theo biểu thức:   [
2 2

j 1 i 1 Eij

Oij: tần số thực nghiệm của ô thuộc hàng i và cột j;


Eij: tần số lý thuyết của ô thuộc hàng i với cột j;
r: số hàng;
c: số cột.
- Xác suất P(X >2) với bậc tự do DF = (r-1)(c-1); trong đó, r là số hàng và c
là số cột trong bảng ngẫu nhiên (contingency table).

 Nếu P(X >2) > α  Chấp nhận giả thuyết H0 và ngược lại.

3. Giải thuật
- Tính các tổng số
- Tổng hàng (row totals)
- Tổng cột (column totals)
- Tổng cộng (grand total)
- Tính các tần số lý thuyết
- Tần số lý thuyết = tổng hàng x tổng cột / tổng cộng
II. Áp dụng Excel:
 Bảng số liệu

 Tính tổng hàng và tổng cột bằng cách dùng hàm SUM
Giả sử tính tổng hàng 3 là E3: =SUM(B3:D3)
(Nhấp vào ô E3 rồi nhập hàm SUM rồi kéo con trỏ từ B3 đến D3)
Giả sử tính tổng cột B là B8: =SUM(B3:B7)
(Nhấp vào ô B8 rồi nhập hàm SUM rồi kéo con trỏ từ B3 đến B7)
 Tính các tần số lý thuyết: tần số lý thuyết = (Tổng hàng ×Tổng cột)/(Tổng
cộng):
 Sử dụng hàm CHITEST tính xác suất P(X>  2 ):

Chọn ô và nhập biểu thức =CHITEST(B3:D7,J3:N5)

 Kết quả và biện luận:

Giả thiết H0: Phân bố tỉ lệ nhu cầu sử dụng của 3 hãng trên như nhau.

H1: Phân bố tỉ lệ nhu cầu sử dụng của 3 hãng trên khác nhau.

Ta có: P(X>  2 ) = 6.67695E-73 < α=0.01

 Bác bỏ giả thiết H0, chấp nhận giả thiết H1


Tức là: Phân bố tỉ lệ nhu cầu sử dụng của 3 hãng trên là khác nhau.
Bài 5:
1) Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mô
hình hồi quy tuyến tính đơn. Thực hiện các yêu cầu sau trên Excel:
a) Tìm hệ số tương quan giữa X,Y.
b) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy
ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
c) Tìm sai số chuẩn của ước lượng.
2) Tìm một dữ liệu ngẫu nhiên k chiều (k >2) để sử dụng mô hình hồi quy tuyến
tính đa biến. Tìm các hệ số hồi quy tuyến tính mẫu và kết luận về sự thích
hợp.

BÀI LÀM:
Bảng số liệu về thời gian thí nghiệm mạch điện tử với công suất tiêu thụ trên
tải được lấy ngẫu nhiên trên các thiết bị :

Thời gian (phút) 12 34 20 30 45 72 20 56 70 75

Công suấ t(W) 150 120 600 122 148 700 120 346 900 950

a) Tìm hệ số tương quan X và Y:


 Cơ sở lý thuyết :

Hệ số tương quan:

xy  x. y
R
sˆx .sˆy

Nếu R>0 thì X, Y tương quan thuận.


Nếu R<0 thì X, Y tương quan nghịch.
Nếu R=0 thì X, Y không tương quan.
Nếu | R | 1 thì X,Y có quan hệ qhàm bậc nhất.

Nếu | R | 1thì X, Y có tương quan chặt (tương quan mạnh).

Nếu | R | 0 thì X, Y có tương quan không chặt (tương quan yếu).

Quan hệ giữa X, Y có được coi là tuyến tính hay không:


Giả thiết H0: X,Y không có tương quan tuyến tính
r n2
T
1 r2

 Thực hiện trên Excel:


 Nhập số liệu vào bảng tính:

 Chọn chức năng Data/Data Analysis/Correlation.

 Kết quả:

=> Ta có hệ số tương quan là R = 0.74871046 chứng tỏ giữa thời gian và công suất tiêu
thụ có quan hệ khá chặt chẽ và có tương quan thuận.

b) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước
lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
 Cơ sở lý thuyết:
Giả thiết H0: X và Y không có tương quan tuyến tính:

r n2
T
1 r2
 Thực hiện trên Excel:
Tính T: Chọn ô B9 và nhập biểu thức =B7*SQRT(10-2)/SQRT(1-B7^2)
Tính c: chọn ô B10 và nhập biểu thức =TINV(0.05,8) (c là phân vị mức α/2 =
0.025 của phân bố Student với n-2=8 bậc tự do).

Vì |T| > c nên bác bỏ giả thiết H0. Vậy: X và Y có tương quan tuyến tính.

c) Ước lượng hồi quy tuyến tính Y theo X:


 Cơ sở lý thuyết:
- Phương trình hồi quy tuyến tính: y = A + Bx

 xy  x. y
B 
Trong đó:  sˆ 2x

 A  y  B.x
- Kiểm định hệ số a,b :

+ Giả thiết 𝐻0: Hệ số hồi quy không có ý nghĩa (=0).

+ Giả thiết 𝐻1: Hệ số hồi quy có ý nghĩa (≠ 0).

+ Trắc nghiệm t < 𝑡𝛼,𝑛−2: chấp nhận 𝐻0

- Kiểm định phương trình hồi quy:

+ Giả thiết 𝐻0: “Phương trình hồi quy tuyến tính không thích hợp.”

+ Giả thiết 𝐻1: “Phương trình hồi quy tuyến tính thích hợp.”

+ Trắc nghiệm F < F𝛼,1,𝑛−2: chấp nhận 𝐻0

 Thực hiện trên Excel:


 Nhập số liệu vào bảng tính:
 Dùng chức năng Data/Data Analysis/Regression.
 Kết quả:

Phương trình hồi quy: y x = -52.1207 + 10.7770x


Để kiểm định các hệ số hồi quy ta xét:
Hệ số hồi quy t Stat:
-0,3162 < 2,306 (bảng Student với α/2=0.025 và n=8)
 Chấp nhận H0, tức hệ số tự do không có ý nghĩa.
3,1946 > 2,306 (bảng Student với α/2=0.025 và n=8)
 Bác bỏ H0, tức hệ số tự do có ý nghĩa.
⇒ Phương trình hồi quy tuyến tính này thích hợp vì F=10,2053> 5,318 (bảng Fisher
với α=0.05 n1=2-1 và n2=10-2)

Chi phí chào Chi phí quảng


Doanh số bán Y
d) Tìm hàng X1(Triệu cáo X2(Triệu sai số
(Triệu đồng)
chuẩn đồng) đồng) của ước
lượng: 100 180 1270

 Dùng kết quả từ


bảng
SUMMARY OUTPUT từ câu trên ta xác định được sai số chuẩn của ước lượng:

⇒ Dùng kết quả từ bảng SUMMARY OUTPUT từ câu trên ta xác định được

Đối với biến tự do: SE = 164.8202


Đối với biến X: SE = 3.3735
Bảng dưới đây cho các số liệu về doanh số bán (Y), chi phí chào hàng (X1) và chi
phí quảng cáo (X2) của một công ty
Sử dụng mô hình hồi quy tuyến tính đa biến để biết được doanh số bán có liên
quan tuyến tính với chi phí chào hàng và chi phí quảng cáo không.
106 248 1490
60 190 1060
160 240 1626
70 150 1020
170 260 1800
140 250 1610
120 160 1280
116 170 1390
120 230 1440
140 220 1590
150 150 1380

 Cơ sở lý thuyết :
Phương trình tổng quát cho biến phụ thuộc Y có liên quan đến k biến số độc lập Xi
(i=1,2,...,k):
𝑌𝑋̂
1 𝑋2 …𝑋𝑘
= B0 + B1X1 + B2X2 …..+ BkXk
 Bảng ANOVA :

Nguồn sai Tổng số bình Bình phương trung Giá trị thống
Bậc tự do
số phương bình kê
SSR MSR
Hồi quy K SSR MSR  F
k MSR
SSE
Sai số N–k–1 SSE MSE 
N  k 1
Tổng cộng N–1 SST = SSR + SSE

 Giá trị thống kê:


 Giá trị R-bình phương:

SSR kF
R2  
SST ( N  k  1)  kF
 Giá trị R2 được hiệu chỉnh (Adjusted R Square)
( N  1) R 2  k k (1  R 2 )
R 2ii   R2 
N  k 1 N  k 1

(𝑅𝑖𝑖2 sẽ trở nên âm hay không xác định nếu R2 hay N nhỏ)

 Độ lệch chuẩn:

SSN
S= (S ≤ 0,30 là khá tốt)
N  k 1

 Trắc nghiệm thống kê:


 Trắc nghiệm t:
H0 : Bi = 0 “Các hệ số hồi quy không có ý nghĩa”
H1 : Bi ≠ 0 “Có ít nhất vài hệ số hồi quy có ý nghĩa”
Bậc tự do của t: y = N - k – 1
| Bi  Bi | S2
t= , Sn=
sn 2  ( X i  X )2
Trắc nghiệm F:
H0 : Bi = 0 “Phương trình hồi quy không thích hợp”
H1 : Bi ≠ 0 “Phương trình hồi quy thích hợp ” với ít nhất vài Bi.
Bậc tự do của giá trị F: v1= 1, v2= N-k-1
 Thực hiện trên excel :
 Nhập bảng số liệu :

 Dùng chức năng Data/Data Analysis/Regression.


 Kết quả:

 Biện luận:
Phương trình hồi quy: yx1 , x2 = 328,1383 +4,6495x1 + 2,5602x2
Để kiểm định các hệ số hồi quy ta xét:
Hệ số hồi quy t Stat:
4,5580 > 2.262 (bảng Student với α/2=0.025 và n=9)
 Bác bỏ H0, tức hệ số tự do có ý nghĩa.
9,9105 > 2.262 (bảng Student với α/2=0.025 và n=9)
 Bác bỏ H0, tức hệ số gắn với X1 có ý nghĩa.
6,7477 > 2.262 (bảng Student với α/2=0.025 và n=9)
 Bác bỏ H0, tức hệ số gắn với X2 có ý nghĩa.
 Để kiểm định về sự thích hợp của phương trình hồi quy ta xét:
Hệ số F = 134,7484 > 4,257 (bảng Fisher với α=0.05 n1= 2 và n2=9)
Bác bỏ H0, tức phương trình hồi quy thích hợp.
 Kết luận : Cả ba hệ số hồi quy gắn với X1, X2 và hệ số tự do có ý nghĩa thống kê.
Hay có thể nói Doanh số bán có liên quan tuyến tính với cả chi phí quảng cáo và chi
phí chào hàng
Bài 6: Tìm 1 ví dụ liên quan đến chuyên ngành học để minh họa cho một bài
toán phân tích phương sai cụ thể. Yêu cầu:
+ Dạng bài toán PTPS: tùy chọn, có thể giống dạng PTPS ở Bài 3. (Lưu ý:
đơn giản nhất là bài toán PTPS 1 yếu tố).
+ Trình bày cơ sở lý thuyết, nhớ lưu ý điều kiện để bài toán thực hiện
được.
+ Trình bày lời giải theo 2 cách: tính trực tiếp theo công thức và ứng dụng
Excel.
Bài làm :
Cơ sở lý thuyết:
Trường hợp k tổng thể có phân phối bình thường và phương sai bằng nhau:
Ba giả định về các nhóm tiến hành phân tích ANOVA:
+ Các tổng thể có phân phối bình thường;
+ Các phương sai tổng thể bằng nhau;
+ Các quan sát lấy mẫu là độc lập nhau;
Tổng thể
1 2 3 … k
x11 x21 x31 xk1
x12 x22 x32 xk2
… … … … …
x1n1 x2n2 x3n3 xknk

Giả sử trung bình các tổng thể được ký hiệu là tb1,tb2,… thì khi các giả định trên được
đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm
định giả thuyết như sau:
H0 : tb1 = tb2= tb3= tb4=…=tbk;
H1 : Tồn tại ít nhất một cặp trung bình tổng thể khác nhau;
Bước 1:
Tính trung bình mẫu từng nhóm 𝑥̅1 ; ̅̅̅;
𝑥2 … ; ̅̅̅
𝑥𝑘 theo công thức:
∑𝑛𝑗=1
𝑖
𝑥𝑖𝑗
𝑥̅𝑖 = (𝑖 = 1,2,3, … )
𝑛𝑖
Và trung bình của k mẫu (trung bình chung của toàn bộ mẫu khảo sát):
∑𝑘𝑖=1 𝑛𝑖 𝑥̅𝑖
𝑥̅ = 𝑘
∑𝑖=1 𝑛𝑖
Bước 2: Tính tổng các chênh lệch bình phương :
+ Tổng các chênh lệch bình phương trong trong nội bộ nhóm SSW (sum of squares within
group) và tổng chênh lệch các bình phương giữa các nhóm SSG (sum of squares between
group),
+SSW phản ánh phần biến thiên của yếu tố kết quả do ảnh hưởng của các yếu tố khác,
chứ không phải của yếu tố nguyên nhân đang nghiên cứu (là yếu tố dùng để phân biệt các
tổng thể/ nhóm đang so sánh).
Tổng chênh lệch bình phương của từng nhóm được tính theo công thức:
𝑛
1
Nhóm 1: 𝑆𝑆1 = ∑𝑗=1(𝑥1𝑗 − 𝑥̅1 )2
𝑛
2
Nhóm 2: 𝑆𝑆2 = ∑𝑗=1 𝑥2 2
(𝑥2𝑗 − ̅̅̅)
Tương tự như vậy cho đến nhóm thứ k được SSk. Vậy SSW được tính như sau:
SSW = SS1 + SS2 + … + SSk
Một cách tổng quát ta có công thức:
𝑘 𝑛𝑖

𝑆𝑆𝑊 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅𝑖 )2


𝑖=1 𝑗=1

+SSG phản ánh phần biến thiên của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân
đang nghiên cứu.
𝑘

𝑆𝑆𝐺 = ∑ 𝑛𝑖 (𝑥̅𝑖 − 𝑥̅ )2
𝑖=1

+Tổng chênh lệch bình phương toàn bộ SST phản ánh biến thiên của yếu tố kết quả do
ảnh hưởng của tất cả nguyên nhân.
𝑘 𝑛𝑗

𝑆𝑆𝑇 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅ )2
𝑖=1 𝑗=1

Như vậy ta có SST = SSG +SSW . Vậy SST là biến thiên của yếu tố kết quả được phân
tích thành hai phần phần biến thiên do yếu tố đang nghiên cứu tạo ra (SSG) và phần biến
thiên còn lại do các yếu tố khác tạo ra (SSW). Nếu phần biến thiên do các yếu tố đang xét
càng đáng kể so với phần biến thiên của các yếu tố khác không xét tạo ra, thì chúng ta
càng có cơ sở để bác bỏ H0 và kết luận là yếu tố nguyên nhân đang xét ảnh hưởng có ý
nghĩa đến kết quả.
Bước 3 : Tính phương sai :
𝑆𝑆𝑊
Phương sai nội bộ nhóm 𝑀𝑆𝑊 =
𝑛−𝑘
𝑆𝑆𝐺
Phương sai giữa các nhóm 𝑀𝑆𝐺 =
𝑘−1

Bước 4 : Kiểm định giả thiết :


𝑀𝑆𝐺
Tỉ số 𝐹 =
𝑀𝑆𝑊

Ta bác bỏ giả thiết H0 cho rằng trị trung bình của k tổng thể bằng nhau khi :
𝐹 > 𝐹(𝑘−1;𝑛−𝑘);∝
𝐹(𝑘−1;𝑛−𝑘);∝ là giá trị giới hạn tra từ bảng phân phối FISHER với bậc tự do k-1 tra theo
hàng đầu tiên và n-k tra theo hàng đầu tiên, lưu ý chọn bảng có mức ý nghĩa phù hợp.
Bảng kết quả tổng quát của ANOVA :
Nguồn biến Tổng chênh Bậc tự do Phương sai Tỉ số
thiên lệch bình (df) (MS) (F)
phương(SS)
Giữa các nhóm SSG k-1 𝑆𝑆𝐺 𝑀𝑆𝐺
𝑀𝑆𝐺 = 𝐹=
𝑘−1 𝑀𝑆𝑊
Nội bộ nhóm SSW n-k 𝑆𝑆𝑊
𝑀𝑆𝑊 =
𝑛−𝑘

Toàn bộ SST n-1


Cụ thể trong bài toán này chúng em đã khảo sát tốc độ download của mạng 3G viettel
qua một số quận ở thành phố Hồ Chí Minh bằng phần mềm speedtest và thu được kết quả
như bảng sau (Đơn vị : Mbqs):
Giả thuyết kiểm định:
H0 :Chỉ số bức xạ điện từ trung bình giữa các thiết bị di động là như nhau.
H1 :Chỉ số bức xạ điện từ trung bình giữa các thiết bị di động là khác nhau
Bước 1: Tính trung bình:.
239,83
Quận 10 : 𝑥̅1 = = 11,9915;
20
158,86
Quận Thủ Đức : ̅̅̅
𝑥2 = = 7,943;
20
290,7
Quận 1: ̅̅̅
𝑥3 = = 14,535;
20
195,78
Quận Tân Bình: ̅̅̅
𝑥4 = = 9,789;
20
187,14
Quận Bình Thạnh: ̅̅̅
𝑥5 = = 9,357;
20
20×11,9915+20×7,943+20×14,535+20×9,789+20×9.357
Trung bình của các nhóm 𝑥̅ = = 10,7231
100

Bước 2: Tính tổng các chênh lệch bình phương:


+SSW = SS1 + SS2 + SS3 + SS4 +SS5;
𝑛
Trong đó: 𝑆𝑆1 = ∑𝑗=1
1
(𝑥1𝑗 − 𝑥̅1 )2 (𝑣ớ𝑖 𝑛1 = 20)

SS1 =(10,53 – 11,9915)2 + (10 – 11,9915)2 +…+(14,73 – 11,9915)2


=102,6557;
Tương tự với SS2; SS3 ;SS4 ; SS5.Ta có SSW = 499,0030;
+SSG = ∑𝑘𝑖=1 𝑛𝑖 (𝑥̅𝑖 − 𝑥̅ )2 = 20(11,9915 -10,7231)2+…+20(9,357-10,7231)2=532,2955;
Bước 3: Tính các phương sai:
𝑆𝑆𝑊 499,0030
Phương sai trong nội bộ nhóm: 𝑀𝑆𝑊 = = = 5,2527
𝑛−𝑘 100−5
𝑆𝑆𝐺 532,2955
Phương sai giữa các nhóm : 𝑀𝑆𝐺 = = = 133,0739
𝑘−1 5−1

Bước 4: Tính tỉ số F:
𝑀𝑆𝐺 133,0739
𝐹= = = 25,3344
𝑀𝑆𝑊 5,2527
Ta tra bảng phân phối Fisher với mức ý nghĩa ∝ = 0,05 tại các bậc tự do tương ứng
𝐹(𝑘−1; 𝑛−𝑘);∝ = 𝐹(5−1; 100−5);0,05 = 2,4675
Vì F = 25,3344> 𝐹(𝑘−1;𝑛−𝑘);∝ = 2,4675 nên ta có thể bác bỏ được giả thuyết H0 và
chấp nhận giả định H1 hay ta nói rằng tốc độ download mạng viễn thông viettel có phụ
thuộc vào vị trí (quận) trong tp Hồ Chí Minh.
Cách 2: Giải bằng excel như sau:
Bước 1: Nhập bảng dữ liệu:

Bước 2: Áp dụng “ANOVA: Single Factor”


a) Nhấp lần lượt đơn lện Tools và lệnh Data Analysis.
b) Chọn chương trình ANOVA: Single Factor trong hộp thoại Data Analysis
rồi nhấp nút OK
c) Trong hộp thoại ANOVA: Single Factor, lần lượt ấn định:
- Phạm vi đầu vào (Input Range)
- Cách sắp xếp theo hàng hay theo cột (Group By)
- Nhãn dữ liệu (Labels in First Row/ Column)
®Kết quả và biện luận:
Vì F = 25,3344> 𝐹(𝑘−1;𝑛−𝑘);∝ = 2,4675 nên ta có thể bác bỏ được giả thuyết H0.

You might also like