You are on page 1of 44

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

BÁO CÁO BÀI TẬP LỚN


XÁC SUẤT THỐNG KÊ
Giảng viên hướng dẫn: ThS. Nguyễn Kiều Dung
Nhóm sinh viên thực hiện: 7

Nhó
Ký tên tham
STT Họ tên SINH VIÊN MSSV m Ngành học
dự
/Tổ

Nguyễn Trọng Đồng 1913130 Điện-Điện tử


1 L04
Nguyễn Quốc Đạt 1913054 Điện-Điện tử
2 L04
Ngô Minh Đạt 1913041 Điện-Điện tử
3 L04
Lê Văn Hợp 1913485 Điện-Điện tử
4 L04
Nguyễn Minh Công 1912804 Điện-Điện tử
5 L04
Võ Quốc Hưng 1913656 Điện-Điện tử
6 L04
Nguyễn Hoàng Luân 1911551 Xây dựng
7 L04
Phạm Hồng Thái 1915119 Điện-Điện tử
8 L04
Lương Ngọc Nam Huy 1913523 Điện-Điện tử
9 L04

1|Page
Phụ lục
Bài 1 ---------------------------------------------------------------------------------------------4
A. Lập bài toán------------------------------------------------------------------------4
B. Cơ sở lý thuyết----------------------------------------------------------------------4
C. Tính toán bằng tay----------------------------------------------------------------5
D. Tính bằng excel---------------------------------------------------------------------7
Bài 2 -------------------------------------------------------------------------------------------10
A. Lập bài toán-----------------------------------------------------------------------10
B. Cơ sở lý thuyết--------------------------------------------------------------------11
C. Tính toán bằng tay---------------------------------------------------------------12
D. Tính bằng excel-------------------------------------------------------------------13
Bài 3 -------------------------------------------------------------------------------------------16
A. Lập bài toán-----------------------------------------------------------------------16
B. Cơ sở lý thuyết--------------------------------------------------------------------18
C. Tính toán bằng tay---------------------------------------------------------------19
D. Tính bằng excel-------------------------------------------------------------------20
Bài 4 -------------------------------------------------------------------------------------------23
A. Lập bài toán-----------------------------------------------------------------------23
B. Cơ sở lý thuyết--------------------------------------------------------------------25
C. Tính toán bằng tay---------------------------------------------------------------26
D. Tính bằng excel-------------------------------------------------------------------27
Bài 5 -------------------------------------------------------------------------------------------29
A. Lập bài toán-----------------------------------------------------------------------29
B. Cơ sở lý thuyết--------------------------------------------------------------------29
C. Tính toán bằng tay---------------------------------------------------------------32

2|Page
D. Tính bằng excel-------------------------------------------------------------------33
Bài 6 -------------------------------------------------------------------------------------------35
A. Lập bài toán-----------------------------------------------------------------------------------------35
B. Cơ sở lý thuyết--------------------------------------------------------------------36
C. Tính toán bằng tay---------------------------------------------------------------37
D. Tính bằng excel-------------------------------------------------------------------38

3|Page
Câu 1: Chọn 1 biến định lượng nào đó và thực hiện:
- Tìm các đặc trưng từ mẫu dữ liệu
- Tìm các khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể.
A. Lập bài toán
* Chọn biến định lượng: Chi phí trung bình cho các hoạt động giải trí của sinh viên.
Bài toán: Dựa và số liệu thu thập được từ khảo sát, hãy tìm các đặc trưng mẫu của dữ liệu “Chi
phí trung bình cho các hoạt động giải trí của sinh viên. “. Với độ tin cậy 99%, tìm các khoảng tin
cậy cho giá trị trung bình và phương sai của tổng thể.
B. Cơ sở lý thuyết
Mẫu dữ liệu bao gồm một số đặc trưng như: Giá trị trung bình, phương sai, độ lệch chuẩn,....
Tính toán các giá trị đặc trưng của mẫu là công việc cần thiết nhất trong phân tích số liệu ở thống
kê.
 Trung bình mẫu:
n
1
x́= ∑x
n i=1 i

 Phương sai mẫu hiệu chỉnh:


n
2 1 2
S= ∑ ( x i−x́ )
n−1 i=1

 Độ lệch mẫu hiệu chỉnh:

S= √ S2
Tìm khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể với độ tin cậy 99%:
 Khoảng tin cậy cho giá trị trung bình:
Bài toán thuộc trường hợp n>30 , ( n=123 )

Ta có: P ¿) = P ( ⌊ X−a
s

√ n<
ꜫ √n
s )
=1−α

ꜫ √n
Đặt Z α = , ta có
s
X−a
N (0,1) nên 2 Φ(Z α )=1−α
s
Tra bảng ta tìm được Z α

4|Page
Zα . S
ε= và khoảng ước lượng của a là (x−ꜫ ; x + ꜫ)
√n
 Khoảng tin cậy cho phương sai tổng thể:
( n−1 ) S 2 2
Ta có : χ (n−1)
σ2

Với
1   2   , theo định lí 6.4, ta có:

( n−1 ) S 2 2
(
2
P χ 1−α ( n−1 ) α <
1
σ2 )
< χ α ( n−1 ) =1−α
2

Từ đó, với môt mẫu cụ thể ta có khoảng ước lượng của  là:
2

( n−1 ) . S 2 ( n−1 ) . S 2
( ; )
χ 2α ( n−1 ) χ 21−α ( n−1 )
2 1


1   2 
Để thuận tiện ta luôn xét 2 .Khi đó khoảng ước lượng là:

( n−1 ) . S 2 ( n−1 ) . S2
( 2 ; )
χ α ( n−1 ) χ 2 α ( n−1 )
1−
2 2

C. Tính toán bằng tay:


Từ các số liệu khảo sát ta có bảng thống kê chi phí trung bình cho các hoạt động giải trí của sinh
viên như sau.

Số lượng phần tử của mẫu:


n=123
Trung bình chi phí cho các hoạt động giải trí của sinh viên:
n
1 25+25+ 25+…+175+200+200+ 200+200
x́= ∑ x i= =97.3577 (nghìn đồng)
n i=1 123

Trung vị của mẫu dữ liệu:

5|Page
Med=75 (nghìn đồng)
Yếu vị của mẫu dữ liệu:
Mod=75 (nghìn đồng)
Phương sai mẫu hiệu chỉnh:

2 ( 25−97.3577 )2 + ( 25−97.3577 )2 +…+ ( 200−97.3577 )2 + ( 200−97.3577 )2


S= =3102.592 (nghìn
123−1
đồng2)
Độ lệch mẫu hiệu chỉnh:
S= √3102.592=55.70092 (nghìn đồng)
Giá trị lớn nhất của mẫu:
Max=200 (nghìn đồng)
Giá trị bé nhất của mẫu:
Min=25 (nghìn đồng)
Khoảng tin cậy cho giá trị trung bình:
Ta có: n=123>30
Gọi x là trung bình chi phí cho các hoạt động giải trí của sinh viên:
x=97.3577 (nghìn đồng)
S=55.70092 (nghìn đồng)
Do mẫu n>30 ,độ tin cậy đặt ra của bài toán là 99% tức là:
1−α=0.99
0.99
Φ ( Z α )= =0.495
2
Dựa vào bảng ta có được:
Z α =2.61
S 2.61. 55.3577
ε =Z α . = =13.0276 (nghìn đồng)
√n √123
( x́−ε ; x́ + ε)=(97.3577−13.0276 ; 97.3577+13.0276) (nghìn đồng)
Khoảng tin cậy cho phương sai tổng thể:
Ta có 1−α=99 %

6|Page
α
=0.005
2
Từ mẫu ta có S2=3102.592. Tra bảng phân phối χ 2 với n−1=122, ta có:
χ 0.005 ( 122 )=165.9795; χ 0.995 ( 122 )=85.520

Vậy khoảng tin cậy là:

( 122.3102.592
165.9795
;
122.3102.592
85.5205 )
=(2280.4999 ; 4426.0291) (Nghìn đồng ) 2

D. Tính toán bằng Excel:


*Phương pháp: Tại phần mềm Excel, chức năng Descriptive Statistics hổ trợ trong việc tính toán
các giá trị đặc trưng của mẫu. Để mở chức năng này trong Excel, thực hiện các bước: Data →
Data Analysis → Hộp option xuất hiện, chọn Descriptive Statistics rồi nhấn OK.

Hộp Data Analysis

7|Page
Hộp Descriptive Statistics
Tại hộp Descriptive Statistics ta nhập các dữ liệu sau
 Input range: Nhập đầu vào dữ liệu.
 Grouped by: Dữ liệu được sắp xếp theo cột (Columns) hay hàng (Rows).
 Output Range: Tích chọn để chọn vị trí xuất dữ liệu đầu ra.
 Summary statistics: Thống kê tóm tắt.
 Confidence Level for Mean: Độ tin cậy cho giá trị trung bình.
(Lưu ý: Dữ liệu đầu vào phải ở định dạng Number thì Excel mới có thể xử lý.)

Sau khi nhập dữ liệu ta nhấn OK, kết quả nhận được như sau:

8|Page
Các giá trị nhận được được liệt kê dưới bảng sau:
Statistic Describle
Mean Giá trị trung bình của mẫu dữ liệu
Standard Error Giá trị sai số tiêu chuẩn của mẫu (thước đo khác nhau giữa dự đoán và
thực tế)
Median Trung vị của mẫu dữ liệu
Mode Mốt của mẫu dữ liệu
Standard Độ lệch chuẩn
Deviation
Sample Variance Phương sai
Kurtosis Giá trị KURT
Skewness Giá trị SKEW
Range Khoảng khảo sát
Minimum Giá trị nhỏ nhất
Maximum Giá trị lớn nhất
Sum Tổng giá trị các phần tử của mẫu dữ liệu
Count Tổng số lượng các phần tử của mẫu
Confidence Level Khoảng tin cậy cho giá trị trung bình.

Nhận xét: Giá trị Confidence Level nhận được chính là ε =13,142.22 (đồng)
Để tìm khoảng tin cậy cho phương sai của dữ liệu:
Trong Excel để tìm khoảng tin cậy cho phương sai của dữ liệu ta sử dụng hàm CHISQ.INV.RT
2 2
để tính χ α (n−1) và hàm CHISQ.INV để tính χ α (n−1).
1−
2 2

9|Page
2
Nhập hàm vào ô nhập hàm để tìm giá trị χ α (n−1):
2

Kết quả nhận được:


2
Ta cũng làm tương tự để tìm giá trị χ 1− α (n−1):
2

Kết quả nhận được:


Dựa vào hai hết quả vừa có được ta có thể tính ra được khoảng tin cậy của phương sai:

Ta có được khoảng tin cậy của phương sai:


Nhận xét: khoảng tin cậy của phương sai là (2280.50; 4426.03) (Nghìn đồng2)
Câu 2: Chọn dữ liệu 2 biến định lượng (hoặc xử lý số liệu theo nhóm cho phù hợp)
để lập bài toán kiểm định so sánh 2 trung bình tổng thể.
A. Lập bài toán:
* Chọn 2 biến định lượng: Chỉ số đánh giá mức độ ưu tiên của sinh viên với hoạt động chơi thể
thao và chơi game (thể thao điện tử ).

10 | P a g e
Bài toán: Dựa vào số liệu đã được xử lý sau khi thu thập từ khảo sát của các sinh viên đại học,
hãy so sánh trunh bình tổng thể của hai dữ liệu: “Mức độ ưu tiên cho các hoạt động thể thao và
chơi game của sinh viên”. Với mức độ tin cậy là 95% hãy kết luận xem mức độ ưu tiên cảu sinh
viên với hai hoạt động này là giống nhau hay không.

11 | P a g e
B. Cơ sở lý thuyết:
Dạng bài: Kiểm định giả thuyết trung bình (bài toán hai mẫu).
Giả sử tổng thể I có trung bình a 1; tổng thể II có trung bình a 2. Từ tổng thể I có mẫu kích thước
n1, trung bình mẫu X́ 1 , phương sai mẫu hiệu chỉnh S21. Từ tổng thể II có mẫu kích thước n2 , trung
bình mẫu X́ 2 , phương sai mẫu hiệu chỉnh S22. Vì mẫu lớn (n>30) nên phương sai mẫu S21 , S 22 được
xem là phương sai của tổng thể σ 12 , σ 22 . Khi ấy, ta áp dùng trắc nghiệm z để so sánh giá trị trung
bình của hai mẫu với phương sai biết trước.
Phương pháp giải: So sánh trung bình 2 tổng thể với phương sai biết trước (n>30).
Giả thuyết:
H0: a 1=a2 “Chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi game là như nhau”.

H1: a 1 ≠ a2 “Chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi game là khác nhau”.
Kích thước mẫu lớn (n>30) Nên ta xem chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao
và chơi game là phân phối chuẩn.
( X́ 1− X́ 2)
Z qs=
Giá trị thống kê: σ 21 σ 22
√ +
N 1 N2

Miền bác bỏ: Wα =(−∞ ;−Z α ) ∪( Z α ;+ ∞)


C. Tính toán bằng tay:

12 | P a g e
Đặt a 1, a2 lần lượt là trung bình mức độ ưu tiên của sinh viên với hoạt động thể thao và hoạt động
chơi game.
Đặt giả thuyết kiểm định:
H0: a 1=a2 “Chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi game là như nhau”.

H1: a 1 ≠ a2 “Chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi game là khác nhau”.
Với bảng dữ liệu thu thập được ta tìm được các đặt điểm của hai dữ liệu như sau:
Mức độ ưu tiên hoạt động Mức độ ưu tiên hoạt động
chơi thể thao chơi game
Trung bình mẫu X́ 2.1301 1.8617
Phương sai mẫu σ 2 0.5567 0.6119
Số lượng mẫu N 123 123

Vì N > 30, nên với mức ý nghĩa 5% ta tìm được miền bác bỏ bằng cách tra ngược bảng tích phân
Laplace:
1−0.05
Z α =Φ ( Z α ) = =0.475 ⟹ Z α =1,96
2
Ta có miền bác bỏ: W α =(−∞;−1.96)∪( 1.96; +∞)

( X́ 1− X́ 2) ( 2.1301−1.8617)
Z qs= = =2.7536
Tiêu chuẩn kiểm định: 2 2
0.5567 0.6119
√ σ1
+
σ
N 1 N2
2
√ 123
+
123

Ta thấy Z qs ∈W α ⟹ Bác bỏ H0, chấp nhận H1. Vậy chỉ số đánh giá mức độ ưu tiên hoạt động
chơi thể thao và chơi game (thể thao điện tử) là khác nhau.
D. Tính toán bằng Excel:
Công cụ giải: Descriptive Statistics và z-Test: Two Sample for Means.
Quy trình thực hiện Excel:
Bước 1: Đầu tiên, ta sử dụng công cụ Descriptive Statistics trong Data/Data Analysis lần lượt tìm
các đặc trưng cho 2 mẫu.

13 | P a g e
Bước 2: Chọn các mục như trong ảnh:

+ Input: Phạm vi đầu vào.


+ Group By: Cách sắp xếp dữ liệu theo hàng hay cột.
+ Output Range: Phạm vi đầu ra.
+ Labels in first row: Nhãn dữ liệu.
+ Summary statistics: Kết quả tóm tắt.
+ Confidence Level for Mean: Mức tin cậy 95%.
Ta được kết quả:

14 | P a g e
Xác định phương sai mẫu của việc đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi
game là:

σ 12=0.5567

σ 22=0.6119

Bước 3: Tiếp theo, ta sử dụng công cụ “z-Test: Two Sample for Means” trong Data/ Data
Analysis để so sánh trung bình hai tổng thể.

Bước 4: Chọn các mục như trong ảnh:

+ Input: Phạm vi đầu vào.


+ Output Range: Phạm vi đầu ra.

15 | P a g e
+ Variable 1 Variance (known): 0.5567
+ Variable 2 Variance (known): 0.6119
+ Labels: Nhãn dữ liệu.
+ Alpha: Mức ý nghĩa 5%.
Ta được kết quả:

Bước 5: Biện luận


Miền bác bỏ: Wα =(−∞ ;−1.96) ∪(1.96 ;+ ∞)
Tiêu chuẩn kiểm định: Zqs = 2.7525 ∈ Wα.
Kết luận: Bác bỏ H0, chấp nhận H1. Vậy chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao
và chơi game (thể thao điện tử) là khác nhau.
Câu 3: Chọn dữ liệu cho k biến (k ≥ 3) (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập
bài toán so sánh về trung bình k tổng thể.
A. Lập bài toán cụ thể:
Từ mẫu dữ liệu đã thu thập và xử lý được, chọn ra ba thông số về mức độ ưu tiên tham gia các
hoạt động giải trí của sinh viên để kiểm định so sánh trung bình tổng thể với mức ý nghĩa 5%, từ
đó kết luận về mức độ ưu tiên với các hoạt động giải trí này là khác hay giống nhau:
Hoạt động thứ nhất: Tán gẫu, ăn uống với bạn bè.
Hoạt động thứ hai: Chơi các môn thể thao, vận động.
Hoạt động thứ ba: Nghe nhạc, đọc sách.
Chú thích:

16 | P a g e
17 | P a g e
B. Cơ sở lý thuyết:
 Lý thuyết phân tích phương sai
Phép phân tích phương sai là so sánh trung bình của hai hay nhiều nhóm dựa trên các giá
trị trung bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm định giả thiết để
kết luận và sự bằng nhau của các trung bình tổng thể này.
 Phương pháp phân tích phương sai 1 yếu tố
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung
bình của hai hay nhiều biến mẫu được lấy từ các phân số. Đây có thể được xem như phần
mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình).
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu
tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,…,k).
Mô hình

18 | P a g e
Yếu tố thí nghiệm

1 2 ….. K

Y11 Y21 ….. Yk1

Y12 Y22 ….. Yk 2

….. ….. ….. …..

Y1N Y2N ….. YkN

T1 T2 …..
Tk T
Tổng cộng
Trung bình
Y1 Y2 ….. Yk Y

Bảng ANOVA:

Nguồn sai Bậc sai Bình phương trung Giá trị thống
Tổng số bình phương
số số bình kê
SSF
k
T 2 T2 MSF 
Yếu tố k 1 SSF   i  k 1 MSF
i 1 N N F
Sai số Nk SSE MSE
SSE  SST  SSF MSE 
Nk
k n
T2
Tổng cổng N 1 SST   Yn 2 
i 1 j1 N

Các bước thực hiện:


Bước 1: Đặt giả thuyết :

H0:
1   2     k  “Các giá trị trung bình bằng nhau”

H1:
1   k  “Ít nhất có hai giá trị trung bình bằng nhau”

MSF
F
Bước 2: Tính toán giá trị kiểm định: MSE
F  F  k  1; N  k 
Bước 3: Biện luận: Nếu → Chấp nhận giả thuyết H0
C. Tính toán bằng tay:
Gọi a1, a2, a3 lần lượt là các giá trị trung bình mức độ ưu tiên của sinh viên với các hoạt động tán

19 | P a g e
gẫu, ăn uống; thể thao; nghe nhạc, đọc sách.
Giả thuyết:
H0: a1 = a2 = a3; “Các giá trị trung bình bằng nhau” (chọn k = 3).
H1: ai = aj “Tồn tại ít nhất hai giá trị trung bình khác nhau”; i, j ∈ {1 ; 2 ; 3 }

Tính toán các giá trị kiểm định:


T 12 T 2
k

∑ N −N
MSF= i=1 =2.9837
k−1
MSE=¿ ¿
MSF 2.9837
F= = =6.1865
MSE 0.4822
Giá trị ngưỡng:
F α ( k −1; N −k ) =F0.05 ( 3−1 ; 366 ) =3.0204
Nhận xét:
Ta thấy: F> F α =3.0204 → Bác bỏ giả thuyết H0.
Vậy mức độ ưu tiên của sinh viên với các hoạt động giải trí này là khác nhau.
D. Tính toán bằng Excel:
Dạng bài: Kiểm định trung bình (Bài toán nhiều mẫu)
Phương pháp giải: Phân tích phương sai 1 yếu tố.
Công cụ giải: Anova: Single Factor.

Bước 1: Nhập k dữ liệu đã được xử lý từ dữ liệu khảo sát (k = 3) vào Excel

20 | P a g e
Bước 2: Chọn công cụ Data Analysis trên thanh công cụ, sau đó chọn “Anova:Single Factor” để
tiến hành lấy kết quả kiểm định, sau đó cài đặt dữ liệu như Bước 3

Bước 3: Trong hộp thoại Anova: Single Factor lần lượt chọn:

 Input Range (Phạm vi đầu vào): Nhấp chuột và kéo vùng dữ liệu muốn tính toán.
 Columns/Rows: Sắp xếp dữ liệu theo cột hay hàng.
 Labels in Fisrt Row/Column: Nhãn dữ liệu
 Alpha: Mức ý nghĩa.

21 | P a g e
 Output Options: Tùy chọn đầu ra.

Xuất kết quả ra Excel:

Bước 4: Biện luận

Giá trị quan sát: F= 6.1865 > Giá trị ngưỡng F crit= 3.0204

22 | P a g e
⟹ Bác bỏ giả thuyết H0, chấp nhận gải thuyết H1.

Kết luận: vậy mức độ ưu tiên của các bạn sinh viên với các hoạt động giải trí là khác nhau.
Câu 4: Chọn dữ liệu cho 2 biến (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập bài toán
kiểm định so sánh về sự phân tán. Trình bày các bước thực hiện và nhận xét kết quả.
A. Lập bài toán cụ thể:
Khảo sát số lần tham gia vào các hoạt động giải trí trong tuần và thời gian tham gia các hoạt
động giải trí trong ngày của các bạn sinh viên. Với mức ý nghĩa là 5% hãy so sánh mức độ phân
tán về số lần tham gia và thời gian tham gia của các bạn sinh viên. Giả thiết các biến này phân bố
theo quy luật chuẩn.
Với các đặt trưng mẫu cho trong bảng sau:

23 | P a g e
24 | P a g e
B. Cơ sở lý thuyết:
 Lý thuyết kiểm định phương sai hai tổng thể
Khi cần kiểm định hai tổng thể có mức độ đồng đều như nhau hay không chúng ta dùng phương
pháp kiểm định phương sai của hai tổng thể độc lập dựa trên một đại lượng F như sau:

F  S12 / S2 2 (Lưu ý: Luôn đặt S21 > S22).

Trong đó:

S12 là phương sai của mẫu thứ nhất, mẫu này có cỡ n .


1

S2 2 là phương sai của mẫu thứ hai, mẫu này có cỡ n .


2

25 | P a g e
Thông thường để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ hai ta làm như sau:
trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được đặt ở tử số, và như vậy mẫu
tương ứng với phương sai đó là mẫu thứ nhất.

Giả thiết đặt ra là kiểm định hai bên:

H0: 𝜎12 = 𝜎22

H1: 𝜎12 ≠ 𝜎22

Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể khó mà bằng
nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứng ủng hộ giả thuyết H 0. Như vậy tỉ lệ F
lớn đến đâu thì xem như là đủ bằng chứng bác bỏ H0 và ngược lại?

Nếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F có phân phối xác suất
gọi tên là phân phối Fisher. Các giá trị tới hạn của phân phối F phụ thuộc và hai giá trị bậc tự do,
bậc tự do tử số (d f 1 =n1−1) gắn liền với mẫu thứ nhất và bậc tự do mẫu số gắn liền với mẫu thứ
hai (d f 2 =n2−1).

Quy tắc thực sự để bác bỏ 𝐻0 với kiểm định hai bên khi d f 1 =n1−1 và d f 2 =n2−1 với mức ý
nghĩa α là: giả thiết H0 bị bác bỏ nếu giá trị kiểm định F lớn hơn giá trị tới hạn trên
F U =F d f 1 ; d f 2 ;α /2 của phân phối F hoặc bé hơn giá trị tới hạn dưới F U =F d f 1 ; d f 2 ;1−α /2 tức là
F tt < F d f 1 ;d f 2 ;1−α / 2 hoặc F tt > F d f 1 ;d f 2 ;α /2

Nếu chúng ta kiểm định bên phải:

H0: 𝜎1 2 = 𝜎2 2

H1: 𝜎12 > 𝜎22

Quy tắc bác bỏ 𝐻0 là khi F tt > F U ( n −1 ;n −1 ;α ) 1 2

 Phương pháp kiểm định phương sai tổng thể

Bài toán kiểm định phương sai tổng thể đưcọ thực hiện qua các bước sau:

Bước 1: Đặt giả thiết kiểm định H0 và giả thiết đối H1.

Bước 2: Xác định tiêu chuẩn kiểm định


F  S12 / S2 2 .

26 | P a g e
Bước 3: Xác định miền bác bỏ bằng giá trị tra bảng Fisher.

Bước 4: Dựa vào tiêu chuẩn kiểm định và miền W α đưa ra kết luận.

C. Tính toán bằng tay:

Gọi 𝜎1 2 , 𝜎2 2 là phương sai mức độ phân tán của hai biến khảo sát.

Giả thiết:

H0: 𝜎1 2 = 𝜎2 2 ,”Mức độ phân tán của hai biến này là như nhau”

H1: 𝜎 12 > 𝜎2 2 ,”Mức độ phân tán của số lần tham gia hoạt động giải trí trong tuần cao hơn mức
độ phân tán thời gian trung bình trong một ngày dành cho giải trí”.

Miền bác bỏ W α =( f α ( n 1−1; n2−1 ) ;+∞ ) =( f 0.05 ( 122 ; 122 ) ;+ ∞ )=(1.3485 ;+∞ ) (tra bảng Fisher)

S 21 4.6369
Tiêu chuẩn kiểm định: F= = =4.6019
S 22 1.0076

Ta thấy: F= 4.6019 ∈ 𝑊𝛼 → Bác bỏ H0

Kết luận: Mức độ phân tán của số lần tham gia hoạt động giải trí trong tuần cao hơn mức độ
phân tán thời gian trung bình trong một ngày dành cho giải trí.

D. Tính toán bằng Excel:

Dạng bài: Kiểm định giả thuyết cho phương sai hai tổng thể.

Công cụ: F-Test Two-Sample for Variances.

Bước 1: Nhập dữ liệu vào bảng tính

27 | P a g e
Bước 2: Vào Data/ Data Analysis/ F-Test Two-Sample for Variances

Bước 3: Chọn các mục như hình:

 Input: Địa chỉ tuyệt đối chứa dữ liệu tương ứng của mẫu 1 và 2
 Alpha: Mức ý nghĩa α =5 %
 Output options: Tùy chọn đầu ra.

28 | P a g e
Xuất kết quả ra Excel:

Bước 4: Biện luận

Miền bác bỏ: 𝑊𝛼 = (1.3485; +∞)

F= 4.6019 ∈ 𝑊𝛼 → Bác bỏ H0
Kết luận: Mức độ phân tán của số lần tham gia hoạt động giải trí trong tuần cao hơn mức độ
phân tán thời gian trung bình trong một ngày dành cho giải trí.
Câu 5: Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ (hay là bài toán kiểm định
tính độc lập). Trình bày các bước thực hiện và nhận xét kết quả.
A: Lập bài toán.
Từ số liệu thu thập được nhóm chọn 2 thông số để lập bài toán kiểm định tính độc lập được
thống kê bằng bảng tần số thực nghiệm sau:

29 | P a g e
Chú thích:

Dữ liệu 1: Nơi ở hiện tại của sinh viên.


Dữ liệu 2: Mức độ ưu tiên của sinh viên cho hoạt động chơi thể thao.
Với mức ý nghĩa α =5 %, hãy so sánh phân bố tỉ lệ mức ưu tiên với các nơi ở cảu sinh viên.
B. Cơ sở lý thuyết:
Trong thống kê, kiểm định chi bình phương hay kiểm tra χ 2. (đôi khi đọc là "khi bình
phương") là một họ các phương pháp kiểm định giả thiết thống kê trong đó thống kê
kiểm định tuân theo phân bố χ 2 nếu giả thuyết không là đúng.

Dạng thống kê kiểm định thông dụng nhất là:

2 ( o−e)2
γ = Với o là dữ liệu đo đạc , e là giá trị dự đoán chính xác.
e

Xét một bộ A gồm r tính trạng, A = (A1, A2, ...,Ar), trong đó mỗi cá thể của tập hợp chính
H có và chỉ có một trong các tính trạng (hay phạm trù) Ai.
Gọi pi (i = 1, 2, ... r) là tỷ lệ cá thể tính trạng Ai trong tập hợp chính H. Khi đó véctơ
=(p1, p2, ...,pr) được gọi là phân bố của A trong tập hợp chính H.
Giả sử (p1, p2,...pr) là phân bố của (A1, A2, ...,Ar) trong tập hợp chính H và (q1, q2,...,qr) là
phân bố của A = (A1, A2, ...,Ar) trong tập hợp chính Y. Ta nói (A1, A2, ...,Ar) có phân bố như
nhau trong X và Y nếu (p1, p2, ...,pr) = (q1, q2,...,qr)  p1 = q1,...,pr = qr.
Chúng ta muốn kiểm định xem A = (A1, A2, ...,Ar) có cùng phân số trong X và Y hay
không dựa trên các mẫu ngẫu nhiên rút từ X và Y.

Tổng quát hơn, giả sử ta có k tập hợp chính H1, H2,...Hk. Gọi π i=( p i1 , pi2 , … , pir ) là phân bố của
A = (A1, A2, ...,Ar) trong tập hợp chính Hi.

30 | P a g e
Ta muốn kiểm định giả thuyết sau:
H 0 :π 1=π 2=…=π k(Các phân bố này là như nhau trên các tập hợp chính Hi).
Chú ý rằng H0 tương đương với hệ đẳng thức sau:

p 11= p21=..= p k1

{ p 12= p22=..= p k2
1 2
p i = pi =..= p i
k

p 1r = p2r =..= p kr

Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên. Mẫu ngẫu nhiên chọn từ
tập hợp chính Hi được gọi là mẫu ngẫu nhiên thứ i (i = 1, 2,... k).
Giả sử trong mẫu ngẫu nhiên thứ i:
Có n1i cá thể có tính trạng A1.
n2i cá thể có tính trạng A2.
..............................
nri cá thể có tính trạng Ar.
k r
Ký hiệu: nio =∑ nij ; n oj =∑ nij
j=1 i=1

Như vậy n oj là kích thước của mẫu thứ j, còn nio là tổng số cá thể có tính trạng Ai trong toàn
bộ k mẫu đang xét:
k r
n=∑ noj =∑ nio
j=1 i=1

Nếu giả thiết H0 là đúng nghĩa là:

p 11= p21=..= p k1= p1

{ p 12= p22=..= p k2= p2


1 2 k
p i = pi =..= p i = pi
p1r = p2r =..=p kr = pr

nio
thì các tỷ lệ chung p1, p2,...pr được ước lượng bởi: ^
pi =
n
Đó ước lượng cho xác suất để một cá thể có mang tính trạng Ai. khi đó số cá thể có tính
trạng Ai trong mẫu thứ j sẽ xấp xỉ bằng:
noj × nio
n^ij =noj × ^
p i=
n
Các số n^ij (i 1,2,...r; j 1,2,...k)được gọi là các tần số lý thuyết (TSLT), các số nij được gọi là các
tần số quan sát (TSQS)

31 | P a g e
Ta quyết định bác bỏ H0 khi các TSLT cách xa TSQS một cách bất thường. Khoảng cách
giữa TSQS và TSLT được đo bằng test thống kê sau đây:

(TSQS−TSLT )2
T =∑
TSLT
Người ta chứng minh được rằng nếu H0 đúng và các TSLT không nhỏ hơn 5 thì T sẽ có phân
bố xấp xỉ phân bố với (k-1)(r-1) bậc tự do. Thành thử miền bác bỏ có dạng {T > c} ở đó c được
tìm từ điều kiện P{T > c} = . Vậy c là phân vị mức  của phân bố 2 với (k-1)(r-1) bậc tự do.
Đối với thí nghiệm có các kết quả, để so sánh các tỉ số của các kết quả đó, ta
dùng kiểm định 2 (chi-quared):

2
r c
(n ij −n p i)2 tổng hàng× tổng cột
γ =∑ × ∑ × với npi=
i=1 j=1 n pi n

nij : tần số thực nghiệm; np ij: tần số lý thuyết ô (i;j); r: số hàng; c: số cột.

Dùng hàm CHITEST(actual_range, expected_range).


Tính giá trị P(X>γ 2)=CHITEST. Nếu trị P(X>γ 2)>α thì chấp nhận H0 và ngược lại.
Các bước thực hiện:
Bước 1: Đặt giả thuyết bài toán kiểm định.
Giả thiết kiểm định H0: X, Y độc lập
Giả thiết đối H1: X, Y không độc lập
Bước 2: Tìm miền bác bỏ Wα= ( χ 2α (số hàng -1)*(số cột -1) ; +∞)
Bước 3: Do giả thiết X, Y độc lập nên xác suất tính theo lý thuyết là:

ni m j
pi j  P(X  A i ;Y  B j )  P(X  Ai ) * P(Y  B j )  *
n n
Suy ra tần số lý thuyết là:

ni * m j tonghangi * tong cot j


E ij  n * pij  
n kichthuocmau
Tính tiêu chuẩn kiểm định:

O ij  E ij   Observed i j  Expected ij 
2 2

 2 qs   
i; j E ij i; j Expected ij

32 | P a g e
 n ij2 
 2
qs  n.   n
hoặc:
 i; j n i  m j 

Bước 4: Kết luận bài toán dựa vào tiêu chuẩn kiểm định và miền bác bỏ.

Lưu ý: Kiểm định Chi-Bình-Phương được coi là chính xác hơn khi tất cả giá trị trong bảng tần
số lý thuyết lớn hơn hay bằng 5. Vì vậy khi trong bảng tần số lý thuyết xuất hiện số nhỏ hơn 5 thì
ta
nên sắp xếp lại dữ liệu ban đầu cho thích hợp rồi thực hiện lại bài toán.

C. Tính toán bằng tay:


Gọi X là mức ưu tiên của sinh viên với hoạt động thể thao, Y là nơi ở hiện tại của sinh viên.
Giả thuyết kiểm định.
H0: X,Y độc lập. “Mức ưu tiên cho hoạt động thể thao của sinh viên không phụ thuộc vào nơi ở”.
H1: X,Y phụ thuộc. “Mức ưu tiên cho hoạt động thể thao cảu sinh viên có phụ thuộc vào nơi ở”.
Tìm miền bác bỏ:
W α =( χ 2α × ( số hàng−1 ) × ( số cột −1 ) ;+∞ ) =( χ 20,01 ×2 ×2 ;+ ∞ ) =( 9,49 ;+ ∞ )
Tính tổng cột và hàng của bảng tần số thực nghiệm O ij:

Từ đó ta tính được bản tần số lý thuyết Eij:

33 | P a g e
Giá trị thống kê:
2
( Oij −E ij ) (4−6,34 )2 (8−8,45)2 (12−15,83)2
2
χ =∑
α
i; j E ij
=( 6,34
+
8,45
+…+
15,83 ) =3,57

Hay:

n2ij 42 82 152 122 122


2
χ =n× ∑
qs (
i , j ni × m j
−n=115× )
+ + (
27 ×27 27 ×36 35 × 52
+…+ +
35 ×36 35 ×52
−115=3,57 )
Ta thấy: χ 2qs ∉W α

⟹Chấp nhận H0. Vậy mức độ ưu tiên cho hoạt động chơi thể thao của sinh viên không phụ
thuộc vào nơi ở hiện tại của các bạn ấy.
D. Tính toán bằng Excel:
Dạng bài: So sánh tỉ số.
Công cụ: Hàm CHITEST.
Bước 1: Nhập số liệu

Bước 2: tính tổng cột và hàng bằng công cụ autosum

34 | P a g e
Bước 3: Lập bảng tần số lí thuyết

Bước 4: Tính p-value = hàm chitest

Bước 5: kết luận


Ta thấy p-value > mức ý nghĩa α = 5%

35 | P a g e
⟹ Chấp nhận H0. Vậy mức độ ưu tiên cho hoạt động chơi thể thao của sinh viên không phụ
thuộc vào nơi ở hiện tại của các bạn.
Câu 6: Khảo sát hệ số tương quan giữa 2 biến định lượng cụ thể, dự đoán phương
trình đường hồi quy tuyến tính giữa chúng ( có hình vẽ minh họa) và nhận
xét về mối tương quan tuyến tính giữa 2 biến.
A: Lập bài toán.
Khảo sát hệ số tương quan giữa 2 biến Số lần tham gia hoạt động trong một tuần và Thời gian
trung bình 1 ngày cho các hoạt động giải trí. Dự đoán phương trình đường hồi quy tuyến tính
giữa chúng và nhận xét về mối tương quan.

1 Số lần Thời gian


tham gia trung bình
hoạt động 1 ngày cho
trong một các hoạt
tuần động giải
trí
2 1.50 1.50
3 1.50 2.50
4 8.00 3.50
5 3.00 0.50
6 3.00 2.50
7 6.00 1.50
8 3.00 3.50
9 3.00 1.50
10 3.00 2.50
11 3.00 1.50
12 1.50 1.50
… …
… …
115 3.00 2.50
116 3.00 2.50
117 3.00 1.50
118 6.00 2.50
119 3.00 2.50
120 6.00 1.50
121 3.00 1.50
122 3.00 1.50
123 1.50 2.50
124 3.00 1.50 36 | P a g e
B: Cơ sơ lý thuyết.
 Hệ số tương quan
Phân tích tương quan: Hai biến số ngẫu nhiên X, Y có thể liên quan tuyến tính, có khuynh hướng
tuyến tính hoặc không liên quan đến nhau.
Hệ số tương quan:

Nếu R > 0 thì X, Y tương quan thuận.


Nếu R < 0 thì X, Y tương quan nghịch.
Nếu R = 0 thì X, Y không tương quan.
Nếu | R | = 1 thì X, Y có quan hệ hàm bậc nhất.
Nếu | R | → 1 thì X, Y có tương quan chặt (tương quan mạnh).
Nếu | R | → 0 thì X, Y có tương quan không chặt (tương quan yếu).
 Quan hệ giữa X và Y:
Chúng ta muốn kiểm định các giả thiết liên quan đến giả thiết các giá trị khác nhau của hệ số
tương quan tổng thể, ký hiệu, dựa trên phân phối mẫu của hệ số tương quan mẫu R.
Kiểm định giả thuyết:
Đối với R: 0 (hoặc >0 hoặc <0).
Người ta chứng minh được rằng với giả thiết phân phối mẫu của R đối xứng; từ đó, thống kê
T=R
Trắc nghiệm t được dùng trong trường hợp này.
 Ước lượng đường hồi quy:

Phương trình hồi quy tuyến tính: y  a  bx, a  r , b  ax


Kiểm định hệ số a, b:
Giả thuyết: Hệ số hồi quy không có ý nghĩa (= 0).
Giả thuyết: Hệ số hồi quy có ý nghĩa (≠0).

t  t ( n  2) => Chấp nhận giả thuyết.


Trắc nghiệm

37 | P a g e
Kiểm định phương trình hồi quy:
Giả thuyết: Phương trình hồi quy tuyến tính không thích hợp(= 0).
Giả thuyết: Phương trình hồi quy tuyến tính thích hợp( ≠ 0).

Trắc nghiệm
F  F (1, n  2) => Chấp nhận giả thuyết.

Dạng bài: Phân tích tương quan và hồi quy.


Phương pháp giải: Dùng tiêu chuẩn Student và Fisher.
C: Tính toán bằng tay.
Từ số liệu thu thập, ta tổng hợp được bảng số liệu dưới đây:

Với X là thời gian trung bình tham gia hoạt động giải trí trong một ngày; Y là số lần tham gia
hoạt động giải trí trong một tuần.
Từ bảng trên, ta dễ dàng tính được các dữ kiện sau đây:
n=123 , S x =1,3107 , S^x =1.3054 , x́=2.5367

S y =2.1533, ^
S y =2.1446 , ý =3.813 , xy
´ =10.3354

Ta tìm được hệ số tương quan bằng công thức sau:


xy
´ −x́ . ý 10.3354−2.5367 ×3.813
Hệ số tương quan: r = ^ ^ = 2.1446 ×1.3054
=0.2369
Sx . S y

Phương trình hồi quy:

xy
´ −x́ . ý 10.3354−2.5367 × 3.813

{
B=
S^x 2
=
1.30542
=0.389

A= ý−B. x́=3.813−0.389 ×2.5367=2.825

38 | P a g e
⟹ y= A+ Bx=2.825+0.389 x

D: Tính toán bằng Excel


1. Xác định hệ số tương quan :
Bước 1: Nhập bảng số liệu vào Excel

39 | P a g e
Bước 2: Sử dụng công cụ “Correlation” trong Data/ Data Analysis

Bước 3: Chọn cách mục như hình


 Input: địa chỉ tuyệt đối chứa dữ liệu.
 Labels in first row
 New Wordksheet Ply

Kết quả:

40 | P a g e
Kết luận: Dựa vào kết quả trên Excel ta có hệ số tương quan: R = 0.236958 chứng tỏ giữa “Số
lần tham gia hoạt động trong một tuần” và “Thời gian trung bình 1 ngày cho các hoạt động giải
trí” có quan hệ không chặt chẽ và tương quan thuận.
Dự đoán phương trình đường hồi quy tuyến tính:
Bước 1: Nhập bảng số liệu

41 | P a g e
Bước 2: Sử dụng công cụ “Regression” trong Data/ Data Analysis

Bước 3: Chọn các mục như hình

Kết quả:

42 | P a g e
Bước 4: Kết luận
Kiểm định hệ số a, b có nghĩa thống kê (a là hệ số tự do, b là hệ số góc)
 Giả thuyết : a, b không có ý nghĩa thống kê.
 Giả thuyết : a, b có ý nghĩa thống kê.
P – Value = 3, 71.e    0, 05 → Bác bỏ giả thuyết. Vậy hệ số tự do a có ý nghĩa
10

thống kê.
 P – Value = 0.008319 <   0.05 → Bác bỏ giả thuyết. Vậy hệ số góc b có ý nghĩa thống
kê.
 Kiểm định đường hồi quy tuyến tính
 Giả thuyết : Phương trình đường hồi quy tuyến tính không thích hợp.
 Giả thuyết Phương trình đường hồi quy tuyến tính thích hợp.
 Significance F = 0,008312 <   0.05 → Bác bỏ giả thuyết.
^
y  2,825  0,389 x đều có ý
Vậy cả hai hệ số 2,825(a) và 0,389(b) của phương trình hồi quy x
nghĩa thống kê. Nói cách khác, phương trình hồi quy này thích hợp.
3. Nhận xét về mối tương quan giữa giữa “Số lần tham gia hoạt động trong một tuần”
và “Thời gian trung bình 1 ngày cho các hoạt động giải trí”
Bước 1: Nhập bảng số liệu

43 | P a g e
n2
T  R.
Bước 2: Tính giá trị quan sát: 1  R2

123  2
T  0, 237.  2, 683
1  0, 237 2
Bước 3: Tính giá trị ngưỡng c bằng hàm TINV

c = 1,979764
Biện luận:
 Giả thuyết H1: 2 biến không tương quan.
 Giả thuyết H2: 2 biến có tương quan.
T c
 => Bác bỏ giả thuyết H1.
Kết luận: 2 biến có tương quan tuyến tính.

44 | P a g e

You might also like