You are on page 1of 24

ĐỀ THI XSTK

Bài 1: Lấy trong file “SoLieu.csv” của thư mục “DuLieuXSTK_TongHop” để làm các câu hỏi sau:
(7 điểm)
> sl=read.csv("SoLieu.csv")
> sl
STT GioiTinh Tuoi KhuVuc ThuNhap
1 1 Nam 30 NongThon 30
2 2 Nu 27 ThanhPho 40
3 3 Nu 32 MienNui 25
4 4 Nam 31 NongThon 35
5 5 Nu 41 HaiDao 42
6 6 Nam 45 ThanhPho 70
7 7 Nam 25 NongThon 29
8 8 Nu 25 MienNui 22
9 9 Nu 55 ThanhPho 46
10 10 Nam 60 NongThon 35
11 11 Nam 43 MienNui 37
12 12 Nam 48 ThanhPho 58
13 13 Nu 36 HaiDao 29
14 14 Nam 28 ThanhPho 75
15 15 Nu 46 ThanhPho 90
16 16 Nam 39 MienNui 33
17 17 Nam 55 MienNui 31
18 18 Nu 32 ThanhPho 55
19 19 Nam 38 NongThon 32
20 20 Nu 65 NongThon 30
21 21 Nam 51 MienNui 20
22 22 Nam 43 HaiDao 25
23 23 Nam 27 ThanhPho 42
24 24 Nam 29 ThanhPho 50
25 25 Nu 24 MienNui 32
26 26 Nu 34 NongThon 20
27 27 Nam 36 ThanhPho 100
28 28 Nu 31 ThanhPho 50
29 29 Nam 37 MienNui 30
30 30 Nam 38 HaiDao 48
31 31 Nam 38 ThanhPho 30
32 32 Nam 65 ThanhPho 20
33 33 Nu 51 MienNui 25
34 34 Nu 43 NongThon 42
35 35 Nu 27 ThanhPho 50
36 36 Nam 29 ThanhPho 32
37 37 Nu 24 MienNui 20
38 38 Nam 29 HaiDao 100
39 39 Nu 24 NongThon 50
40 40 Nam 34 ThanhPho 30
41 41 Nam 36 ThanhPho 48
42 42 Nam 31 MienNui 100
43 43 Nam 37 HaiDao 50
44 44 Nu 38 ThanhPho 30
45 45 Nu 38 ThanhPho 48
46 46 Nu 65 MienNui 30
47 47 Nam 51 NongThon 20
48 48 Nu 65 ThanhPho 25
49 49 Nam 51 MienNui 42
50 50 Nam 43 NongThon 48
51 51 Nam 27 ThanhPho 30
52 52 Nam 29 ThanhPho 70
53 53 Nu 24 MienNui 78
54 54 Nu 34 HaiDao 80
55 55 Nu 36 NongThon 30
56 56 Nam 31 ThanhPho 48
57 57 Nam 37 ThanhPho 100
58 58 Nam 38 MienNui 50
59 59 Nam 38 MienNui 30
60 60 Nu 65 HaiDao 48
61 61 Nu 51 NongThon 30
62 62 Nu 43 ThanhPho 20
63 63 Nam 27 ThanhPho 25
64 64 Nu 34 MienNui 42

1
ĐỀ THI XSTK
65 65 Nam 36 HaiDao 48
66 66 Nu 31 ThanhPho 30
67 67 Nam 37 ThanhPho 70
68 68 Nam 38 MienNui 78
69 69 Nam 38 NongThon 80
70 70 Nam 65 ThanhPho 30
71 71 Nu 51 MienNui 20
72 72 Nu 65 NongThon 25
73 73 Nu 51 ThanhPho 42
74 74 Nam 43 ThanhPho 48
75 75 Nam 27 ThanhPho 30
76 76 Nam 47 MienNui 70
77 77 Nam 24 HaiDao 78
78 78 Nu 34 NongThon 80
79 79 Nu 36 ThanhPho 42
80 80 Nu 38 ThanhPho 48
81 81 Nu 38 MienNui 30
82 82 Nam 65 MienNui 70
83 83 Nu 51 HaiDao 78
84 84 Nam 43 NongThon 80
85 85 Nu 27 ThanhPho 50
86 86 Nam 34 ThanhPho 32
87 87 Nam 36 MienNui 20
88 88 Nam 68 NongThon 100
89 89 Nam 37 ThanhPho 50
90 90 Nu 38 MienNui 30
91 91 Nu 38 NongThon 48
92 92 Nam 65 ThanhPho 100
93 93 Nam 51 ThanhPho 50
94 94 Nu 66 ThanhPho 30
95 95 Nu 70 MienNui 48
96 96 Nu 37 HaiDao 30
97 97 Nu 38 NongThon 20
98 98 Nam 78 ThanhPho 25
99 99 Nam 65 ThanhPho 42
100 100 Nu 75 MienNui 48
> attach(sl)
> names(sl)
[1] "STT" "GioiTinh" "Tuoi" "KhuVuc" "ThuNhap"
a. Xác định các thang đo của các cột trong bảng. Chọn loại biểu đồ phù hợp cho các cột đó.
GioiTinh là thang đo định danh. Các biểu đồ phù hợp là biểu đồ thanh và biểu đồ tròn;
Tuoi là thang đo tỷ lệ. Các biểu đồ phù hợp là biểu đồ phân phối tần số, biểu đồ đa giác tần
số, biểu đồ hộp và râu, biểu đồ thân và lá;
KhuVuc là thang đo định danh. Các biểu đồ phù hợp là biểu đồ thanh và biểu đồ tròn;
ThuNhap là thang đo tỷ lệ. Các biểu đồ phù hợp là biểu đồ phân phối tần số, biểu đồ đa giác
tần số, biểu đồ hộp và râu, biểu đồ thân và lá.
b. Vẽ biểu đồ phù hợp cho 2 biến GioiTinh và KhuVuc?
> table(GioiTinh)
GioiTinh
Nam Nu
55 45
> barplot(table(GioiTinh))

> table(KhuVuc)
KhuVuc
HaiDao MienNui NongThon ThanhPho
12 26 20 42
> barplot(table(KhuVuc))
Nếu đề thi yêu cầu vẽ minh họa thì mình mới cần vẽ đồ thị hiện ra ở trên Rstudio vào giấy
thi. Còn nếu đề chỉ yêu cầu vẽ đồ thị phù hợp thì ta chỉ cần viết câu lệnh là được

2
ĐỀ THI XSTK
c. Tính trung bình, trung vị, tìm MODE, các tứ phân vị của ThuNhap? Nêu ý nghĩa của chúng.
Tính phân vị thứ 40 của Thu Nhap? và nêu ý nghĩa của nó.

> mean(ThuNhap)
[1] 45.82
Ý nghĩa: Thu nhập trung bình của người dân là 45.8

> median(ThuNhap)
[1] 42
Trung vị của thu nhập là 42.
Ý nghĩa: Có không quá 50% người có thu nhập ≤ 42 và có không quá 50% người có thu
nhập ≥ 42

> which(table(ThuNhap)==max(table(ThuNhap)))
30
5
> table(ThuNhap)
ThuNhap
20 22 25 29 30 31 32 33 35 37 40 42 46 48 50 55 58 70 75 78
80 90 100
9 1 7 2 18 1 4 1 2 1 1 8 1 12 9 1 1 5 1 4
4 1 6
Mode của thu nhập là 30.
Ý nghĩa: Số người có mức thu nhập 30 là nhiều nhất tập số liệu và có tất cả là 18 người.

> quantile(ThuNhap)
0% 25% 50% 75% 100%
20 30 42 50 100
Tứ phân vị thứ nhất của thu nhập là 30 (giá trị ở dưới 25%)
Ý nghĩa: Có không quá 25% người có thu nhập ≤ 30 và có không quá 75% người có thu
nhập ≥ 30
Tứ phân vị thứ hai của thu nhập là 42 (giá trị ở dưới 50% - bản chất chính là trung vị)
Ý nghĩa: Có không quá 50% người có thu nhập ≤ 42 và có không quá 50% người có thu
nhập ≥ 42
Tứ phân vị thứ ba của thu nhập là 50 (giá trị ở dưới 75%)
Ý nghĩa: Có không quá 75% người có thu nhập ≤ 50 và có không quá 25% người có thu
nhập ≥ 50

Mở rộng: Nếu đề hỏi độ trải giữa thì Độ trải giữa = Tứ phân vị thứ nhất – Tứ phân vị thứ
ba = 50 – 30 = 20

3
ĐỀ THI XSTK
> quantile(ThuNhap,0.4)
40%
32
Phân vị thứ 40 của thu nhập là 32 (giá trị ở dưới 40%)
Ý nghĩa: Có không quá 40% người có thu nhập ≤ 32 và có không quá 60% người có thu
nhập ≥ 32
d. Vẽ biểu đồ phù hợp cho biến Tuổi.
Có 4 loại biểu đồ phù hợp cho biến tuổi là: biểu đồ phân phối tần số, biểu đồ đa giác tần số,
biểu đồ hộp và râu, biểu đồ thân và lá
Hướng dẫn vẽ biểu đồ phân phối tần số
> table(Tuoi)
Tuoi
24 25 27 28 29 30 31 32 34 36 37 38 39 41 43 45 46 47 48 51 55 60 65 66 68 70
75 78
5 2 7 1 4 1 5 2 6 7 6 14 1 1 7 1 1 1 1 9 2 1 10 1 1 1
1 1
Nếu đề bài không cho gợi ý về phân tổ thì ta xem giá trị lớn nhất và nhỏ nhất hiện ra sau
lệnh table(tên biến định lượng cần phân tổ) và tùy cơ ứng biến sao cho việc chia tổ dễ dàng
Giá trị max - Giá trị min
nhất và luôn luôn cần =Số tự nhiên (không được ra số thập phân, nếu
Khoảng cách mỗi tổ
ra số thập phân thì cần chỉnh lại)
> pt=cut(Tuoi,breaks=seq(20,80,10),right=T,include.lowest = T)
> hist(Tuoi,breaks=seq(20,80,10),right=T,include.lowest = T)
Biểu đồ đa giác tần số thì bỏ qua.

Hướng dẫn vẽ biểu đồ hộp và râu


> boxplot(Tuoi,horizontal = T)

Hướng dẫn vẽ biểu đồ thân và lá


> stem(Tuoi)

The decimal point is 1 digit(s) to the right of the |

2 | 4444455777777789999
3 | 011111224444446666666777777888888888888889
4 | 133333335678
5 | 11111111155
6 | 0555555555568
7 | 058

e. Xét cột ThuNhap. Lập bảng tần số, tần suất, tần số tích lũy và tần suất tích lũy cho ThuNhap
sau khi đã phân tổ bởi các điểm chia 20, 30, 40, 50, 60, 70, 80, 90, 100. Từ đó tính tỷ lệ
người có thu nhập không vượt quá 70. Tỷ lệ này trong nhóm người sống ở Mien Nui là bao
nhiêu%? Vẽ biểu đồ phù hợp cho biến ThuNhap theo các chia tổ ở trên.
> table(ThuNhap)
ThuNhap
20 22 25 29 30 31 32 33 35 37 40 42 46 48 50 55 58 70 75 78 80 90 100

4
ĐỀ THI XSTK
9 1 7 2 18 1 4 1 2 1 1 8 1 12 9 1 1 5 1 4 4 1 6
Lệnh phân tổ cho Thu Nhập theo yêu cầu đề bài:
> pt=cut(ThuNhap,breaks=seq(20,100,10),right=T,include.lowest = T)

Lệnh lập bảng tần số cho Thu Nhap sau phân tổ


> table(pt)
pt
[20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100]
37 10 30 2 5 9 1 6

Lệnh lập bảng tần suất cho Thu Nhap sau phân tổ
> prop.table(table(pt))
pt
[20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100]
0.37 0.10 0.30 0.02 0.05 0.09 0.01 0.06

Lệnh lập bảng tần số tích lũy cho Thu Nhap sau phân tổ
> cumsum(table(pt))
[20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100]
37 47 77 79 84 93 94 100

Lệnh lập bảng tần suất tích lũy cho Thu Nhap sau phân tổ
> cumsum(prop.table(table(pt)))
[20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100]
0.37 0.47 0.77 0.79 0.84 0.93 0.94 1.00

Tỷ lệ người có thu nhập không vượt quá 70 là 0.84


Kiểm tra lại bằng lệnh: sum(ThuNhap<=70)/100 (Trong đó 100 là số lượng người trong
toàn bộ tập dữ liệu – không được điểm nếu làm bằng lệnh này vì đề yêu cầu là dựa vào bảng
phân tổ để làm – chỉ dùng để check kết quả xem mình phân tổ có đúng không thôi)
> sum(ThuNhap<=70)/100
[1] 0.84

Tỷ lệ này trong nhóm người sống ở Mien Nui là bao nhiêu%?


> table(pt,KhuVuc)
KhuVuc
pt HaiDao MienNui NongThon ThanhPho
[20,30] 3 12 9 13
(30,40] 0 4 3 3
(40,50] 5 5 4 16
(50,60] 0 0 0 2
(60,70] 0 2 0 3
(70,80] 3 2 3 1
(80,90] 0 0 0 1
(90,100] 1 1 1 3
= (12+4+5+0+2)/(12+4+5+0+2+2+0+1)
> (12+4+5+0+2)/(12+4+5+0+2+2+0+1)
[1] 0.8846154

5
ĐỀ THI XSTK
Kiểm tra lại bằng lệnh: sum(ThuNhap<=70&KhuVuc==“MienNui”)/sum(KhuVuc==
“MienNui”) (không được điểm nếu làm bằng lệnh này vì đề yêu cầu là dựa vào bảng phân
tổ để làm – chỉ dùng để check kết quả xem mình phân tổ có đúng không thôi)
> sum(ThuNhap<=70&KhuVuc=="MienNui")/sum(KhuVuc== "MienNui")
[1] 0.8846154

f. Tính tỷ lệ người sống ở thành phố? Tỷ lệ này trong nhóm Nam chiếm bao nhiêu %?
> sum(KhuVuc=="ThanhPho")/100
[1] 0.42
Ý nghĩa: Tỷ lệ người sống ở thành phố chiếm 42% cả tập dữ liệu 100 người lấy ra.

> sum(KhuVuc=="ThanhPho"&GioiTinh=="Nam")/sum(GioiTinh=="Nam")
[1] 0.4727273
Ý nghĩa: Tỷ lệ người là nam giới sống ở thành phố chiếm 47,27273% nam giới của tập dữ
liệu đó.

g. Thu nhập Nữ giới sống ở Nông Thôn tuân theo phân phối chuẩn và có độ lệch chuẩn là 15
triệu. Tìm ước lượng khoảng và ước lượng điểm cho thu nhập của Nữ giới sống ở Nông
Thôn với khoảng tin cậy là 97%.
Do có tuân theo phân phối chuẩn ở dòng 1 đề bài nên đủ điều kiện làm theo trung bình.
Trung bình mà lại có giá trị của độ lệch chuẩn (hoặc giá trị của phương sai) nên làm theo
hàm z.test
> library(BSDA)
Loading required package: lattice

Attaching package: ‘BSDA’

The following object is masked from ‘package:datasets’:

Orange
Khi làm z.test thì cần sự hỗ trợ của BSDA nên ta cần gõ library(BSDA) trước khi làm z.test
sau mỗi lần khởi động tắt bật máy vi tính hay laptop
> x=ThuNhap[GioiTinh=="Nu"&KhuVuc=="NongThon"]
> z.test(x,sigma.x = 15,conf.level = 0.97)

One-sample z-Test

data: x
z = 7.9057, p-value = 2.664e-15
alternative hypothesis: true mean is not equal to 0
97 percent confidence interval:
27.20636 47.79364
sample estimates:
mean of x
37.5
ước lượng khoảng là [27.20636 ; 47.79364]
ước lượng điểm là 37.5 (chính là trung bình thu nhập của nữ giới ở nông thôn)

6
ĐỀ THI XSTK
h. 1. Tìm ước lượng khoảng và ước lượng điểm tại khoảng tin cậy là 96% cho thu nhập của Nam
giới sống ở thành phố có tuổi lớn hơn 35. Biết thu nhập của những người này tuân theo phân
phối chuẩn.
Do có tuân theo phân phối chuẩn ở cuối dòng 2 đề bài nên đủ điều kiện làm theo trung bình.
Trung bình mà đọc hết đề bài lên không có giá trị độ lệch chuẩn (hoặc phương sai) ở đâu cả
=> làm theo t.test
> x=ThuNhap[GioiTinh=="Nam"&KhuVuc=="ThanhPho"&Tuoi>35]
> t.test(x,conf.level = 0.96)

One Sample t-test

data: x
t = 8.0413, df = 14, p-value = 1.29e-06
alternative hypothesis: true mean is not equal to 0
96 percent confidence interval:
40.28274 71.85059
sample estimates:
mean of x
56.06667
ước lượng khoảng là [40.28274 ; 71.85059]
ước lượng điểm là 56.06667 (chính là trung bình thu nhập của nam giới ở thành phố và tuổi
> 35)

h. 2. Tìm ước lượng khoảng và ước lượng điểm tại khoảng tin cậy là 94% cho tuổi của nữ giới.
Ở đây không thấy có từ tuân theo phân phối chuẩn mà đọc hết đề bài cũng không thấy xét tỷ
lệ bỏ qua prop.test, khi đó ta cần kiểm tra cỡ mẫu được xét có ≥ 30 mẫu hay không? Nếu cỡ
mẫu ≥ 30 => làm theo trung bình còn cỡ mẫu < 30 => làm theo trung vị
> sum(GioiTinh=="Nu")
[1] 45
Ta thấy cỡ mẫu 45 đủ điều kiện ≥ 30 => bài này sẽ làm theo trung bình. Trung bình mà đọc
đọc hết đề bài lên không có giá trị độ lệch chuẩn (hoặc phương sai) ở đâu cả => làm theo
t.test
> x=Tuoi[GioiTinh=="Nu"]
> t.test(x,conf.level = 0.94)

One Sample t-test

data: x
t = 19.864, df = 44, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
94 percent confidence interval:
37.99827 46.17951
sample estimates:
mean of x
42.08889
ước lượng khoảng là [37.99827 ; 46.17951]
ước lượng điểm là 42.08889 (chính là trung bình thu nhập của nữ giới)

7
ĐỀ THI XSTK
i. Tìm ước lượng khoảng và ước lượng điểm tại khoảng tin cậy 99% cho tỷ lệ nam giới sống ở
Thành Phố có thu nhập lớn hơn 50 triệu so với số người là nam giới sống ở Thành phố được lấy
ra?
Đọc đề thấy ước lượng cho tỷ lệ nên chắc chắn dùng prop.test
> sum(GioiTinh=="Nam"&KhuVuc=="ThanhPho"&ThuNhap>50)
[1] 8
> sum(GioiTinh=="Nam"&KhuVuc=="ThanhPho")
[1] 26
8 là x số phần tử đang xét, 26 là n – cỡ mẫu được lấy ra. Do n = 26 < 40 => cần điều kiện
correct = T (nếu n ≥ 40 thì cần correct = F)
> prop.test(8,26,conf.level = 0.99,correct = T)

1-sample proportions test with continuity correction

data: 8 out of 26, null probability 0.5


X-squared = 3.1154, df = 1, p-value = 0.07756
alternative hypothesis: true p is not equal to 0.5
99 percent confidence interval:
0.1227138 0.5765279
sample estimates:
p
0.3076923
ước lượng khoảng là [0.1227138 ; 0.5765279]
x
ước lượng điểm là 0.3076923 (chính là tỷ số của n )

j. Tại  = 4%, kiểm định hãy xem nam giới có thu nhập ít nhất là 60 triệu hay không?
Đọc đề bài không thấy có từ tỷ lệ nên sẽ không phải kiểm định cho tỷ lệ ( tức là bỏ qua lệnh
prop.test). Cũng không nhìn thấy kiểm định sự đồng đều (sự biến động; sự biến thiên; sự ổn
định) nên cũng không phải kiểm định cho phương sai (tức là bỏ qua lệnh var.test). Vậy chỉ
còn kiểm định cho trung bình hoặc trung vị. Đề không cho tuân theo phân phối chuẩn nên
bây giờ ta cần đếm cỡ mẫu có ≥ 30 mẫu hay không? Nếu cỡ mẫu ≥ 30 => làm theo trung
bình còn cỡ mẫu < 30 => làm theo trung vị
> sum(GioiTinh=="Nam")
[1] 55
Ta thấy cỡ mẫu 55 đủ điều kiện ≥ 30 => bài này sẽ làm theo trung bình. Trung bình mà đọc
đọc hết đề bài lên không có giá trị độ lệch chuẩn (hoặc phương sai) ở đâu cả => làm theo
t.test
Giải: (Chép vào đề thi từ đây)
Gọi µ là thu nhập trung bình của Nam giới.
H0: µ ≥ 60 (*) lời kiểm định thuộc về H0
H1: µ < 60
> x=ThuNhap[GioiTinh=="Nam"]
> t.test(x,conf.level = 0.96,mu=60,alt="l")

One Sample t-test

8
ĐỀ THI XSTK

data: x
t = -2.995, df = 54, p-value = 0.002068
alternative hypothesis: true mean is less than 60
96 percent confidence interval:
-Inf 55.9868
sample estimates:
mean of x
50.07273
Có p-giá trị = p-value = 0.002068 < α = 4% = 0.04 => bác bỏ H0, chấp nhận H1
Kết luận: Vậy tại α = 4% không đủ bằng chứng thống kê để cho rằng nam giới có thu nhập
ít nhất là 60 triệu

k. Một khẳng định cho rằng thu nhập của Nam giới ở Thành Phố không quá 70 triệu. Tại mức ý
nghĩa α = 6%, hãy kiểm định lời khẳng định trên biết tiền lương của nam giới ở Thành phố
tuân theo phân phối chuẩn và có độ lệch chuẩn = 25 triệu.
Do có tuân theo phân phối chuẩn ở cuối dòng 2 và đầu dòng 3 của đề bài nên đủ điều kiện
làm theo trung bình. Trung bình mà lại có giá trị của độ lệch chuẩn (hoặc giá trị của phương
sai) nên làm theo hàm z.test
Giải: (Chép vào đề thi từ đây)
Gọi µ là thu nhập trung bình của Nam giới ở Thành Phố.
H0: µ ≤ 70 (*) lời kiểm định thuộc về H0
H1: µ > 70
> x=ThuNhap[GioiTinh=="Nam"&KhuVuc=="ThanhPho"]
> z.test(x,sigma.x = 25,conf.level = 0.94,mu=70,alt="g")
Có p-value = 1 > α = 6% = 0.06 => Chấp nhận H0, bác bỏ H1
Kết luận: Vậy tại α = 6% đủ bằng chứng thống kê để cho rằng thu nhập của Nam giới ở
Thành Phố không quá 70 triệu

l. Thu Nhập bình quân của nam giới của một nước được cho là 40 triệu với độ lệch chuẩn 10
triệu. Để kiểm tra Thu Nhập của nam giới ở Thành phố có ở mức lớn hơn so với mức bình
quân trên toàn quốc hay không người ta chọn ra ngẫu nhiên 1 số người là nam giới ở thành
phố được cho trong file “SoLieu.csv”. Cho biết thu nhập nam giới tại thành phố này tuân
theo phân phối chuẩn, hãy kết luận ở mức ý nghĩa là 5%.
Do có tuân theo phân phối chuẩn ở cuối dòng 4 và đầu dòng 5 của đề bài nên đủ điều kiện
làm theo trung bình. Trung bình mà lại có giá trị của độ lệch chuẩn (hoặc giá trị của phương
sai) ở dòng 1 nên làm theo hàm z.test
Giải: (Chép vào đề thi từ đây)
Gọi µ là thu nhập trung bình của Nam giới ở Thành Phố.
H0: µ ≤ 40
H1: µ > 40 (*) lời kiểm định thuộc về H1
9
ĐỀ THI XSTK
> x=ThuNhap[GioiTinh=="Nam"&KhuVuc=="ThanhPho"]
> z.test(x,sigma.x = 10,mu=40,alt="g")
Có p-value = 1.012e-07 = 1.012 × 10^ -7 < α = 5% = 0.05 => Bác bỏ H0, chấp nhận H1
Kết luận: Vậy tại α = 5% đủ bằng chứng thống kê để cho rằng Thu Nhập của nam giới ở
Thành phố lớn hơn so với mức bình quân trên toàn quốc (40 triệu)

m. Theo số liệu trước đây, tỷ lệ nam giới ở thành phố có tỷ lệ là 16% so với tổng dân số. Người
ta muốn kiểm tra xem tỷ lệ này có tăng lên hay không nên đã chọn ngẫu nhiên 100 người
trong năm 2015 để điều tra. Hãy tiến hành bài toán kiểm định tại mức ý nghĩa 3%.
Do có từ tỷ lệ nên kiểm định cho tỷ lệ => dùng hàm prop.test
Gọi p là tỷ lệ nam giới ở thành phố.
H0: p ≤ 16%
H1: p > 16% (*) lời kiểm định thuộc về H1
> sum(GioiTinh=="Nam"&KhuVuc=="ThanhPho")
[1] 26
26 – x là số phần tử có đặc điểm đang xét, n – 100 là số lượng mẫu lấy ra kiểm định (tổng
số lượng người trong cả file dữ liệu). Do n ≥ 40 nên correct =F
> prop.test(26,100,conf.level = 0.97,correct = F,p=0.16,alt="g")
Có p-value = 0.003189 < α = 3% = 0.03 => bác bỏ H0, chấp nhận H1.
Kết luận: Vậy tại α = 3% đủ bằng chứng thống kê để cho rằng tỷ lệ nam giới ở thành phố so
với tổng dân số năm 2015 có tăng lên so với số liệu trước đây ( tức là tỷ lệ nam giới ở thành
phố so với tổng dân số năm 2015 lớn hơn 16%)

n. 1. Tại α = 5%, hãy kiểm định thu nhập của nam giới ở nông thôn lớn hơn thu nhập của nữ
giới ở nông thôn là 4 triệu. Biết thu nhập của những người này tuân theo phân phối chuẩn và
có phương sai bằng nhau.
Không có từ tỷ lệ nên bỏ qua prop.test; không có từ sự đồng đều; sự biến động sự biến
thiên; sự ổn định nên bỏ qua var.test; có từ tuân theo phân phối chuẩn nên làm theo trung
bình. Nam và nữ là 2 tổng thể hoàn toàn khác biệt nhau nên bỏ qua trung bình mẫu theo đôi
(bỏ câu lệnh có tham số paired=T). Không thấy giá trị độ lệnh chuẩn hay phương sai trong
bài nên bỏ qua tiếp lệnh z.test. Do đó chỉ còn lại lệnh t.test. Đề bài cho thông tin có phương
sai bằng nhau ở dòng cuối cùng nên sẽ rơi vào lệnh t.test và có tham số var.equal=T ở cuối.
Giải: (Chép vào đề thi từ đây)
Gọi µ1 và µ2 lần lượt là thu nhập trung bình của Nam giới và Nữ giới ở Nông Thôn.
H0: µ1 - µ2 = 4 (*) lời kiểm định thuộc về H0
H1: µ1 - µ2 ≠ 4
> x=ThuNhap[GioiTinh=="Nam"&KhuVuc=="NongThon"]
> y=ThuNhap[GioiTinh=="Nu"&KhuVuc=="NongThon"]

10
ĐỀ THI XSTK
> t.test(x,y,mu=4,var.equal = T)
Có p-value = 0.4881 > α = 5% = 0.05 => Chấp nhận H0, bác bỏ H1
Kết luận: Vậy tại α = 5% đủ bằng chứng thống kê để cho rằng thu nhập của nam giới ở nông
thôn lớn hơn thu nhập của nữ giới ở nông thôn là 4 triệu
n. 2. Tại α = 5%, hãy kiểm định thu nhập của nam giới lớn hơn thu nhập của nữ giới là 4 triệu. Biết
thu nhập của những người này có phương sai bằng nhau.
Không có từ tỷ lệ nên bỏ qua prop.test; không có từ sự đồng đều; sự biến động sự biến
thiên; sự ổn định nên bỏ qua var.test; do đó chỉ còn lại kiểm định trung bình hoặc trung vị.
Đề không có từ tuân theo phân phối chuẩn nên không biết chắc chắn là có làm theo trung
bình hay không. Khi đó ta cần đếm 2 cỡ mẫu để xem 2 cỡ mẫu đó có ≥ 30 mẫu hay không?
Nếu 2 cỡ mẫu đều ≥ 30 => làm theo trung bình còn 2 cỡ mẫu đều < 30 => làm theo trung vị
> sum(GioiTinh=="Nam")
[1] 55
> sum(GioiTinh=="Nu")
[1] 45
Ta thấy cả 2 cỡ mẫu đều ≥ 30 do đó cần làm theo trung bình. Nam và nữ là 2 tổng thể hoàn
toàn khác biệt nhau nên bỏ qua trung bình mẫu theo đôi (bỏ câu lệnh có tham số paired=T).
Không thấy giá trị độ lệnh chuẩn hay phương sai trong bài nên bỏ qua tiếp lệnh z.test. Do đó
chỉ còn lại lệnh t.test. Đề bài cho thông tin có phương sai bằng nhau ở dòng cuối cùng nên
sẽ rơi vào lệnh t.test và có tham số var.equal=T ở cuối.
Giải: (Chép vào đề thi từ đây)
Gọi µ1 và µ2 lần lượt là thu nhập trung bình của Nam giới và Nữ giới.
H0: µ1 - µ2 = 4 (*) lời kiểm định thuộc về H0
H1: µ1 - µ2 ≠ 4
> x=ThuNhap[GioiTinh=="Nam"]
> y=ThuNhap[GioiTinh=="Nu"]
> t.test(x,y,mu=4,var.equal = T)
Có p-value = 0.217 > α = 5% = 0.05 => Chấp nhận H0, bác bỏ H1
Kết luận: Vậy tại α = 5% đủ bằng chứng thống kê để cho rằng thu nhập của nam lớn hơn thu
nhập của nữ giới là 4 triệu

o. 1. Tại α = 5%, hãy kiểm định thu nhập của nam giới ở thành phố lớn hơn ít nhất 10 triệu thu
nhập của nữ giới ở thành phố. Biết thu nhập của những người này tuân theo phân phối
chuẩn.
Không có từ tỷ lệ nên bỏ qua prop.test; không có từ sự đồng đều; sự biến động sự biến
thiên; sự ổn định nên bỏ qua var.test; có từ tuân theo phân phối chuẩn nên làm theo trung
bình. Nam và nữ là 2 tổng thể hoàn toàn khác biệt nhau nên bỏ qua trung bình mẫu theo đôi
(bỏ câu lệnh có tham số paired=T). Không thấy giá trị độ lệnh chuẩn hay phương sai trong
bài nên bỏ qua tiếp lệnh z.test. Do đó chỉ còn lại lệnh t.test. Đề bài không cho thông tin có

11
ĐỀ THI XSTK
phương sai bằng nhau ở đâu cả nên sẽ rơi vào lệnh t.test mà không có tham số var.equal=T
ở cuối.
Giải: (Chép vào đề thi từ đây)
Gọi µ1 và µ2 lần lượt là thu nhập trung bình của Nam giới và Nữ giới ở Thành Phố.
H0: µ1 - µ2 ≥ 10 (*) lời kiểm định thuộc về H0
H1: µ1 - µ2 < 10
> x=ThuNhap[GioiTinh=="Nam"&KhuVuc=="ThanhPho"]
> y=ThuNhap[GioiTinh=="Nu"&KhuVuc=="ThanhPho"]
> t.test(x,y,mu=10,alt="l")
Có p-value = 0.2982 > α = 5% = 0.05 => Chấp nhận H0, bác bỏ H1
Kết luận: Vậy tại α = 5% đủ bằng chứng thống kê để cho rằng thu nhập của nam giới ở
Thành Phố lớn hơn thu nhập của nữ giới ở Thành Phố ít nhất 10 triệu

o. 2. Tại α = 5%, hãy kiểm định thu nhập của nam giới lớn hơn ít nhất 10 triệu thu nhập của nữ giới.
Không có từ tỷ lệ nên bỏ qua prop.test; không có từ sự đồng đều; sự biến động sự biến
thiên; sự ổn định nên bỏ qua var.test; do đó chỉ còn lại kiểm định trung bình hoặc trung vị.
Đề không có từ tuân theo phân phối chuẩn nên không biết chắc chắn là có làm theo trung
bình hay không. Khi đó ta cần đếm 2 cỡ mẫu để xem 2 cỡ mẫu đó có ≥ 30 mẫu hay không?
Nếu 2 cỡ mẫu đều ≥ 30 => làm theo trung bình còn 2 cỡ mẫu đều < 30 => làm theo trung vị
> sum(GioiTinh=="Nam")
[1] 55
> sum(GioiTinh=="Nu")
[1] 45
Ta thấy cả 2 cỡ mẫu đều ≥ 30 do đó cần làm theo trung bình. Nam và nữ là 2 tổng thể hoàn
toàn khác biệt nhau nên bỏ qua trung bình mẫu theo đôi (bỏ câu lệnh có tham số paired=T).
Không thấy giá trị độ lệnh chuẩn hay phương sai trong bài nên bỏ qua tiếp lệnh z.test. Do đó
chỉ còn lại lệnh t.test. Đề bài không cho thông tin có phương sai bằng nhau ở đâu cả nên sẽ
rơi vào lệnh t.test mà không có tham số var.equal=T ở cuối.
Giải: (Chép vào đề thi từ đây)
Gọi µ1 và µ2 lần lượt là thu nhập trung bình của Nam giới và Nữ giới
H0: µ1 - µ2 ≥ 10 (*) lời kiểm định thuộc về H0
H1: µ1 - µ2 < 10

> x=ThuNhap[GioiTinh=="Nam"]
> y=ThuNhap[GioiTinh=="Nu"]
> t.test(x,y,mu=10,alt="l")
Có p-value = 0.4487 > α = 5% = 0.05 => Chấp nhận H0, bác bỏ H1
Kết luận: Vậy tại α = 5% đủ bằng chứng thống kê để cho rằng thu nhập của nam giới lớn
hơn thu nhập của nữ giới ít nhất 10 triệu

12
ĐỀ THI XSTK
p. 1. Tại α = 5%, hãy kiểm định thu nhập của nam giới ở thành phố lớn hơn không quá 6 triệu
thu nhập của nữ giới ở thành phố. Biết thu nhập của những người này tuân theo phân phối
chuẩn.
Không có từ tỷ lệ nên bỏ qua prop.test; không có từ sự đồng đều; sự biến động sự biến
thiên; sự ổn định nên bỏ qua var.test; có từ tuân theo phân phối chuẩn nên làm theo trung
bình. Nam và nữ là 2 tổng thể hoàn toàn khác biệt nhau nên bỏ qua trung bình mẫu theo đôi
(bỏ câu lệnh có tham số paired=T). Không thấy giá trị độ lệnh chuẩn hay phương sai trong
bài nên bỏ qua tiếp lệnh z.test. Do đó chỉ còn lại lệnh t.test. Đề bài không cho thông tin có
phương sai bằng nhau ở đâu cả nên sẽ rơi vào lệnh t.test mà không có tham số var.equal=T
ở cuối.
Giải: (Chép vào đề thi từ đây)
Gọi µ1 và µ2 lần lượt là thu nhập trung bình của Nam giới và Nữ giới ở Thành Phố.
Để kiểm định thu nhập của nam giới ở thành phố lớn hơn không quá 6 triệu thu nhập của nữ
giới ở thành phố thì ta cần chứng minh 0 < µ1 - µ2 ≤ 6. (Tức là cần thỏa mãn cả 2 điều kiện
µ1 - µ2 > 0 và µ1 - µ2 ≤ 6 thì ta mới kết luận là đủ bằng chứng thống kê; còn vi phạm 1
trong 2 thì ta kết luận là không đủ bằng chứng thống kê)
Kiểm định điều kiện 1: µ1 - µ2 > 0
H0: µ1 - µ2 ≤ 0
H1: µ1 - µ2 > 0 (*) lời kiểm định thuộc về H1
> x=ThuNhap[GioiTinh=="Nam"&KhuVuc=="ThanhPho"]
> y=ThuNhap[GioiTinh=="Nu"&KhuVuc=="ThanhPho"]
> t.test(x,y,alt="g")
Có p-value = 0.1433 > α = 5% = 0.05 => Chấp nhận H0, bác bỏ H1 => Không đủ bằng
chứng cho rằng : µ1 - µ2 > 0 Chỉ cần vi phạm 1 trong 2 điều kiện µ1 - µ2 > 0 và µ1 - µ2 ≤ 6
thì ta kết luận là: tại α = 5% không đủ bằng chứng định thu nhập của nam giới ở thành phố
lớn hơn không quá 6 triệu thu nhập của nữ giới ở thành phố.

p. 2. Tại α = 5%, hãy kiểm định thu nhập của nam giới lớn hơn không quá 6 triệu thu nhập của nữ giới.
Không có từ tỷ lệ nên bỏ qua prop.test; không có từ sự đồng đều; sự biến động sự biến
thiên; sự ổn định nên bỏ qua var.test; do đó chỉ còn lại kiểm định trung bình hoặc trung vị.
Đề không có từ tuân theo phân phối chuẩn nên không biết chắc chắn là có làm theo trung
bình hay không. Khi đó ta cần đếm 2 cỡ mẫu để xem 2 cỡ mẫu đó có ≥ 30 mẫu hay không?
Nếu 2 cỡ mẫu đều ≥ 30 => làm theo trung bình còn 2 cỡ mẫu đều < 30 => làm theo trung vị
> sum(GioiTinh=="Nam")
[1] 55
> sum(GioiTinh=="Nu")
[1] 45
Ta thấy cả 2 cỡ mẫu đều ≥ 30 do đó cần làm theo trung bình. Nam và nữ là 2 tổng thể hoàn
toàn khác biệt nhau nên bỏ qua trung bình mẫu theo đôi (bỏ câu lệnh có tham số paired=T).
13
ĐỀ THI XSTK
Không thấy giá trị độ lệnh chuẩn hay phương sai trong bài nên bỏ qua tiếp lệnh z.test. Do đó
chỉ còn lại lệnh t.test. Đề bài không cho thông tin có phương sai bằng nhau ở đâu cả nên sẽ
rơi vào lệnh t.test mà không có tham số var.equal=T ở cuối.
Giải: (Chép vào đề thi từ đây)
Gọi µ1 và µ2 lần lượt là thu nhập trung bình của Nam giới và Nữ giới
Để kiểm định thu nhập của nam giới lớn hơn không quá 6 triệu thu nhập của nữ giới thì ta
cần chứng minh 0 < µ1 - µ2 ≤ 6. (Tức là cần thỏa mãn cả 2 điều kiện µ1 - µ2 > 0 và µ1 -
µ2 ≤ 6 thì ta mới kết luận là đủ bằng chứng thống kê; còn vi phạm 1 trong 2 thì ta kết luận
là không đủ bằng chứng thống kê)
Kiểm định điều kiện 1: µ1 - µ2 > 0
H0: µ1 - µ2 ≤ 0
H1: µ1 - µ2 > 0 (*) lời kiểm định thuộc về H1
> x=ThuNhap[GioiTinh=="Nam"]
> y=ThuNhap[GioiTinh=="Nu"]
> t.test(x,y,alt="g")
Có p-value = 0.01429 < α = 5% = 0.05 => Bác bỏ H0, chấp nhận H1 => đủ bằng chứng cho
rằng : µ1 - µ2 > 0 (1)
Kiểm định điều kiện 1: µ1 - µ2 ≤ 6
H0: µ1 - µ2 ≤ 6 (*) lời kiểm định thuộc về H0
Có p-value = 0.2095 > α = 5% = 0.05 => Chấp nhận H0, bác bỏ H1 => đủ bằng chứng cho
rằng : µ1 - µ2 ≤ 6 (2)
Từ (1) và (2) => tại α = 5% đủ bằng chứng định thu nhập của nam giới lớn hơn không quá 6
triệu thu nhập của nữ giới.

q. Tại α = 5%, hãy kiểm định thu nhập của thu nhập của nữ giới ở thành phố nhỏ hơn 5 triệu
thu nhập của nam giới ở thành phố. Biết thu nhập của những người này tuân theo phân phối
chuẩn và độ lệch chuẩn của thu nhập của nam giới và nữ giới thành phố lần lượt là 15 triệu
và 12 triệu.
Không có từ tỷ lệ nên bỏ qua prop.test; không có từ sự đồng đều; sự biến động sự biến
thiên; sự ổn định nên bỏ qua var.test; có từ tuân theo phân phối chuẩn nên làm theo trung
bình. Nam và nữ là 2 tổng thể hoàn toàn khác biệt nhau nên bỏ qua trung bình mẫu theo đôi
(bỏ câu lệnh có tham số paired=T). Đọc đề thấy có 2 giá trị độ lệnh chuẩn hay phương sai
trong bài ở dòng 3 nên áp dụng lệnh z.test để kiểm định.
Giải: (Chép vào đề thi từ đây)
Gọi µ1 và µ2 lần lượt là thu nhập trung bình của Nữ giới và Nam giới ở Thành Phố.
H0: µ1 - µ2 =  5 (*) lời kiểm định thuộc về H0
14
ĐỀ THI XSTK
H1: µ1 - µ2 ≠  5
Tổng thể nào được gọi trước thì đánh thông tin của tổng thể đó vào lệnh kiểm định trước.
> x=ThuNhap[GioiTinh=="Nu"&KhuVuc=="ThanhPho"]
> y=ThuNhap[GioiTinh=="Nam"&KhuVuc=="ThanhPho"]
> z.test(x,y,sigma.x = 12,sigma.y = 15,mu=-5)
Có p-value = 0.6871 > α = 5% = 0.05 => Chấp nhận H0, bác bỏ H1
=> Kết luận: tại α = 5%, đủ bằng chứng cho rằng thu nhập của thu nhập của nữ giới ở thành
phố nhỏ hơn 5 triệu thu nhập của nam giới ở thành phố

r. Kiểm định xem có sự mất cân bằng giới tính giữa nam và nữ hay không? Tại α = 5%, hãy
kiểm định xem có phải sự khác nhau giữa tỷ lệ Nam và nữ sống ở nông thôn hay không?
Cái ý Kiểm định xem có sự mất cân bằng giới tính giữa nam và nữ là đề đang có ý nói số
lượng nam và nữ đang khác biệt nhau thôi. Phần để xác định H0 và H1 ở bài này là câu hỏi
dưới hãy kiểm định xem có phải sự khác nhau giữa tỷ lệ Nam và nữ sống ở nông thôn. (bài
toán khác biệt => bài toán 2 bên). Có từ tỷ lệ => cần kiểm định cho tỷ lệ => dùng lệnh
prop.test
Giải: (Chép vào đề thi từ đây)
Gọi p1 và p2 lần lượt là tỷ lệ tỷ lệ Nam và nữ sống ở nông thôn
H0: p1 – p2 = 0
H1: p1 – p2 ≠ 0 (*) lời kiểm định thuộc về H1
> sum(GioiTinh=="Nam"&KhuVuc=="NongThon")
[1] 10
> sum(GioiTinh=="Nu"&KhuVuc=="NongThon")
[1] 10
> sum(GioiTinh=="Nam")
[1] 55
> sum(GioiTinh=="Nu")
[1] 45
x1 = 10 nam ở nông thôn ; x2 = 10 nữ ở nông thôn lần lượt là số phần tử đang xét của mẫu 1
và mẫu 2 được lấy ra; n1 = 55 nam và n2 = 45 nữ lần lượt là số lượng mẫu được lấy ra của
tổng thể 1 và tổng thể 2. Do n1 và n2 đều ≥ 40 => correct = F (nếu n1 và n2 đều < 40 thì
correct = T)
> prop.test(c(10,10),c(55,45),correct = F)
Có p-value = 0.6153 > α = 5% = 0.05 => Chấp nhận H0, bác bỏ H1
=> Kết luận: tại α = 5%, không đủ bằng chứng cho rằng có sự khác nhau giữa tỷ lệ Nam và
nữ sống ở nông thôn

s. Điều tra về sự đồng đều của độ tuổi giữa Nam giới ở Miền Núi và Nữ giới ở miền núi. Từ
file (SoLieu.csv) và tại α = 4%, hãy kiểm định xem phương sai về tuổi của Nam giới ở Miền
Núi có nhỏ hơn Nữ giới ở Miền Núi không? (Hoặc có thể hỏi khó hơn là: Tuổi của Nam giới
ở Miền Núi đồng đều tuổi của nữ giới ở Miền Núi)
15
ĐỀ THI XSTK
Đọc đề nhìn thấy sự đồng đều (hoặc mức độ đồng đều, sự biến động, sự biến thiên, sự ổn
định) là kiểm định cho phương sai => dùng lệnh var.test
Giải: (Chép vào đề thi từ đây)
Gọi 12 và 22 lần lượt là phương sai về tuổi của Nam giới ở Miền Núi và Nữ giới ở miền
núi
H0: 12 ≥ 22
H1: 12 < 22 (*) lời kiểm định thuộc về H1
> x=Tuoi[GioiTinh=="Nam"&KhuVuc=="MienNui"]
> y=Tuoi[GioiTinh=="Nu"&KhuVuc=="MienNui"]
> var.test(x,y,conf.level = 0.96,alt="l")
Có p-value = 0.01572 < α = 4% = 0.04 => bác bỏ H0, chấp nhận H1
Kết luận: Tại α = 4%, đủ bằng chứng thống kê để cho rằng phương sai về tuổi của Nam giới
ở Miền Núi có nhỏ hơn Nữ giới ở Miền Núi (hay Tuổi của Nam giới ở Miền Núi đồng đều
tuổi của nữ giới ở Miền Núi)
t. Kiểm định tuổi của nam giới ở thành phố có lớn hơn 30 hay không tại mức ý nghĩa = 5%?
Không có từ tỷ lệ nên bỏ qua prop.test; không có từ sự đồng đều; sự biến động sự biến
thiên; sự ổn định nên bỏ qua var.test; không có từ tuân theo phân phối chuẩn nên không
chắc chắn làm theo trung bình. Bây giờ ta cần đếm cỡ mẫu xem có ≥ 30 mẫu hay không?
Nếu cỡ mẫu ≥ 30 => làm theo trung bình còn cỡ mẫu < 30 => làm theo trung vị
> sum(GioiTinh=="Nam"&KhuVuc=="ThanhPho")
[1] 26
Ta thấy cỡ mẫu 26 < 30 => bài này sẽ làm theo trung vị 1 tổng thể.
Giải: (Chép vào đề thi từ đây)
Gọi Md là trung vị về tuổi của Nam giới ở Thành Phố
H0: µ ≤ 30
H1: µ > 30 (*) lời kiểm định thuộc về H1
> x=Tuoi[GioiTinh=="Nam"&KhuVuc=="ThanhPho"]
> wilcox.test(x,mu=30,alt="g")
Có p-value = 0.0003757 < α = 5% => Bác bỏ H0, chấp nhận H1
Kết luận: tại α = 5%, đủ bằng chứng cho rằng tuổi của nam giới ở thành phố có lớn hơn 30

u. Kiểm định xem tuổi của nam giới ở thành phố có lớn hơn tuổi của nữ giới ở thành phố hay
không tại mức ý nghĩa = 4%?
Không có từ tỷ lệ nên bỏ qua prop.test; không có từ sự đồng đều; sự biến động sự biến
thiên; sự ổn định nên bỏ qua var.test; không có từ tuân theo phân phối chuẩn nên không
chắc chắn làm theo trung bình. Bây giờ ta cần đếm cỡ mẫu của 2 tổng thể xem có ≥ 30 mẫu

16
ĐỀ THI XSTK
hay không? Nếu cỡ mẫu của cả 2 tổng thể đều ≥ 30 => làm theo trung bình còn cỡ mẫu của
cả 2 tổng thể đều < 30 => làm theo trung vị.
> sum(GioiTinh=="Nam"&KhuVuc=="ThanhPho")
[1] 26
> sum(GioiTinh=="Nu"&KhuVuc=="ThanhPho")
[1] 16
Ta thấy cỡ của cả hai tổng thể đều < 30 => làm theo trung vị. Nam ở thành phố và nữ ở
thành phố là 2 tổng thể hoàn toàn khác biệt nhau => mẫu độc lập không phải mẫu theo đôi
=> không cần đánh thêm tham số paired=T
Giải: (Chép vào đề thi từ đây)
Gọi M1 và M2 là lần lượt là trung vị về tuổi của Nam giới ở Thành Phố và Nữ giới ở Thành
Phố.
H0: M1 – M2 ≤ 0
H1: M1 – M2 > 0 (*) lời kiểm định thuộc về H1
> x=Tuoi[GioiTinh=="Nam"&KhuVuc=="ThanhPho"]
> y=Tuoi[GioiTinh=="Nu"&KhuVuc=="ThanhPho"]
> wilcox.test(x,y,conf.level = 0.96,alt="g")
Có p-value = 0.6225 > α = 4% = 0.04 => chấp nhận H0, bác bỏ H1
Kết luận: Vậy tại α = 4%, không đủ bằng chứng thống kê để cho rằng tuổi của nam giới ở
thành phố có lớn hơn tuổi của nữ giới ở thành phố

v. Tại 1 câu lạc bộ thẩm mỹ, người ta quảng cáo 1 chương trình luyện tập làm giảm trọng
lượng rất hữu hiệu là sau khóa huấn luyện thì trọng lượng trung bình của các học viên sẽ
giảm ít nhất 15kg. Rất đông các quý bà và quý cô muốn tham dự khóa huấn luyện nhưng vẫn
nghi ngờ về hiệu quả nên đã nhờ 1 chuyên gia thống kê điều tra hộ. Chuyên gia thống kê
chọn ra ngẫu nhiên 12 quý bà và theo dõi trọng lượng trung bình của họ lúc trước và lúc sau
khi tham dự khóa huấn luyện. Dữ liệu được ghi lại trong File
(“TrongLuongHocVien.rda”). Biết trọng lượng của các học viên tuân theo phân phối
chuẩn. Tại α = 5%, chuyên gia thống kê nên khuyên các quý bà và quý cô điều gì?
Không có từ tỷ lệ nên bỏ qua prop.test; không có từ sự đồng đều; sự biến động sự biến
thiên; sự ổn định nên bỏ qua var.test; có từ tuân theo phân phối chuẩn nên làm theo trung
bình. Các số liệu được lấy ra từ cùng các quý bà, quý cô chỉ khác thời điểm được lấy ra là
lúc trước hay lúc sau khi tham gia khóa huấn luyện => làm theo trung bình mẫu theo đôi, cả
đề bài đọc lên không thấy giá trị độ lệch chuẩn hay phương sai gì cả => áp dụng câu lệnh
t.test cần có tham số paired=T dành cho kiểu dữ liệu được lấy mẫu theo đôi.
Giải: (Chép vào đề thi từ đây)
Gọi µD là chênh lệch về trọng lượng trung bình của các học viên lúc trước so với lúc sau
khi tham gia khóa huấn luyện
H0: µD ≥ 15 (*) (lời kiểm định thuộc về H0)

17
ĐỀ THI XSTK
H1: µD < 15
> tl=load("TrongLuongHocVien.rda")
> tl
[1] "TrongLuong"
> TrongLuong
QuyBa Truoc Sau
1 1 100 85
2 2 110 90
3 3 120 95
4 4 105 80
5 5 107 97
6 6 108 95
7 7 109 90
8 8 100 95
9 9 99 92
10 10 95 85
11 11 97 80
12 12 96 88
> attach(TrongLuong)
> t.test(Truoc,Sau,mu=15,alt="l",paired = T)
Có p-value = 0.4019 > α = 5% = 0.05 => chấp nhận H0, bác bỏ H1.
Kết luận: Tại α = 5%, đủ bằng chứng thống kê để cho rằng sau khóa huấn luyện thì trọng
lượng trung bình của các học viên sẽ giảm ít nhất 15kg

w. Tại mức α = 5%, hãy kiểm định xem thu nhập của nam giới ở các khu vực khác nhau là có như
nhau hay không? Biết thu nhập của nam giới ở các khu vực khác nhau tuân theo phân phối chuẩn
và có phương sai bằng nhau. Sau đó lập bảng phân tích phương sai và điền các thông số vào bảng:
Nguồn biến thiên Tổng bình phương Bậc tự do Phương sai Tỷ số F

> table(GioiTinh,KhuVuc)
KhuVuc
GioiTinh HaiDao MienNui NongThon ThanhPho
Nam 6 13 10 26
Nu 6 13 10 16
Ta thấy Nam được phân bổ thành 4 khu vực. Vậy là đại diện cho 4 tổng thể là nam giới ở
hải đảo, nam giới ở miền núi, nam giới ở nông thôn và nam giới ở thành phố.
Vậy là bài này sẽ rơi vào kiểm định 4 tổng thể. Thông tin tuân theo phân phối chuẩn và có
phương sai bằng nhau thì điều kiện để kiểm định 3 tổng thể trở lên theo lệnh anova
Giải: Viết vào bài thi như sau
Gọi µ1, µ2, µ3, µ4 lần lượt là thu nhập trung bình của Nam giới ở Hải Đảo, Miền Núi,
Nông Thôn và Thành Phố.
> a=ThuNhap[GioiTinh=="Nam"&KhuVuc=="HaiDao"]
> b=ThuNhap[GioiTinh=="Nam"&KhuVuc=="MienNui"]
> c=ThuNhap[GioiTinh=="Nam"&KhuVuc=="NongThon"]
> d=ThuNhap[GioiTinh=="Nam"&KhuVuc=="ThanhPho"]
> x=c(a,b,c,d)
> y=rep(c(1:4),c(6,13,10,26))
> PL=factor(y)
> anova(lm(x~PL))

18
ĐỀ THI XSTK
Analysis of Variance Table

Response: x
Df Sum Sq Mean Sq F value Pr(>F)
PL 3 530 176.65 0.2807 0.8391
Residuals 51 32100 629.41
Có p – giá trị = Pr(>F) = 0.8391 > α = 5% = 0.05 => chấp nhận H0, bác bỏ H1.
Kết luận: Vậy tại α = 5%, đủ bằng chứng thống kê để cho rằng thu nhập của nam giới ở các
khu vực khác nhau là có như nhau.

Hoàn thành bảng phân tích phương sai như sau:


Nguồn biến thiên Tổng bình phương Bậc tự do Phương sai Tỷ số F
Nội bộ nhóm 530 3 176.65 0.8391
Giữa các nhóm 32100 51 629.41
Tổng000 32630 54

BÀI 2: BÀI TOÁN PHỤ (KIỂM ĐỊNH CHI BÌNH PHƯƠNG) (2 điểm)
a. Người ta nghiên cứu xem có mối liên hệ giữa thời gian tìm hiểu trước hôn nhân và tình trạng
hiện tại của cuộc hôn nhân hay không. Bảng sau cho ta số liệu điều tra về 200 cặp vợ chồng có
thời gian kết hôn trên 5 năm, với thời gian tìm hiểu trước hôn nhân được chia làm ba mức là
ngắn, trung bình và dài và tình trạng hôn nhân được chia làm ba mức là hạnh phúc, không hạnh
phúc và ly dị/ly thân:
Thời gian tìm hiểu
Ngắn Trung bình Dài
Tình trạng hôn nhân
Hạnh phúc 38 58 54
Không hạnh phúc 12 14 4
Ly dị/ ly thân 10 8 2
Tại α = 5%, hãy kiểm định xem thời gian tìm hiểu trước hôn nhân có liên hệ với tình trạng hôn
nhân không?
Đây là dạng bài kiểm định chi bình phương cho 2 biến độc lập ảnh hưởng hay không ảnh
hưởng đến nhau (2 biến chữ VD: Khu Vực có ảnh hưởng đến giới tính hay không? Đôi khi
biến chữ lại được mã hóa dưới dạng số như kiểu lực học (1 – Xuất sắc, 2 – Giỏi, 3 – Khá, 4
– Trung bình). Mức độ yêu thích thể thao (TheThao 1 – Rất thích, 2 – Thích, 3 – Bình
thường, 4 – Không thích)
Với dạng này thì không cần gọi mà viết trực tiếp H0 và H1 luôn
Giải:
H0: thời gian tìm hiểu trước hôn nhân không có liên hệ với tình trạng hôn nhân

19
ĐỀ THI XSTK
H1: thời gian tìm hiểu trước hôn nhân có liên hệ với tình trạng hôn nhân (*) lời kiểm định
thuộc về H1
> x=c(38,58,54,12,14,4,10,8,2)
> A=matrix(x,nrow=3,byrow=T)
> chisq.test(A)
p-value = 0.01461 < α = 5% = 0.05 => Bác bỏ H0, chấp nhận H1
Kết luận vậy tại α = 5%, đủ bằng chứng thống để cho rằng thời gian tìm hiểu trước hôn
nhân có liên hệ với tình trạng hôn nhân
b. 1 trường học có tổng số học sinh là 3000 sinh viên trong đó có 30% Miền Bắc 20% là miền
Nam và 50% Miền Trung. Tỷ lệ theo học lực Xuất sắc, giỏi, khá, trung bình của Miền Bắc là
30%, 20%, 40%, 10%. Miền Nam là 10%, 30%, 40%, 20%. Miền Trung là 20%, 40%, 25% và
15%. Hỏi là vùng miền có ảnh hưởng đến học lực của sinh viên không?
Có 3.000 sinh viên. 30% Miền Bắc 20% là miền Nam và 50% Miền Trung =>
Miền bắc = 30% * 3.000 = 900; Miền nam = 20% * 3.000 = 600; Miền Trung = 50%*3.000
= 1.500
Xuất sắc, giỏi, khá, trung bình của Miền Bắc là 30%, 20%, 40%, 10% => Miền Bắc học
xuất sắc có 900*30% = 270; Miền Bắc học giỏi có 900*20% = 180; Miền Bắc học khá
900*40% = 360; Miền Bắc học trung bình có 900*10% = 90
Xuất sắc, giỏi, khá, trung bình của Miền Nam là 10%, 30%, 40%, 20% => Miền Nam học
xuất sắc có 600*10% = 60; Miền Nam học giỏi có 600*30% = 180; Miền Nam học khá có
600*40% = 240; Miền Nam học trung bình có 600*20%=120
Xuất sắc, giỏi, khá, trung bình của Miền Trung là 20%, 40%, 25% và 15%. => Miền Trung
học xuất sắc có 1.500*20% = 300; Miền Trung học giỏi có 1.500*40% = 600; Miền Trung
học khá có 1.500*25% = 375; Miền Nam học trung bình có 1.500*15% = 225
Từ các tính toán trên ta thấy mỗi một con số được tạo thành từ 2 đặc điểm nên đây là dạng
bài kiểm định 2 biến độc lập (kiểm định ma trận)
Học lực Xuất sắc Giỏi Khá Trung bình
Miền
Bắc 270 180 360 90
Trung 60 180 240 120
Nam 300 600 375 225
H0: Vùng miền không ảnh hưởng đến học lực
H1: Vùng miền có ảnh hưởng đến học lực (*) lời kiểm định thuộc về H1
> x=c(270,180,360,90,60,180,240,120,300,600,375,225)
> A=matrix(x,nrow=3,byrow=T)
> chisq.test(A)
Có p-value (< 2.2e-16) < α = 5% => bác bỏ H0, chấp nhận H1.
20
ĐỀ THI XSTK
Kết luận: Vậy tại α = 5%, đủ bằng chứng thống kê để cho rằng Vùng miền có ảnh hưởng
đến học lực
Mở rộng:
Dùng file SoLieu.csv kiểm định tại α = 5% xem KhuVuc có ảnh hưởng đến GioiTinh
H0: KhuVuc không ảnh hưởng đến GioiTinh
H1: KhuVuc ảnh hưởng đến GioiTinh (*) lời kiểm định thuộc về H1
> table(KhuVuc,GioiTinh)
GioiTinh
KhuVuc Nam Nu
HaiDao 6 6
MienNui 13 13
NongThon 10 10
ThanhPho 26 16
> x=c(6,6,13,13,10,10,26,16)
> A=matrix(x,nrow=4,byrow=T)
> chisq.test(A)
Có p-value = 0.7067 > α = 5% = 0.05 => Chấp nhận H0, Bác bỏ H1
Kết luận: Vậy tại α = 5%, không đủ bằng chứng thống kê để cho rằng Khu Vuc có ảnh
hưởng đến GioiTinh

Tập dữ liệu HocSinh.rda chứa các thông tin của một số học sinh cấp 1 về lực học (1 – Xuất
sắc, 2 – Giỏi, 3 – Khá, 4 – Trung bình). Mức độ yêu thích thể thao (TheThao 1 – Rất thích,
2 – Thích, 3 – Bình thường, 4 – Không thích). Tại α = 5% kiểm định mức độ yêu thích thể
thao không có mối liên hệ đến học lực?
H0: Mức độ yêu thích thể thao không có mối liên hệ đến học lực (*) lời kiểm định thuộc về H0
H1: Mức độ yêu thích thể thao có mối liên hệ đến học lực
> table(TheThao,HocLuc)
HocLuc
TheThao 1 2 3 4
1 0 67 60 38
2 55 0 54 44
3 30 37 0 44
4 8 19 19 0
> x=c(0,67,60,38,55,0,54,44,30,37,0,44,8,19,19,0)
> A=matrix(x,nrow=4,byrow=T)
> chisq.test(A)
p-value < 2.2e-16 < α = 5% => Bác bỏ H0, chấp nhận H1
Kết luận: Vậy tại α = 5%, không đủ bằng chứng thống kê để cho rằng mức độ yêu thích thể
thao không có mối liên hệ đến học lực

c. Một mẫu ngẫu nhiên gồm 100 phụ nữ ở thành phố Hồ Chí Minh được chọn ra để hỏi mức độ ưa
thích về 5 loại xà phòng A, B, C, D và E thì thu được kết quả như sau:
Loại xà phòng A B C D E Tổng
Số phụ nữ chọn 18 16 23 20 23 100

21
ĐỀ THI XSTK
Hãy kiểm tra xem 5 loại xà phòng này có được ưa thích như nhau đối với phụ nữ ở thành phố
HCM ở mức ý nghĩa 5% không?
Đây là dạng bài về kiểm định mức phù hợp của một phân phối (kiểm định xác suất)
H0: 5 loại xà phòng này có được ưa thích như nhau đối với phụ nữ ở thành phố HCM (*) lời
kiểm định thuộc về H0
H1: 5 loại xà phòng này không được ưa thích như nhau đối với phụ nữ ở thành phố HCM
> x=c(18,16,23,20,23)
> p0=rep(1/5,5)
> chisq.test(x,p=p0)
Có p-value = 0.7541 > α = 5% = 0.05 => Chấp nhận H0, Bác bỏ H1
Kết luận: vậy tại α = 5% đủ bằng chứng thống kê để cho rằng 5 loại xà phòng này có được
ưa thích như nhau.

d. Một nhân viên môi giới chứng khoán bán chứng khoán cứ 1 ngày tiếp xúc với 6 khách hàng. Giả
thiết cho rằng số lần bán được hàng của nhân viên cho khách hàng tuân theo phân phối nhị thức
với xác suất bán được chứng trên 1 khách hàng là p = 0.3. Kết quả trong nhiều ngày như sau:
Số lần bán được hàng trên ngày 0 1 2 3 4 5 6
Số ngày 15 45 60 28 16 11 8
Ở mức ý nghĩa 5% ta có thể kết luận rằng phân phối số lần bán được chứng khoán có thực sự
tuân theo phân phối ở trên không?
Giải:
H0: Số lần bán được chứng khoán có tuân theo phân phối nhị thức (*) lời kiểm định thuộc về H0
H1: Số lần bán được chứng khoán không tuân theo phân phối nhị thức
> x=c(15,45,60,28,16,11,8)
> k=c(0:6)
> p0=dbinom(k,6,0.3)
> chisq.test(x,p=p0)
p-value (< 2.2e-16) < α = 5% = 0.05 => Bác bỏ H0, Chấp nhận H1
Kết luận: Vậy tại α = 5%, không đủ bằng chứng thống kê để cho rằng Số lần bán được
chứng khoán có tuân theo phân phối nhị thức
e. Một nhân viên môi giới chứng khoán bán chứng khoán cứ 1 ngày tiếp xúc với 6 khách hàng. Giả
thiết cho rằng số lần bán được hàng của nhân viên cho khách hàng tuân theo phân phối nhị thức
với xác suất bán được chứng trên 1 khách hàng là p = 0.3. Kết quả trong nhiều ngày như sau:
Số lần bán được hàng trên ngày 0 1 2 3
Số ngày 15 45 60 63
Giải:
H0: Số lần bán được chứng khoán có tuân theo phân phối nhị thức (*) lời kiểm định thuộc về H0
H1: Số lần bán được chứng khoán không tuân theo phân phối nhị thức
> x=c(15,45,60,63)
> k=c(0:2)
> p1=dbinom(k,6,0.3)
22
ĐỀ THI XSTK
> p2=1-pbinom(2,6,0.3)
> p0=c(p1,p2)
> chisq.test(x,p=p0)
p-value = 0.02288 < α = 5% = 0.05 => Bác bỏ H0, Chấp nhận H1
Kết luận: Vậy tại α = 5%, không đủ bằng chứng thống kê để cho rằng Số lần bán được
chứng khoán có tuân theo phân phối nhị thức

BÀI 3: XS CỔ ĐIỂN, XS CÓ ĐIỀU KIỆN, BIẾN NGẪU NHIÊN VÀ CÁC QUY LUẬT PHÂN
PHỐI XS THƯỜNG GẶP (3 ĐIỂM) (KHÔNG LƯU TRÊN WORD tự xem bản giải ảnh chụp
nha)
1. Rút ngẫu nhiên 6 quân bài từ 1 bộ bài tây 52 quân. Tính xác suất của các câu hỏi sau đây:
a. Trong 6 quân bài có ít nhất 3 quân át.
b. Trong 6 quân bài có ít nhất 1 quân át.
c. Trong 6 quân bài có đúng 2 quân át.
d. Trong 6 quân bài có 6 quân cùng chất.
e. Trong 6 quân bài có 6 quân cùng màu.
f. Trong 6 quân bài có 1 tứ quý.
g. Trong 6 quân bài có đúng 1 bộ ba.
k. Trong 6 quân bài có đúng 3 quân cơ.
l. Trong 6 quân bài có đúng 4 quân hình người (hình đầu người)
2. 1 hộp có 20 viên bi. Trong đó có 8 bi đỏ, 5 bi xanh và 7 bi vàng. Lấy ra ngẫu nhiên 6 viên bi.
Tính xác suất cho các câu hỏi sau:
a. 6 viên đều màu đỏ.
b. Trong 6 viên có 3 bi đỏ, 2 bi xanh và 1 bi vàng.
c. Trong 6 viên có đúng bi 4 màu đỏ.
d. Trong 6 viên có không quá 2 viên màu đỏ.
e. Lấy ra ngẫu nhiên 4 viên bi. Tính XS để lấy ra được cả 3 màu trong 4 viên được lấy ra.
3. Ở một bệnh viện có 70% là bác sĩ nam, 40% bác sĩ trong bện viện chuyên về ngoại khoa, 35% bác
sĩ nam và chuyên về ngoại khoa. Chọn ngẫu nhiên 1 bác sĩ trong bệnh viện.
a. Tính xác suất để bác sĩ này là nam biết rằng bác sĩ này chuyên về ngoại khoa.
b. Tính xác suất để bác sĩ này chuyên về ngoại khoa biết rằng đây là bác sĩ nữ.
c. 2 biến cố “bác sĩ được chọn là nam ” và biến cố “bác sĩ được chọn chuyên về ngoại khoa” có
độc lập với nhau hay không? Tại sao?
4. a. Biết xác suất của 1 người bị ung thư phổi là 5%. Xác suất của người bị ung thư phổi biết người
đó đã nghiện thuốc là là 90%. Xác suất của người bị nghiện thuốc lá biết người đó đã bị ung thư
phổi là 40%. Tính xác suất của người nghiện thuốc lá?
b. Chọn ngẫu nhiên 50 người trong 1 khu vực. Tính xác suất để có 20 trong 50 người chọn ra bị
nghiện thuốc lá?
5. 20 quả bóng được chọn ngẫu nhiên từ một chiếc bình có 27 quả bóng trắng và 33 quả bóng đỏ. Gọi
X là biến ngẫu nhiên chỉ số bóng trắng được lấy ra. Tính Ex và Vx?

23
ĐỀ THI XSTK
6. Chọn ngẫu nhiên 7 quân từ một bộ bài tây 52 quân. Gọi X là số quân cơ trong 7 quân đó.
a. Tính xác suất để trong 7 quân chọn ra có 3 quân cơ.
b. Lập bảng phân phối xác suất cho X.
c. Tính trung bình và phương sai cho số quân cơ rút được.
7. Một công ty thuê một luật sư trong một vụ kiện với hai phương án trả công như sau:
• Phương án 1: Trả 10 triệu đồng bất kể thắng hay thua kiện.
• Phương án 2: Trả 1 triệu đồng nếu thua kiện và 30 triệu đồng nếu thắng kiện.
Luật sư đánh giá khả năng thắng kiện của công ty này là 40%.
a. Lập bảng phân phối xác suất cho số tiền mà luận sư nhận được trong mỗi phương án.
b. Theo bạn luật sư nên chọn phương án nào? Tại sao?
8. Trên máy bay có 4 loại thức ăn: Bánh mỳ, mỳ tôm, bánh bao và bánh rán. Trên chuyến bay này
hiện có 80 người. Biết 4 loại thức ăn trên được yêu thích như nhau. Tính xác suất để có không
quá 30 người chọn bánh mỳ trên chuyến bay này?
9. Nếu bạn mua 50 vé xổ số và cơ hội trúng thưởng của mỗi vé số là 1/100.
a. Tính xác suất để bạn trúng ít nhất một giải, đúng một giải, ít nhất hai giải.
b. Tìm số giải mà bạn có khả năng trúng cao nhất.
10. Theo một khảo sát trên 1.100 người lớn cho thấy phân phối số người bạn thân của mẫu này xấp
xỉ phân phối chuẩn với trung bình là 9, độ lệch chuẩn là 2.5.
a. Chọn một người trưởng thành ngẫu nhiên. Tính xác suất để người đó có số bạn thân từ 10 trở lên?
b. Chọn một người trưởng thành ngẫu nhiên. Tính xác suất để người đó có từ 7 đến 11 bạn thân
c. Chọn một trong số 10% những người có số bạn thân nhiều nhất. Anh ta phải có ít nhất bao
nhiêu bạn thân trở lên?
d. Chọn 6 người trưởng thành ngẫu nhiên. Gọi X là số người trong số 6 người đó có ít nhất 10
bạn thân. X tuân theo phân phối gì? Tính xác suất để có 4 trong số 6 người trên có ít nhất 10
bạn thân?
11. Giả sử chiều cao trung bình của nam giới của một địa phương tuân theo phân phối chuẩn với
trung bình là 170cm, độ lệch chuẩn là 15cm. Tính xác suất để có 30 trong 100 nam giới được
chọn ngẫu nhiên có chiều cao ít nhất 180cm.

24

You might also like