Professional Documents
Culture Documents
Chương 4: Mẫu Thống Kê & Ước Lượng Tham Số
Chương 4: Mẫu Thống Kê & Ước Lượng Tham Số
1
Nội dung chính
2
Tổng thể và mẫu ngẫu nhiên
1) Trong thực tế, ta thường quan tâm nghiên cứu một
(hoặc một vài) dấu hiệu chung về lượng hay về chất
của tất cả các phần tử một tập hợp nào đó. Tập hợp
này được gọi là một đám đông (hay một tổng thể). Dấu
hiệu chung thay đổi qua các phần tử của đám
đông/tổng thể này là 1 biến ngẫu nhiên X nào đó.
Như vậy, nghiên cứu đám đông/tổng thể thực chất là
nghiên cứu biến ngẫu nhiên X, nghĩa tìm hiểu luật
phân phối xác suất của X hay tìm một số đặc trưng của
nó.
Thực tế do nhiều nguyên nhân, chẳng hạn số phần tử
của đám đông/tổng thể rất lớn không thể nghiên cứu
toàn bộ các phần tử của nó để tìm ra luật phân phối
xác suất của nó. Dó đó người ta cần sử dụng phương
Tổng thể và mẫu ngẫu nhiên
2) Mẫu ngẫu nhiên, mẫu cụ thể: Tiến hành n
quan sát độc lập về biến ngẫu nhiên X nào đó trên
tổng thể.
Ta gọi Xi là quan sát thứ i về biến ngẫu nhiên X
(i=1, …, n). Khi đó, (X1, X2, …, Xn) được gọi là mẫu
ngẫu nhiên kích thước n.
Như vậy mẫu ngẫu nhiên kích thước n thực chất là
n biến ngẫu nhiên độc lập có cùng phân phối xác
suất với X.
Ta gọi xi là kết quả quan sát thứ i. Khi đó (x1, x2, …,
xn) là n giá trị quan sát được. Đó là giá trị cụ thể
mà mẫu ngẫu nhiên (X1, X2, …, Xn) nhận, còn
được gọi là mẫu cụ thể.
4
Tổng thể và mẫu ngẫu nhiên
5
Tổng thể và mẫu ngẫu nhiên
3) Sai số quan sát. Trong việc lấy mẫu, do nhiều
nguyên nhân khác nhau, sẽ không tránh khỏi các sai số
trong các số liệu mẫu. Vì vậy trước khi dùng các thống
kê để phân tích, xử lý ta cần loại bỏ các sai số không
.
đáng có trong mẫu đã cho.
Giả sử X là kết quả quan sát; a là giá trị thực (đúng) của
biến ngẫu nhiên đang quan sát; Z là sai số.
Khi đó Z = X – a. Vì a chưa biết nên sai số Z cũng chưa
biết.
Ta phân loại các sai số như sau: Sai số thô, sai số hệ
thống và sai số ngẫu nhiên.
Trong 3 loại sai số trên, sai số thô, sai số hệ thống cần
phát hiện sớm và khử bỏ ngay, còn sai số ngẫu nhiên
không thể khử bỏ được trong mỗi lần quan sát.
6
Tổng thể và Mẫu ngẫu nhiên
4) Luật phân phối của sai số ngẫu nhiên: Sau khi bỏ sai số
thô và sai số hệ thống chỉ còn lại sai số ngẫu nhiên Z = X – a.
Thông thường Z~ N(0, ϭ2). Theo Chương 3, ta có:
b a
a) P a Z b ;
b) P( Z k ) (k ) (k ) 2(k )
Tra bảng F, ta có:
+ k=1, ta có P( Z ) 2(1) 68%.
+ k=2, ta có P(2 Z 2 ) 2(2) 95%.
+ k=3, ta có P(3 Z 3 ) 2(3) 99,74%
P Z 3 0,0027.
Xác suất 0,0027 quá nhỏ, nên ta xem trong thực tế
sai số ngẫu nhiên không vượt quá 3 . 7
Phương pháp khử sai số thô
a) Khi ϭ đã biết: Giả sử x* là giá trị nghi ngờ, x1,
x2, …, xn là giá trị còn lại. Tính:
1 n x* x
x
n i 1
xi , u
n 1
.
n
Từ bảng phân phối N(0,1), ta tìm được 2(1-F(u)), trong đó
F(u) =1/2+Ф(u) là hàm phân phối của phân phối chuẩn tắc
N(0,1).
Cho trước α khá bé, thông thường α = 0,10; 0,05; 0,01.
Nếu 2(1-F(u)) = 1-2Ф(u)< α thì ta kết luận x* có chứa sai số
thô và loại bỏ x* khỏi mẫu.
8
Ví dụ
Trong 41 quan sát độc lập với độ lệch chuẩn sai số bình
phương trung bình ϭ = 0,133, ta thấy có một giá trị đột
xuất là 6,886 đồng thời giá trị trung bình của 40 kết luận
còn lại là x 6,500 . Vậy với độ tin cậy 95% có thể xem
có chứa sai số thô được không? Ở đây
*
x
1 0,95 0,05.
Ta có:
x x
*
6,886 6,500
u 2,86.
n 1 41
0,133
n 40
2 1 F (2,86) 1 2(2,86) 0,0042 0,05.
9
Phương pháp khử sai số thô
Vậy với độ tin cậy 95% ta coi x* chứa sai số thô
(với kết quả tìm được x* chứa sai số thô tin cậy
đến 99%).
b) Khi ϭ chưa biết:
x *
x
n n
1 1
Tính x xi , s
2
2
xi x , t .
n i 1 n 1 i 1 s
Với đã cho, tra bảng H, ta tìm được t( n1) .
Nếu t t( n1) ta kết luận x* chứa sai số thô và loại x*
ra khỏi mẫu.
Sau khi loại bỏ các sai số quan sát, ta có mẫu cụ
thể (x1, x2, ..., xn), biểu thị qua các dạng sau:
10
Các dạng của mẫu cụ thể
+ Dạng bảng:
Ví dụ: Ta có bảng điểm sau:
3 4 2 4 2
2 4 3 6 1
2 6 4 3 1
nx 2 4 3 4 2
11
Các dạng của mẫu cụ thể
+ Dạng khoảng:
X (x1,x2) (x3,x4) ... (xn,xn+1)
nx n1 n2 ... nk
12
Tổng thể và mẫu ngẫu nhiên
VD 1. Theo dõi mức nguyên liệu hao phí để sản
xuất ra một đơn vị sản phẩm ở một nhà máy, ta
thu được các số liệu sau (đơn vị: gam)
20; 22; 21; 20; 22; 22; 20; 19; 20; 22; 21; 19; 19;
20; 18; 19; 20; 20; 18; 19; 20; 20; 21; 20; 18; 19;
19; 21; 22; 21; 21; 20; 19; 20; 22; 21; 21; 22; 20;
20; 20; 19; 20; 21; 19; 19; 20; 21; 21.
13
Tổng thể và Mẫu ngẫu nhiên
VD 2. Kiểm tra ngẫu nhiên điểm thi của 50
sinh viên, kết quả:
Điểm 2 4 5 6 7 8 9 10
Số SV) 4 6 20 10 5 2 2 1
14
Tổng thể và Mẫu ngẫu nhiên
X1 X2 ... Xn 1 n
X Xi
n n i1
X X
2 2
... Xn X 1 n 2
Xi X .
1 2
Ŝ2 2X
n n i1
ˆ ˆ
• Độ lệch chuẩn mẫu chưa hiệu chỉnh: S X S .
2
17
Các đặc trưng của mẫu
• Phương sai mẫu hiệu chỉnh:
X X
2 2
... Xn X 1 n
1 2
S S
2 2
Xi X
n 1 n 1 i1
X
1 n 2
2
Xi n X .
n 1 i1
Nhận xét:
n ˆ 2 n
SX 2
SX X2.
n 1 n 1
Ví dụ 4.
Điều tra năng suất lúa trên diện tích 100 hecta trồng lúa
của một vùng, ta thu được bảng số liệu sau:
Năng suất (tạ/ha) 41 44 45 46 48 52 54
Số ha có năng suất 10 20 30 15 10 10 5
tương ứng
a) Tính trung bình mẫu, phương sai mẫu, phương sai mẫu hiệu
chỉnh.
b) Những thửa ruộng có năng suất cao từ 48 tạ trở lên là những
thửa ruộng có năng suất cao. Tính tỉ lệ thửa ruộng có năng suất
cao.
•Tính trung bình mẫu, phương sai mẫu điều chỉnh của những
thửa ruộng có năng suất cao.
19
Ví dụ 4.
a) Ta lập lại bảng số liệu:
xi ni nixi nix2
41 10 410 16.810
44 20 880 38.720
45 30 1350 60.750
46 15 690 31.740
48 10 480 23.040
52 10 520 27.040
54 5 270 14.580
Tổng N = 100 4600 212680
n x i i
4600
x i 1
7
46
n
100
i 20
i 1
Ví dụ 4.
Phương sai của năng suất:
7
n x 2
i i
2 2 212680
s i 1
7
x (46) 10,8.
2
n
100
i
i 1
Phương sai hiệu chỉnh của năng suất:
n 2 100
s
2
s 10,8 10,909.
n 1 100 1
21
Ví dụ 4.
b) Ta lập bảng sau:
2
xi ni nixi nixi
48 10 480 23.040
52 10 520 27.040
54 5 270 14.580
Tổng n = 25 1270 64660
1 n 1270
x ni xi 50,8.
n i1 25
1 n
1
2
s
2
ni i n X
x 2
25 1 (64660 25 50,8 50,8)
n 1 i 1
6.
22
CÁCH SỬ DỤNG MÁY TÍNH
Shift Mode 4 (STAT) 1 (ON)
Mode 3 (STAT) 1 ( 1 VAR)
Nhập các giá trị và tần suất vào 2 cột trên màn
hình: X FREQ
a) Tìm trung bình: Shift 1 4 (VAR) 2 ( x ) =
b) Tìm phương sai: Shift 1 4 (VAR) 3 ( x ) = (độ
lệch chưa hiệu chỉnh) Phương sai: x2 .
2
Tính x , s .
Với bảng phân phối ghép lớp, ta thay lớp xi1 xi
xi 1 xi
bằng lớp xi , đưa về bảng phân phối
2
2
thông thường để tính x , s .
24
Ví dụ 5.
25
Ví dụ 5.
• Ta có:
304 2 3082,14
x 10,1333; x 102,738;
30 30
29
26
Quy luật phân phối xác suất của đặc trưng mẫu
1. Nếu X N ( , 2 ) thì
X
2
N , U
X n
N (0,1).
n
T
X n
N (0,1).
S
3. Nếu X không là phân phối chuẩn và n khá lớn
thì U
X n
&T
X n
N (0,1).
S
27
Quy luật phân phối xác suất của đặc trưng mẫu
Trường hợp: n ≥ 30
2
Với n 30 và đã biết thì X ~ N ; .
2
n
S 2
Với n 30 và chưa biết thì X ~ N ; .
2
n
29
PPXS của các đặc trưng mẫu
Trường hợp n < 30: Ta giả sử mẫu (X1, X2,…, Xn)
được chọn từ tổng thể có phân phối chuẩn với trung
bình là và phương sai là 2 .
2
Với đã biết thì X ~ N ; .
2
n
X
Với chưa biết thì thống kê Tn1
2
~ St n 1 .
S
n
30
Ví dụ 6.
Để nghiên cứu về thâm niên công tác (tính tròn năm) của nhân
viên ở một công ty lớn, người ta khảo sát thâm niên của 100 nhân viên
được chọn ngẫu nhiên trong công ty. Kết quả như sau:
Thâm niên 5-7 8-10 11-13 14-16 17-19
Số nhân viên 8 21 36 25 10
a) Hãy tính giá trị trung bình mẫu và độ lệch chuẩn mẫu đã hiệu
chỉnh.
b) Giả sử thâm niên công tác của nhân viên trong công ty trên là
BNN X có phân phối chuẩn, kỳ vọng 12 năm và độ lệch chuẩn là 3
năm. Tính xác suất để trung bình mẫu nhận giá trị lớn hơn 12,5 năm.
31
Quy luật phân phối xác suất của đặc trưng mẫu
U
X n
N (0,1).
Do đó xác suất để trung bình mẫu nhận giá trị lớn
hơn 12,5 là:
X 12,5 12,5 12
P X 12,5 P n
n P U
100
3
P U 1,67 () (1,67) 0,5 0,4525 0,0475.
32
Ví dụ 7.
Fn p0
Vì n N (0,1) nên
p0 (1 p0 )
27
Fn p0 0,6
P m 135 P n 41 205 1,71
p0 (1 p0 ) 0,6(1 0,6)
0,5 (1,71) 0,5 0,4564 0,0436.
34
Ước lượng tham số
Ước lượng các tham số của biến ngẫu nhiên:
Thông thường có 2 loại ước lượng, đó là ước
lượng điểm và ước lượng khoảng.
35
Ước lượng điểm
Ta dùng một hàm nào đó của mẫu ngẫu nhiên
X1 , X 2 ,..., X n để ước lượng cho , kí hiệu .
T X 1 ,X 2 ,..., X n là một biến ngẫu nhiên.
được gọi là ước lượng điểm vì với mẫu cụ thể
x1 , x2 ,..., xn , t x1 , x 2 ,..., x n nhận một giá trị cụ
thể (biểu thị bằng một điểm trên trục số)
36
Ước lượng điểm
E 0. (Sai số trung bình bằng 0 là sai số ngẫu nhiên, ngược lại là
sai số hệ thống).
Trái lại, nếu tồn tại để E thì ước lượng được gọi là chệch và
được gọi là vững nếu với mọi 0 thì lim P 1, nói
n
38
Định lý: Cho (X1, X2,…, Xn) là mẫu ngẫu nhiên độc
lập, cùng phân phối được chọn từ một tổng thể có
trung bình , phương sai 2
và tỷ lệ tổng thể p. Khi
đó, ta có:
ˆ
E X , E S
2
n 1 2
n
, E S2 2, E Fn p.
p 1 p
2
Var X , Var Fn .
n n
39
Nhận xét. Từ định lý trên ta suy ra rằng:
Ước lượng giá trị trung bình và ước lượng tỷ lệ là
hai ước lượng không chệch, vững và hiệu quả.
Ví dụ: Kiểm tra thể lực của một nhóm sinh viên ở trường Đại
học A ta có kết quả về cân nặng như sau:
Trọng lượng
45 50 55 60 65
(kg)
Số sinh viên 8 14 28 12 18
Ước lượng không chệch cho phương sai tổng thể (đã hiệu
chỉnh) là
a. 6,313 b. 39,858 c. 6,273 d. 39,359
40
Ví dụ: Đo chiều cao của 36 sinh viên thu được kết quả sau:
Chiều cao 1,45 – 1,55 – 1,65 – 1,75 –
(m) 1,55 1,65 1,75 1,85
Số sinh
7 15 10 4
viên
Tỷ lệ sinh viên trong mẫu cao trên 1,65 (m) là
Ví dụ: Đo chiều cao của 36 sinh viên thu được kết quả sau:
Chiều cao 1,45 – 1,55 – 1,65 – 1,75 –
(m) 1,55 1,65 1,75 1,85
Số sinh viên 7 15 10 4
Trung bình của mẫu trên là
a. Không tính được do không có chiều cao cụ thể của từng sinh viên
trong mỗi khoảng.
b. 1,6 (m) c. 1,63 (m) d. 1,65 (m) 41
Ước lượng khoảng trung bình tổng thể
• Trên tổng thể, ta xét một dấu hiệu có trung bình
P 1 2 1 .
2 1
: độ chính xác (sai số) của ước lượng.
2 42
Ước lượng khoảng trung bình tổng thể
Ta có 4 trường hợp sau:
Trường hợp 1: n 30 và 2 đã biết.
- Xác định : X
- Xác định t từ 1 (tra Bảng G) hoặc xác định t
1
từ t (tra Bảng F);
2
- Xác định sai số t ;
n
- Khoảng tin cậy đối xứng cho trung bình : X ; X
43
Ước lượng khoảng trung bình tổng thể
Trường hợp 2: n 30 và 2
chưa biết.
- Xác định: X, S
S
- Xác định sai số t ;
n
- Khoảng tin cậy đối xứng cho trung bình: X ; X
44
Ước lượng khoảng trung bình tổng thể
Trường hợp 3: n 30 , đã biết và dấu hiệu X
2
45
Ước lượng khoảng trung bình tổng thể
Trường hợp 4: n 30 , chưa biết và dấu hiệu
2
- Xác định: X, S
Bảng H);
S
- Xác định sai số t (n 1) ;
n
- Khoảng ước lượng: X ; X
46
TH1: n 30, 2 biết TH2: n 30, 2 chưa biết
x x, s 2
1 t
(G)
1 t
(G)
0,08
t 2,58. 0,0292,
n 50
x , x (0,9408;0,9992) (thùng).
Ví dụ 6
1
b) 1 0,99 0, 495 t 2,58.(Bảng F)
2
Khoảng tin cậy bên phải (ước lượng tối thiểu của ):
0,08
t 2,58 0,0292
n 50
Với
x t 0,97 0,0292 0,9408.
n
Vậy với độ tin cậy 99%, lượng sơn trung bình tối thiểu của 1
thùng là 0,9408.
50
Ước lượng khoảng trung bình tổng thể
VD 7. Đem cân một số trái cây vừa thu hoạch, ta
được kết quả sau:
X (gam) 200 - 210 - 220 - 230 - 240 –
210 220 230 240 250
Số trái 12 7 20 18 15
P p1 p p2 1 .
p2 p1
: độ chính xác (sai số) của ước lượng.
2 54
Ước lượng khoảng tỷ lệ tổng thể
Các bước thực hiện việc ước lượng:
m
- Xác định tỷ lệ trên mẫu: f fn
n
1
- Xác định t từ đẳng thức t (Tra bảng F).
2
f 1 f
- Xác định sai số: t
n
450
fn 0,9
5000
f n (1 f n ) 0,9(1 0,9)
t 1,96 0,009.
n 5000
57
Ví dụ 10
0,09 - 0,009 < p < ,09 + 0,009 hay 0,081 < p < 0,099.
f n (1 f n )
b) Từ công thức t , suy ra
n
n 5000
t 0,005 1, 24.
f n (1 f n ) 0,09(1 0,09)
n = 5000.
Ta có:
f n (1 f n ) 0,09(1 0,09)
t 2,9677 0,012.
n 5000
Vậy độ chính xác đạt được là 0,12%.
59
Ước lượng khoảng tỷ lệ tổng thể
VD 11. Để ước lượng số cá có trong một cái hồ, người
ta bắt lên 10.000 con, đánh dấu rồi thả lại xuống hồ.
Sau một thời gian, lại bắt lên 8.000 con cá thì thấy có
564 con cá có đánh dấu. Ở độ tin cậy 97%, hãy ước
lượng tỷ lệ cá có đánh dấu trong hồ và cho biết số cá
có trong hồ ?
60
Ước lượng tỷ lệ tổng thể
VD 12. Cân thử 100 quả cam, ta có bộ số liệu sau:
Khối lượng 32 33 34 35 36 37 38 39 40
(g)
Số quả 2 3 15 26 28 6 8 8 4
a) Hãy ước lượng khối lượng trung bình một quả
cam ở độ tin cậy 95%.
63
Sử dụng máy tính bỏ túi tính đặc trưng mẫu
b) Máy fx 500 – 570 ES
• Xóa bộ nhớ: SHIFT 9 3 = =
• Vào chế độ thống kê nhập dữ liệu:
– SHIFT MODE dịch chuyển mũi tên tìm chọn
mục Stat 2 (chế độ không tần số).
– MODE 3 (stat) 1 (1-var) (nhập các số):
12= 13= 11= 14= 11= AC
• Xuất kết quả:
– SHIFT 1 5 (var) 1 = (n : cỡ mẫu)
– SHIFT 1 5 (var) 2 = (x )
– SHIFT 1 5 (var) 3 = (x n sˆ).
– SHIFT 1 5 (var) 4 = (x n 1 s ).
64
Sử dụng máy tính bỏ túi tính đặc trưng mẫu
2. Số liệu có tần số
VD 2. Cho mẫu có cỡ mẫu là n 9 như sau:
X 12 11 15
n 3 2 4
65
Sử dụng máy tính bỏ túi tính đặc trưng mẫu
a) Máy fx 500 – 570 MS
• Xóa bộ nhớ: SHIFT MODE 3 = =
• Vào chế độ thống kê nhập dữ liệu:
– MODE 2 (chọn SD đối với fx500MS);
MODE MODE 1 (chọn SD đối với fx570MS).
– Nhập các số:
12 SHIFT , 3 M+
11 SHIFT , 2 M+
15 SHIFT , 4 M+