Professional Documents
Culture Documents
C4 - 4 Slide
C4 - 4 Slide
4.1 SỰ CẦN THIẾT PHẢI LẤY MẪU 4.2 MẪU NGẪU NHIÊN
4.2.1 Khái niệm mẫu ngẫu nhiên
Nhiều bài toán trong thực tế dẫn đến nghiên cứu một hay nhiều
Tập hợp các phần tử đồng nhất theo một dấu hiệu nghiên cứu định tính
dấu hiệu định tính hoặc định lượng đặc trưng cho các phần tử
hay định lượng nào đó được gọi là tổng thể.
của một tập hợp nào đó.
Mỗi phân tử của tổng thể được gọi là cá thể.
Để xử lý dấu hiệu cần nghiên cứu đôi khi người ta sử dụng Dấu hiệu nghiên cứu của tổng thể có thể được định tính hoặc định lượng.
phương pháp nghiên cứu toàn bộ. Bằng cách mô hình hóa ta có thể xem dấu hiệu nghiên cứu là một biến
ngẫu nhiên xác định trên tổng thể.
Tuy nhiên trong thực tế việc áp dụng phương pháp này gặp phải
Việc chọn n cá thể nào đó từ tổng thể được gọi là phép lấy mẫu. Ta gọi các
những khó khăn sau:
cá thể chọn được này là một mẫu, n là kích thước mẫu. Nếu cá thể chọn
Qui mô của tập hợp cần nghiên cứu quá lớn xong không trả lại tổng thể để chọn tiếp thì mẫu được gọi là không hoàn lại.
Trong nhiều trường hợp không thể nắm được toàn bộ Nếu chọn xong trả lại tổng thể để chọn tiếp thì mẫu được gọi có hoàn lại.
Ta nói rằng một mẫu là mẫu ngẫu nhiên nếu trong phép lấy mẫu đó mỗi cá
Có thể trong quá trình điều tra sẽ phá hủy đối tượng
thể của tổng thể được chọn một cách độc lập và có xác suất được chọn
nghiên cứu.
như nhau.
1 2
4.2.2 Mô hình hóa mẫu ngẫu nhiên Mẫu ngẫu nhiên kích thước n là một dãy gồm n biến ngẫu nhiên:
Giả sử các cá thể của tổng thể được nghiên cứu thông qua dấu X1, X2, … , Xn độc lập cùng phân bố với X, ký hiệu
hiệu X. Với mỗi mẫu ta chỉ cần quan tâm dấu hiệu nghiên cứu X
của mỗi cá thể của mẫu. W (X1, X2, … , Xn)
Chẳng hạn, khi muốn biết chiều cao trung bình của thanh niên trong đó Xi là dấu hiệu X của phần tử thứ i của mẫu (i =1, … , n)
trong một vùng nào đó thì với cá thể A được chọn làm mẫu ta
chỉ quan tâm về chiều cao của A, tức là dấu hiệu chiều cao XA, Thực hiện một phép thử đối với mẫu ngẫu nhiên W chính là thực
và không quan tâm đến các đặc trưng khác của cá thể này. hiện một phép thử đối với mỗi thành phần của mẫu.
Vì vậy, mỗi cá thể được chọn khi lấy mẫu có thể đồng nhất với Giả sử Xi nhận giá trị xi (i = 1, … , n), khi đó các giá trị x1, x2, … , xn
dấu hiệu nghiên cứu X của cá thể đó. tạo thành một giá trị của mẫu ngẫu nhiên, hay còn gọi là một thể hiện
của mẫu ngẫu nhiên, ký hiệu
Bằng cách đồng nhất mẫu ngẫu nhiên với các dấu hiệu nghiên
w (x1, x2, … , xn)
cứu của mẫu ta có định nghĩa về mẫu ngẫu nhiên như sau.
3 4
CHƯƠNG 4: LÝ THUYẾT MẪU CHƯƠNG 4: LÝ THUYẾT MẪU
4.2.3 Biểu diễn giá trị cụ thể của mẫu ngẫu nhiên theo bảng và theo
Ví dụ 4.1: Gọi X là số chấm của mặt xuất hiện khi tung con xúc xắc
biểu đồ
cân đối, X là biến ngẫu nhiên nhận các giá trị 1,…,6 đồng khả năng. Để thuận lợi khi tính toán ta biểu diễn giá trị cụ thể của mẫu dưới dạng bảng
phân bố và có hình ảnh trực quan ta biểu diễn số liệu dưới dạng biểu đồ.
Tung con xúc xắc 3 lần và gọi Xi là số nốt xuất hiện trong lần tung
4.2.3.1 Bảng phân bố tần số thực nghiệm
thứ i (i = 1, 2, 3) thì ta có 3 biến ngẫu nhiên độc lập có cùng quy luật
Từ một mẫu cụ thể của mẫu ngẫu nhiên kích thước n của X, ta sắp
phân bố xác suất với X.
xếp các giá trị của mẫu cụ thể theo thứ tự tăng dần.
Vây ta có mẫu ngẫu nhiên kích thước 3:W = (X1, X2, X3).
Giả sử giá trị xi xuất hiện với tần số ri, i=1, …, k
Thực hiện một phép thử đối với mẫu ngẫu nhiên này tức là tung con x 1 x k ; r1 rk n
xúc xắc 3 lần. Giả sử lần thứ nhất được 2 nốt, lần thứ hai được 5 nốt Bảng phân bố tần số thực nghiệm
lần ba được 3 nốt thì w = (2,5,3) là một mẫu cụ thể của mẫu ngẫu
X x1 x2 xk
nhiên W.
Tần số r1 r2 rk
5 6
X x1 x2 xk X 31 34 35 36 38 40 42 44
Tần suất f1 f2 fk Tần số 10 20 30 15 10 10 5 20 120
7 8
CHƯƠNG 4: LÝ THUYẾT MẪU CHƯƠNG 4: LÝ THUYẾT MẪU
Ví dụ 4.3: Một mẫu về chiều cao (cm) của 400 cây con được trình bày trong
4.2.3.4 Bảng phân bố ghép lớp
bảng phân bố ghép lớp sau
Trong những trường hợp mẫu điều tra có kích thước lớn, hoặc khi Khoảng Tần số ri Tần suất fi Độ rộng khoảng li yi ri / li
các giá trị cụ thể của dấu hiệu X lấy giá trị khác nhau song lại khá 4, 5 9, 5 18 0, 045 5 3, 6
gần nhau, người ta thường xác định một số các khoảng C1, C2,… ,Ck 9, 5 11, 5 58 0, 145 2 29
11, 5 13, 5 62 0, 155 2 31
sao cho mỗi giá trị của dấu hiệu điều tra thuộc vào một khoảng nào
13, 5 16, 5 72 0, 180 3 24
đó.
16, 5 19, 5 57 0, 1425 3 19
Các khoảng này lập thành một phân hoạch của miền giá trị của X. 19, 5 22, 5 42 0, 105 3 14
22, 5 26, 5 36 0, 090 4 9
Việc chọn số khoảng và độ rộng khoảng là tuỳ thuộc vào kinh
26, 5 36, 5 55 0, 1375 10 5, 5
nghiệm của người nghiên cứu, nhưng nói chung không nên chia ri
Giá trị yi là tần số xuất hiện trong một đơn vị khoảng có độ dài li
quá ít khoảng hoặc quá nhiều. li
Người ta quy ước đầu mút bên phải của mỗi khoảng thuộc vào khoảng đó mà không
thuộc khoảng tiếp theo khi tính tần số của mỗi khoảng.
9 10
X 31 34 35 36 38 40 42 44
X 31 34 35 36 38 40 42 44 Tần suất 2 / 24 4 / 24 6 / 24 3 / 24 2 / 24 2 / 24 1 / 24 4 / 24 1
Tần số 10 20 30 15 10 10 5 20 120
11 12
CHƯƠNG 4: LÝ THUYẾT MẪU CHƯƠNG 4: LÝ THUYẾT MẪU
4.2.3.6 Tổ chức đồ (histogram) Chú ý rằng diện tích giới hạn bởi tổ chức đồ bằng tần số xuất hiện. Chẳng
Trong mặt phẳng ta chọn hệ trục vuông hạn số cây nằm trong khoảng (12; 25] chính là diện tích của tổ chức đồ
góc. Trên trục hoành ta chọn các khoảng Khoảng ri li yi ri / li giới hạn bởi đường thẳng x 12 và x 25. Đó là:
có hoành độ bằng giá trị xi,xi+1 và dựng 4, 5 9, 5 18 5 3, 6 (13, 5 12) 31 (16, 5 13, 5) 24 (19, 5 16, 5) 19 (22, 5 19, 5) 14 (25 22, 5) 9 240
hình chữ chiều cao yi ta được tổ chức đồ. 9, 5 11, 5 58 2 29 Vậy có 240 cây có chiều cao từ 12m đến 25m.
11, 5 13, 5 62 2 31
Khi dấu hiệu điều tra của tổng thể có Tổng kết kết quả học tập của
13, 5 16, 5 72 3 24
thể biểu diễn dưới dạng các tần số tỷ sinh viên Học viện ta trong năm
16, 5 19, 5 57 3 19
2005 được số liệu sau:
19, 5 22, 5
lệ, người ta thường mô tả các số liệu
42 3 14
12%
22, 5 26, 5
mẫu bằng biểu đồ hình bánh xe. Đó 19%
36 4 9
Giỏi
26, 5 36, 5 5, 5 là hình tròn được chia thành những
55 10 Khá
góc có diện tích tỷ lệ với các tần số 31% Trung bình
Yếu
tương ứng của mẫu. 38%
13 14
4.3 THỐNG KÊ VÀ CÁC ĐẶC TRƯNG CỦA MẪU NGẪU NHIÊN 4.3.2 Trung bình mẫu
4.3.1 Định nghĩa thống kê Trung bình mẫu của mẫu ngẫu nhiên W=(X1, X2, …, Xn) của biến
Một thống kê của mẫu là một hàm của các biến ngẫu nhiên thành ngẫu nhiên gốc X được định nghĩa và ký hiệu
phần của mẫu. X1 X2 Xn 1 n
X Xi
Thống kê của mẫu ngẫu nhiên W=(X1, X2, …, Xn) có dạng n n i 1
T = T(X1 , X2 , …, Xn) Giá trị quan sát trung bình mẫu của mẫu ngẫu nhiên cụ thể
w=(x1, x2, …, xn) là
Như vậy thống kê T cũng là một biến ngẫu nhiên, tuân theo một x1 x 2 xn 1 n
x xi
quy luật phân bố xác suất nhất định và có các tham số đặc trưng n n i 1
như kỳ vọng ET phương sai DT … Kỳ vọng, phương sai của trung bình mẫu biến ngẫu nhiên gốc X
Với một giá trị cụ thể w=(x1, x2, …, xn) của mẫu thìT cũng nhận một X Xn 1
E X E 1
n
EX 1 EX n E X
giá trị cụ thể gọi là giá trị quan sát được của thống kê n
X Xn 1 DX
Tqs = T(x1 , x2 , …, xn)
D X D 1
n
2 DX1 DXn
n
n
15 16
CHƯƠNG 4: LÝ THUYẾT MẪU CHƯƠNG 4: LÝ THUYẾT MẪU
1 n
4.3.3 Phương sai mẫu, Độ lệch chuẩn mẫu 2
n
2. Phương sai mẫu có hiệu chỉnh: S 2 X X
n 1 i 1 i
Xi X
2 1 2
1. Phương sai mẫu: S
n 1 n n 1 n
n 2
i 1 2 2
S2 X X X X S
n n n n n
n 1 i 1 i n 1 n i 1 i n 1
1
1 1 1 1 1
2 2
2 2 2
S Xi X Xi2 2XXi X Xi 2 2X Xi nX Xi 2 X
n i 1 n i 1 n i 1 n i 1 n n i 1
n 2 n n 1
ES2 E S DX DX
1 n 2 1 n n 1 n 1 n
2 2
E S E (Xi ) ( X ) E Xi
2
X
2 Xi (X )
n i 1 n i 1
3. Trường hợp biến ngẫu nhiên gốc X có kỳ vọng xác định EX = thì
1 n n
2
E (Xi )2 n X 2(X ) (X i ) phương sai mẫu được chọn là S *2
n i 1
i 1
1 n
(X )2
2
1 n 2 1 n n X S *2
n i 1
E (X i )2 n X E(Xi )2 n E i
n i 1
i 1 n
n i 1 i
1 n 1 n 1
1 n 1 n
2
1 n DX n 1 E S *2 E (Xi )2 E(Xi )2 n D X D X .
E(Xi )2 n E (X i ) n D X n DX n n n
i 1 i 1
n i 1 n 2
i 1
n n2 n
2 ch 5
17 18
Độ lệch chuẩn mẫu 4.3.5 Cách tính giá trị cụ thể của trung bình mẫu và phương sai mẫu
1
1. Nếu mẫu chỉ nhận các giá trị x1, x2, … , xk với tần số tương ứng
n 2
S S2 X X .
n 1 i 1 i r1, r2, … , rk thì giá trị trung bình mẫu và phương sai mẫu cụ thể
4.3.4 Tần suất mẫu được tính theo công thức
1 k k
i i
x r x
i
2
i
2xx i x
r x 2
i i
2x ri x i nx rx 2
i i
nx
Lấy mẫu ngẫu nhiên W=(X1, X2, …, Xn) . Tần số xuất hiện dấu hiệu i 1 i 1 i 1 i 1 i 1
2
k
A của mẫu là 1 k i 1 rix i
1 k
2
r X1 X 2 X n . s
2
r x x n 1 rix i
n 1 i 1 i i
2
n
i 1
r
Tần suất mẫu f X.
n 2. Nếu giá trị của mẫu cụ thể được cho dưới dạng bảng phân bố
ghép lớp với các khoảng C1 , … , Cm thì giá trị xi trong thức trên
E( f ) E(X ) E(X ) p D(f ) D(X ) D X p(1 p) .
n n 2 ch 5 là trung điểm của khoảng Ci .
19 20
CHƯƠNG 4: LÝ THUYẾT MẪU CHƯƠNG 4: LÝ THUYẾT MẪU
3. Mẫu thu gọn: Nếu các giá trị của mẫu cụ thể xi không gọn (quá lớn Khoảng tần số ri xi ui
x i 20
ri ui ri ui2
5
hoặc quá bé hoặc phân tán) ta có thể thu gọn mẫu bằng cách đổi
4, 5 9, 5 18 7 2, 6 46, 8 121, 68
biến:
9, 5 11, 5 58 10, 5 1, 9 110, 2 209, 38
xi a
ui x i hui a x h u a ; s 2 h 2su2 11, 5 13, 5 62 12, 5 1, 5 93 139, 5
h
13, 5 16, 5 72 15 1 72 72
Trong đó
2
k
1 k r ui 16, 9 19, 5 57 18 0, 4 22, 8 9,12
1 k
1 k
2 i 1 i
u
n
ru i i su2 r u u
n 1 i 1 i i
r u2
n 1 i 1 i i n
19, 5 22, 5 42 21 0, 2 8, 4 1, 68
i 1
22, 5 26, 5 36 24, 5 0, 9 32, 4 29,16
Chứng minh công thức:
26, 5 36, 5 55 31, 5 2, 3 126, 5 290, 95
1 k 1 k h k
1 k
x ri x i ri (h ui a ) ri ui a n ri h u a 400 177, 5 873, 47
n i 1 n i 1 n i 1 i 1
4. Trường hợp giá trị của mẫu cụ thể được cho dưới dạng bảng phân Do đó ta tính trung bình mẫu và phương sai mẫu tương ứng như sau:
bố ghép lớp mở thì giá trị đầu và cuối được thay bằng giá trị ngoại Giá trị xi 40,5 43,5 47 50,5 55 61
suy của khoảng lân cận. Tần số ri 7 13 25 35 15 5
Chẳng hạn bảng phân bố ghép lớp sau:
xi ri ui ri ui ri ui 2 x i 50
ui
Khoảng 42 4245 4549 4952 5258 58 40,5 7 1,9 13,3 25,27 5
Tần số tương 5 43,5 13 1,3 16,9 21,97
7 13 25 35 15
ứng 47 25 0,6 15 9 15, 7
45 42 42 45 45 49 u 0,157
1, 5 x1 42 1, 5 40, 5; x 2 43, 5; x 3 47;
2 2 2 50,5 35 0,1 3,5 0,35 100
49 52 52 58 58 52 55 15 1 15 15
x4 50, 5; x 5 55; 3 x 6 58 3 61 x 5u 50 49,215
2 2 2 61 5 2,2 11 24,2
Do đó ta tính trung bình mẫu và phương sai mẫu tương ứng như sau: 100 15,7 95,79
4.4 PHÂN BỐ XÁC SUẤT CỦA MỘT SỐ THỐNG KÊ MẪU 4.4.1.1 Phân bố của thống kê trung bình mẫu
Dấu hiệu nghiên cứu trong tổng thể có thể xem như một biến ngẫu nhiên X. 2
Ta chỉ xét hai trường hợp thường gặp sau: Dấu hiệu định lượng có phân bố
Trung bình mẫu X có phân bố chuẩn với E X , D X n
chuẩn và dấu hiệu định tính có phân bố Bernoulli.
(X ) n (X )
Do đó U ~ N(0;1)
4.4.1 Trường hợp biến ngẫu nhiên gốc có phân bố chuẩn 2
Giả sử biến ngẫu nhiên gốc X có phân bố chuẩn N(; 2). Các n
tham số này có thể đã biết hoặc chưa biết.
Ví dụ 4.4: Chiều cao X của các nam sinh viên đại học là biến ngẫu nhiên có
Từ tổng thể rút ra một mẫu ngẫu nhiênW=(X1, X2, …, Xn). phân bố chuẩn với trung bình 163cm và độ lệch chuẩn 3cm. Lấy 80 mẫu của
Các biến ngẫu nhiên thành phần X1, X2, …, Xn độc lập và có mẫu ngẫu nhiên 25 sinh viên:
cùng phân bố chuẩn như biến ngẫu nhiên gốc X. a) Tìm kỳ vọng và phương sai của trung bình mẫu.
Từ tính chất: mọi tổ hợp tuyến tính của các biến ngẫu nhiên có b) Có bao nhiêu mẫu trong số 80 mẫu lấy giá trị trung bình trong khoảng từ
phân bố chuẩn là biến ngẫu nhiên có phân bố chuẩn. Vì vậy ta có 161,8cm đến 163,3cm.
c) Có bao nhiêu mẫu trong số 80 mẫu lấy giá trị trung bình nhỏ hơn 161,4cm.
các kết quả sau.
25 26
2
(n 1)S 2
i ~ 2 (n 1)
Vậy số mẫu thỏa mãn điều kiện cần tìm là 80.0,6627 hoặc xấp xỉ 53 mẫu
2 i 1
X 163
c) P X 161, 4 P
0, 6
2, 67 (2, 67) 1 (2, 67) 0, 0038
(X ) n
(X ) n U
Đây là biến cố có xác suất bé, vì vậy không có mẫu nào trong số 80 T ~ T(n 1)
S 1 (n 1)S 2 2
mẫu có số đo trung bình nhỏ hơn 161,4 cm.
n 1 2 n 1
Thật vậy 80.0,0038 0,304 <<1.
Ch 2
27 28
CHƯƠNG 4: LÝ THUYẾT MẪU CHƯƠNG 4: LÝ THUYẾT MẪU
4.4.2 Trường hợp biến ngẫu nhiên gốc có phân bố Bernoulli Như vậy có thể xấp xỉ thống kê U (f p) n
Giả sử biến ngẫu nhiên gốc X của tổng thể (dấu hiệu định tính) có pq
phân bố Bernoulli tham số p. với phân bố chuẩn tắc N(0;1) khi n đủ lớn.
Từ tổng thể rút ra một mẫu ngẫu nhiên W=(X1, X2, …, Xn) Người ta thấy rằng xấp xỉ là tốt khi np > 5 và nq > 5 hoặc npq > 20.
X1 X n
Trung bình mẫu của X là tần suất mẫu f X Vậy có thể coi
n
pq (f p) n np 5
Có kỳ vọng và phương sai E f p; D f . U N(0;1) khi hoặc npq 5.
n pq nq 5
Áp dụng Định lý Moivre-Laplace ta có
Hoặc tính theo tần số r X1 Xn B(n; p)
(f p) n
x ; lim P x (x ) ( f p) n r np np 5
n pq U N(0;1) khi hoặc npq 5.
pq npq nq 5
29 30
Ví dụ 4.6: Gieo 120 lần đồng xu cân đối đồng chất. a) 40% và 60% của 120 bằng 48 và 72. Áp dụng công thức ta có
a) Tính xác suất có khoảng 40% đến 60% lần số mặt sấp xuất hiện. 72 0, 5 60 48 0, 5 60
5
b) Tính xác suất tỷ lệ mặt sấp xuất hiện lớn hơn hoặc bằng .
P 48 r 72
5, 48
5, 48
8
c) Một nhóm 500 người, mỗi người gieo 120 lần đồng xu cân đối đồng (2, 28) (2, 28) 2(2, 28) 1 0, 9774
chất. Có bao nhiêu người có kết quả mặt sấp xuất hiện trong 5 5
b) .120 75 , vậy xác suất tỷ lệ mặt sấp xuất hiện lớn hơn hoặc bằng là
khoảng 40% đến 60%. 8 8
Giải:
74, 5 60
Có thể xem mỗi lần gieo đồng xu là thực hiện phép thử Bernoulli với sự P r 75 0, 5 1 1 2, 65 1 0, 9960 0, 0040
thành công của phép thử là sự xuất hiện mặt sấp, từ giả thiết ta có xác suất 5, 48
thành công của phép thử là 0, 5 . c) Theo ý a) xác suất gieo 120 lần đồng xu (mẫu ngẫu nhiên kích thước 120)
Như vậy biến ngẫu nhiên gốc X có phân bố Bernoulli tham số p q 0, 5 . với 40% đến 60% lần mặt sấp xuất hiện là 0,9774. Vậy 500 người thực hiện
Gieo 120 lần là lấy mẫu ngẫu nhiên với kích thước 120 có tần suất mẫu 120 lần gieo đồng xu (500 quan sát cụ thể của mẫu ngẫu nhiên kích thước
X1 X120 120) thì số người có kết quả gieo với số mặt sấp xuất hiện trong khoảng
f ; np nq 120.0, 5 60; npq 5, 48
120 40% đến 60% là.
thỏa mãn điều kiện kích thước đủ lớn. 500.0, 9774 488, 7 489.
31 32