You are on page 1of 86

Chương 7

CHỌN MẪU VÀ
PHÂN PHỐI XÁC SUẤT MẪU
■ Chọn một mẫu

■ Ứớc lượng điểm

■ Giới thiệu phân phối mẫu

■ Phân phối mẫu của x

■ Phân phối mẫu của p

■ Các tính chất của ước lượng điểm

■ Các phương pháp lấy mẫu khác


7.1 Vấn đề chọn mẫu và chọn mẫu
Ví dụ 7.1. Công ty X có 2500 nhà quản lý (tổng thể).
GĐ nhân sự quản lý hồ sơ của 2500 nhà quản lý này
với đầy đủ cơ sở dữ liệu từng người và tính được:
Tiền lương trung bình/năm của 2500 nhà quản lý:
µ= 51.800 USD
Độ lệch chuẩn tổng thể: σ = 4000 USD
Trong 2500 nhà quản lý có 1500 người đã hoàn
thành chương trình đào tạo quản lý:
Tỷ lệ: P = 1500/2500 = 0,6 hay 60%.

Giả sử các thông tin cần thiết về 2500 nhà quản


lý không có sẳn trong cơ sở dữ liệu.
Giám đốc nhân sự có thể ước lượng các tham
số tổng thể bằng cách sử dụng một mẫu gồm 30
nhà quản lý. Rõ ràng thời gian và chi phí cho
việc xây dựng hồ sơ sẽ ít hơn so với toàn bộ
tổng thể.

Nếu mẫu 30 nhà quản lý cung cấp đầy đủ


thông tin về tổng thể 2500 nhà quản lý thì làm
việc với một mẫu sẽ thích hơn là làm việc với
toàn bộ tổng thể.
Một mẫu là một tập hợp con của tổng thể.

Thuật ngữ tổng thể, trong thống kê học: nó là tập


hợp tất cả các phần tử (đơn vị) được quan tâm
trong một nghiên cứu cụ thể.

Tổng thể lấy mẫu là tổng thể từ đó mẫu được rút ra

Một dàn chọn mẫu là một danh sách các phần tử


của tổng thể mà mẫu sẽ được chọn từ đó.
Lý do chúng ta chọn một mẫu là để thu thập
dữ liệu nhằm trả lời câu hỏi nghiên cứu về một
tổng thể.

Các kết quả mẫu chỉ cung cấp các ước lượng
về các tham số tổng thể. Lý do đơn giản mẫu
chỉ là một phần của tổng thể.

Với các phương pháp lấy mẫu thích hợp, các kết
quả mẫu có thể cung cấp các ước lượng “tốt”
các tham số tổng thể.
Chọn mẫu
Chọn mẫu phụ thuộc vào tổng thể là hữu
hạn hay vô hạn
 Lấy mẫu từ một tổng thể hữu hạn
Tổng thể hữu hạn thường được định nghĩa bằng
các danh sách như:
– Bảng phân công các thành viên của tổ chức
– Các số tài khoản thẻ tín dụng
– Bảng kê số sản phẩm
Chọn mẫu từ một tổng thể hữu hạn

Một mẫu ngẫu nhiên đơn giản cỡ n phần tử


từ một tổng thể hữu hạn quy mô N phần tử là
một mẫu được chọn sao cho mỗi mẫu với cỡ mẫu
n được chọn đều có cùng xác suất. Mỗi lần chọn
một phần tử vào mẫu, mỗi phần tử còn lại trong
tổng thể có cùng xác suất được chọn.
Ví dụ, từ 2500 nhà quản lý, ta gán mỗi nhà
quản lý một con số theo thứ tự tên của họ xuất
hiện trong hồ sơ nhân sự.
Tiếp theo, ta tham khảo bảng số ngẫu nhiên (bảng 7.1)
Bảng 7.1 Các số ngẫu nhiên
63271 59986 71744 51102 15141 80714 58683 93108 13554
79945 88547 09896 95436 79115 08303 01041 20030 63754
08459 28364 55957 57243 83865 09911 19761 66535 40102
26646 60147 15702
v.v
Số lớn nhất trong danh sách tổng thể các nhà quản lý là
2500, có bốn chữ số, ta chọn ngẫu nhiên trong bảng số
ngẫu nhiên trên theo bộ hoặc theo nhóm bốn chữ số.
Ta có thể bắt đầu chọn các số ngẫu nhiên bất cứ vị trí
nào trong bảng và di chuyển theo hướng chúng ta chọn.
Ví dụ, ta sử dụng hàng đầu tiên và di chuyển từ trái sang
phải.
Bảy con số có bốn chữ số ngẫu nhiên đầu tiên là:
6327 1599 8671 7445 1102 1514 1807
Ta sử dụng những con số ngẫu nhiên có bốn chữ số
này gán cho mỗi nhà quản lý trong tổng thể để có cơ hội
được chọn như nhau trong mẫu ngẫu nhiên.
Con số đầu tiên, 6327, lớn hơn 2500 → Nó
không tương ứng với nhà quản lý nào được đánh số
trong tổng thể và do đó bị loại bỏ. Số thứ hai 1599
nằm giữa 1 và 2500. Như vậy nhà quản lý đầu tiên
chọn trong mẫu ngẫu nhiên là số 1599 trong danh
sách. Tiếp tục quá trình này, các nhà quản lý số
1102, 1514 và 1807 được đưa vào mẫu ngẫu nhiên.
Quá trình tiếp tục cho đến khi chọn được 30 người.
Ngày nay nhờ phần mềm excel ta có thể dễ dàng
xác định một mẫu ngẫu nhiên đơn giản nếu biết cở
mẫu n.

Ví dụ, muốn chọn ngẫu nhiên 30 nhà quản lý


trong số 2500 nhà quản lý để nghiên cứu, trước hết
ta xếp thứ tự 2500 nhà quản lý theo thứ tự. Sau đó,
tại ô A1 ta gõ công thức =randbetween(1,2500).
Kết quả đầu tiên sẽ hiện trên ô A1, sau đó dùng
lệnh copy kéo dài đến số thứ tự 30.
Nếu chúng ta không muốn chọn một nhà quản
lý nhiều hơn một lần, bất kỳ con số ngẫu nhiên nào
được sử dụng trước đó sẽ bị bỏ qua vì nhà quản lý
tương ứng đã được chọn trong mẫu. Chọn mẫu theo
cách này gọi là chọn mẫu không hoàn lại
(sampling without replacement).

Nếu chọn mẫu như vậy mà con số ngẫu nhiên đã


sử dụng trước đó có thể được chấp nhận và một số
nhà quản lý có thể được chọn hai lần hoặc nhiều lần
vào mẫu, ta sẽ có chọn mẫu có hoàn lại (sampling
with replacement).
Lấy mẫu hoàn lại là cách phù hợp xác định
một mẫu ngẫu nhiên đơn giản.

Tuy nhiên lấy mẫu không hoàn lại là cách


lấy mẫu thường xuyên nhất.
Tổng thể vô hạn
Khi nhận thấy không thể có được một danh sách
gồm tất cả các phần tử của tổng thể, nghĩa là chúng ta
không thể xây dựng một dàn chọn mẫu cho tổng
thể.

Khi đó, ta không thể sử dụng thủ tục chọn số


ngẫu nhiên.
Hầu hết tình huống này xảy ra trong các trường
hợp tổng thể vô hạn.
Tổng thể vô hạn
 Tổng thể thường được tạo ra bằng một quá trình
xảy ra hiện thời ở đó không có giới hạn trên đối
với số lượng phần tử có thể được tạo ra.
 Vài ví dụ về quá trình xảy ra hiện thời, với các
tổng thể vô hạn, là :
• Các bộ phận đang được sản xuất trên một
dây chuyền sản xuất
• Các giao dịch đang diễn ra tại một ngân
hàng
• Các cuộc gọi điện thoại đang đến ở một tổ
hỗ trợ kỹ thuật
• Các khách hàng đang đi vào một cửa hàng
 Trong trường hợp một tổng thể vô hạn, chúng ta
phải chọn một mẫu ngẫu nhiên để thực hiện các
suy luận thống kê về tổng thể từ mẫu được lấy.

■ Một mẫu ngẫu nhiên đơn giản được chọn từ tổng


thể vô hạn phải thỏa mãn các điều kiện:
1. Mỗi phần tử được chọn đều thuộc tổng thể quan
tâm
2. Mỗi phần tử được chọn một cách độc lập.
Ví dụ đơn giản, chọn mẫu ngẫu nhiên đơn giản các
khách hàng tại một nhà hàng thức ăn nhanh:
Yêu cầu đầu tiên thỏa mãn là bất kỳ khách hàng
nào đến nhà hàng thức ăn nhanh trên.
Yêu cầu thứ hai cần được thỏa mãn là chọn khách
hàng một cách độc lập (mục đích là để ngăn chặn sai
số lựa chọn)

Sai số lựa chọn sẽ xảy ra nếu năm khách hàng liên


tiếp được lựa chọn đều là những người đi cùng nhau
(vì các khách hàng này thể hiện những thông tin tương
tự nhau)
Ghi chú:
1. Tổng thể vô hạn thường kết hợp với một quá
trình hoạt động liên tục hay liên tục theo thời
gian. Ví dụ, Các bộ phận được sản xuất trên
một dây chuyền sản xuất, giao dịch xảy ra tại
một ngân hàng, ….
2. Số mẫu cở n lấy được từ tổng thể hữu hạn
quy mô N
Là tổ hợp chập n của N và cho bởi:
N N!
K C 
n ! N  n !
n
7.2 Ước lượng điểm
Ước lượng điểm là một dạng của suy diễn thống kê.

Trong ước lượng điểm chúng ta sử dụng dữ liệu từ mẫu


để tính toán giá trị của một thống kê mẫu, rồi dùng
nó như một ước lượng của tham số tổng thể.

Chúng ta xem x như ước lượng điểm của trung


bình tổng thể .

s là ước lượng điểm của độ lệch chuẩn tổng thể .


p là ước lượng điểm của tỷ lệ tổng thể p.

Giá trị bằng số thu được cho x , s , p được gọi là ước


lượng điểm.
Ước lượng điểm

Bảng 7.2 dưới đây thể hiện mức lương hàng năm và
tình trạng hoàn thành chương trình đào tạo quản lý
của mẫu gồm 30 nhà quản lý
Lương /năm, usd Hoàn tất CTĐTQL Lương /năm, usd Hoàn tất CTĐTQL

X1 =49.094,30 Yes X16 =51.766,00 Yes


X2 =53.263,90 Yes X17 =52.541,30 No
X3 =49.643,50 Yes X18 =44.980,00 Yes
X4 =49.894,90 Yes X19 =51.932,60 yes
X5 =47.621,60 No X20 =52.973,00 Yes
X6 =55.924,00 Yes X 21= 45.120,90 Yes
X7 = 49.092,30 Yes X22 = 51.753,00 Yes
X8 =51.404,40 Yes X23 =54.391,80 No
X9 =50.957,70 Yes X24 =50.164,20 No
X10 =55.109,70 Yes X25 =52.973,60 No
X11 =45.922,60 Yes X26 =50.241,30 No
X12 =57.268,40 No X27 =52.793,90 No
X13 =55.688,80 Yes X28 =50.979,40 Yes
X14 =51.564,70 No X29 =55.860,90 Yes
X 15 =56.188,20 No X30 =57.309,10 No
xi (xi - x )2
49.094,3 (49.094,3 – 51.814)2
… …
…. …
57.309,0 (57.309,0 – 51.814)2
∑ = 1.554.420 ∑ = 325.009.260

x = 1.554.420 / 30 = 51.814
Mức lương trung bình mẫu

x
 x
i1554420
 51.814 USD
n 30
( x là ước lượng điểm của μ):
Độ lệch chuẩn của mẫu s là ước lượng điểm của σ

s
 i
( x  x ) 2


325009260
 3348 USD
n 1 29
Tỷ lệ các nhà quản lý đã hoàn thành chương trình
đào tạo quản lý của mẫu là ước lượng điểm của p
x 19
p   0, 63
n 30
Nhắc lại: Khi tất cả dữ liệu của 2500 nhà quản lý có đầy
đủ trong cơ sở dữ liệu của công ty X, giá trị các tham số
tổng thể quan tâm được tính toán.

 Trung bình tổng thể về mức lương



 xi
 51800
2500
 Độ lệch chuẩn tổng thể về mức lương


 i
( x   ) 2

 4000
2500
Tỷ lệ tổng thể các nhà quản lý đã hoàn thành CT đào tạo qlý
1500
p  0.6
2500
Bảng tóm tắc các Ước Lượng Điểm có được từ
một mẫu ngẫu nhiên đơn giản

Tham số Giá trị Tham số Ước lượng


Tổng thể Tham số ước lượng điểm điểm
m = Mức lương trung 51.800 x = Mức lương trung 51.814
bình tổng thể bình mẫu

s = Độ lệch chuẩn 4.000 s = Độ lệch chuẩn 3.348


tổng thể cho mức mẫu cho mức
lương lương

p = Tỷ lệ tổng thể .60 p = Tỷ lệ mẫu .63


đã hoàn thành đã hoàn thành
chương trình đào chương trình đào
tạo quản lý tạo quản lý
Lời khuyên thực hành

Tổng thể đích là tổng thể mà chúng ta muốn


thực hiện các suy diễn về nó.

Tổng thể lấy mẫu là tổng thể mà từ đó mẫu được lấy.

Bất kỳ khi nào một mẫu được sử dụng để suy diễn về


một tổng thể, chúng ta nên chắc chắn tổng thể đích
và tổng thể lấy mẫu là gần phù hợp.
Phân phối mẫu
Trong chương 5, ta đã định nghĩa biến ngẫu
nhiên như là một biểu hiện kết quả bằng số của
một phép thử.
Nếu ta xem quá trình chọn mẫu ngẫu nhiên
đơn giản như một phép thử,trung bình mẫu x là
biểu diễn bằng số kết quả của một phép thử.

Như vậy, trung bình mẫu x là một biến ngẫu


nhiên. Kết quả là, giống như biến ngẫu nhiên khác,
x có một trung bình hay giá trị kỳ vọng, độ lệch
chuẩn và phân phối xác xuất.
Phần trước chúng ta đã nói, với K khả năng lập
mẫu cở n phần tử và các giá trị x có thể khác
nhau đó là kết quả của các mẫu ngẫu nhiên đơn
giản khác nhau, phân phối xác suất của x được
gọi là phân phối mẫu của x

Tổng quát, các mẫu đều có đặc trưng thống


kê mẫu như trung bình , tỷ lxệ p
và phương sai s2.

Phân phối xác suất của các đặc trưng thống kê


mẫu được gọi là phân phối mẫu.
Phân Phối Mẫu của 𝑥
Quá trình suy diễn thống kê

Tổng thể Một mẫu ngẫu nhiên


có trung bình đơn giản cỡ n phần tử
m=? được chọn từ tổng thể.

x
Giá trị của được Dữ liệu mẫu cung
sử dụng để suy diễn cấp một giá trị cho
về giá trị của m. trung bình mẫu x .
7.4 Phân phối mẫu của 𝑥
Phân phối mẫu của là𝑥 phân phối xác suất của tất
cả các giá trị có thể có của trung bình mẫu 𝑥
Bởi vì có nhiều giá trị khác nhau của biến ngẫu
nhiên 𝑥 . Chúng ta quan tâm đến giá trị trung bình của
tất cả giá trị có thể có của 𝑥
Giá trị trung bình của biến ngẫu nhiên là𝑥 giá trị kỳ
vọng của 𝑥
Đặt E( ) 𝑥- giá trị kỳ vọng của
μ – giá trị trung bình tổng thể.
Với cách chọn mẫu ngẫu nhiên đơn giản:
Giá trị kỳ vọng của 𝑥 : E( 𝑥 ) = 𝜇 𝑥 = μ
Khi giá trị kỳ vọng của tham số ước lượng
điểm bằng tham số tổng thể chúng ta nói
tham số ước lượng điểm là không chệch
(Trung bình của tất cả trung bình mẫu bằng
trung bình tổng thể).
Độ lệch chuẩn của 𝑥
Ký hiệu:  - độ lệch chuẩn của 𝑥
x
σ - độ lệch chuẩn của tổng thể
n - cỡ mẫu
N - Quy mô tổng thể
Độ lệch chuẩn của 𝑥 phụ thuộc vào tổng
thể là hữu hạn hay vô hạn
Tổng thể hữu hạn Tổng thể vô hạn

N n    x 
x    n
N 1  n 
N n
Thừa số được gọi là hệ số điều chỉnh
N 1
tổng thể hữu hạn.

Thực tế, tổng thể liên quan mặc dù hữu hạn


là “lớn”, trong khi cỡ mẫu là “tương đối” nhỏ.
N n
Lúc đó gần bằng 1.
N 1

Vì vậy,

x  trở thành một ước lượng tốt đối với độ lệch
n
chuẩn của mặ𝑥c dù tổng thể là hữu hạn.

Công thức:  x  n (Còn được xem như sai số
chuẩn của trung bình) khuyến nghị sử
dụng khi:
1. Tổng thể là vô hạn hoặc
2. Tổng thể là hữu hạn và cỡ mẫu nhỏ hơn
hoặc bằng 5% (n/N ≤ 0,05)
Dạng phân phối mẫu của 𝑥
Nếu tổng thể tuân theo phân phối chuẩn
(Normal Population) với trung bình bằng µ và
độ lệch tiêu chuẩn σ thì phân phối mẫu của 𝑥
cũng sẽ tuân theo phân phối chuẩn với trung
bình cũng bằng:  x  và

2 
Độ lệch chuẩn: x    x
n
Nghĩa là, khi tổng thể có phân phối chuẩn, thì phân
phối mẫu của 𝑥
được phân phối chuẩn với mọi cỡ
mẫu.
Nếu tổng thể không có phân phối chuẩn thì định
lý giới hạn trung tâm (Central limit theorem) cho
phép xác định hình dạng phân phối của 𝑥
Trước hết: Chuẩn hóa trung bình mẫu 𝑥
Đặt z  x   x  x  
x / n

Nếu 𝑥 có trung bình là  xvà phương sai  thì z


2
x
có trung bình là 0 và phương sai là 1.
Nếu x  N (  x ,  x2 )  z  N (0,1)
x  x
Khi n lớn (n ≥ 30) thì z  sẽ gần đúng
x
phân phối chuẩn hóa hay 𝑥 có phân phối
chuẩn với trung bình là: x  
và độ lệch chuẩn là:    2  
x x
n
 2 
Khi n lớn => z ~ N(0,1) hay x  N  ,
n

 
Ba kết luận quan trọng được rút ra từ định lý
giới hạn trung tâm:
1. Nếu biến ngẫu nhiên x có phân phối chuẩn
thì trung bình mẫu 𝑥 cũng có phân phối chuẩn
(cho dù mẫu chọn có kích thước là bao nhiêu)
2. Với kích thước mẫu đủ lớn (n ≥ 30), thì phân
phối trung bình mẫu sẽ xấp𝑥 xỉ phân phối chuẩn
bất chấp hình dáng phân phối của tổng thể.
3. Nếu phân phối tổng thể khá đối xứng, thì
phân phối của trung bình mẫu 𝑥 sẽ xấp xỉ phân
phối chuẩn khi n ≥ 15
Theo Anderson, Sweeney &Williams, Trong
trường hợp tổng thể bị lệch ở mức độ cao hay
tồn tại những giá trị bất thường, cỡ mẫu cần
là 50.

Nếu tổng thể rời rạc, cỡ mẫu cần thiết cho


một phép xấp xỉ phân phối chuẩn thường phụ
thuộc vào tỷ lệ tổng thể.
Từ ví dụ 7.1, nếu giám đốc nhân sự tin vào giá trị
trung bình mẫu là một ước lượng chấp nhận được
nếu trung bình mẫu không vượt quá 500 usd so với
trung bình tổng thể. Nghĩa là:
𝑥
(51800-500) ≤ ≤(51800+500); Với E( ) = 51.800 usd, và

x 
 4000
  730,3 P(51.300 ≤ 𝑥 ≤ 52.300)
n 30
 4000
x    730,3
Sampling n 30
distribution of 𝑥
𝑥
E( 𝑥 ) = 51.800
Probability of sample mean being within 500 usd of the
population mean for a sample random sample of 30
managers
52300  51800 P(51.300 ≤ x ≤ 52.300)
z  0,68 ≈ P(- 0,68 ≤ Z ≤ 0.68)
730,3
51300  51800
z  0,68
730,3

P( x < 51.300) 0.5034  x  730,30

0.2483
x
51.300 52.300
51.800

Z
-0.68 0 +0.68
52300  51800
Từ giá trị x  52.300
, ta có z  0,68
730,3

Tra bảng phân phối XS chuẩn tắc, xác suất tích


lũy vùng bên trái của z=0,68 là: P(z ≤ 0.68)= 0,7517
51300  51800
Từ giá trị , ta có
x  51.300 z  0,68
730,3

Vùng phía dưới đường cong bên trái của


z = - 0,68 là 0,2483.
Do đó: P(51300 ≤ ≤x52300)=
= P(z ≤ 0,68) – P(z < - 0,68)
= 0,7517 – 0,2483 = 0,5034
Bảng tra từ Statistics for Business and Economics (Anderson,
Sweeney & Williams)
Xác suất tích lũy đối với
Phân Phối Chuẩn chuẩn hóa
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
. . . . . . . . . . .
.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517
0.7517 .7549
.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
. . . . . . . . . . .
0.2483

Tra bảng: P(z ≤ 0,68) =0,7517 P(z < - 0,68) = 0,2483


Mẫu ngẫu nhiên đơn giản với 30 nhà quản lý có
xác suất 0,5034 cung cấp giá trị trung bình mẫu
không vượt quá 500 usd so với trung bình tổng
thể. Vì vậy, một xác suất: 1 – 0,5034 = 0,4966 là
sự khác biệt giữa x
và μ =51800 usd sẽ nhiều và
ít hơn 500 usd.
Ví dụ 7.3: Một nhà sản xuất vỏ xe ô tô cho biết tuổi
thọ của vỏ xe tuân theo phân phối chuẩn với trung
bình là 36 ngàn dặm và độ lệch chuẩn là 4 ngàn
dặm.
Một mẫu ngẫu nhiên gồm 16 vỏ xe và tính được
tuổi thọ trung bình (mẫu) là 34,5 ngàn dặm. Nếu
nhà sản xuất nói đúng thì xác suất để số trung bình
mẫu nhỏ hơn hoặc bằng giá trị mẫu đã đo được là
bao nhiêu?
 x   x 34, 5  36, 0 
P ( x  34, 5)  P   
Đáp án:   4, 0 / 16 
 x 
 P ( z  1, 5)  0, 0668
Liên hệ giữa cỡ mẫu và phân phối mẫu của x
Khi cỡ mẫu tăng lên, sai số chuẩn giá trị trung
bình (sai số trung bình chọn mẫu) sẽ giảm.
Kết quả là cỡ mẫu lớn hơn sẽ cung cấp một xác
suất cao hơn để giá trị trung bình mẫu không
vượt quá một khoảng xác định so với trung bình
tổng thể.
Mối Quan Hệ Giữa Cỡ Mẫu và Phân Phối Mẫu của x
Từ ví dụ 7.1:
• Giả sử chúng ta chọn một mẫu ngẫu nhiên đơn giản
gồm 100 nhà quản lý thay vì 30 như ban đầu.

𝑥
• E( ) = m bất chấp cỡ mẫu. Trong ví dụ của chúng ta,
𝑥
E( ) vẫn là 51800.
• Bất cứ khi nào cỡ mẫu tăng lên, sai số chuẩn của
trung bình 𝑥 giảm xuống. Với mẫu tăng lên thành
n = 100, sai số chuẩn của trung bình giảm xuống
từ 730,3 thành 400

 4000
x    400
n 100
Mối Quan Hệ Giữa Cỡ Mẫu và Phân Phối Mẫu
của x

Với n = 100,
 x  400

Với n = 30,
 x  730, 3

E ( x)  51800
E (x )  51800
51.300 − 51.800 52300  51800
𝑍= =−1,25 z  1, 25
400 400

Phân phối  x  400


Mẫu
của 𝑥 P(51.300 < 𝑥 < 52.300 )
= 0,7888
Hay:
P(-1,25 < z <1,25)
=0,7888
Diện
tích =
0.7888
x
51.300 51.800 52.300
Z

-1,25 +1,25
 Ví dụ 7.1:

• Nhắc lại là khi n = 30, P(51300 < 𝑥< 52300) = 0.5034.


• Chúng ta theo các bước giống hệt khi n = 30
𝑥
để giải tìm P(51300 < < 52300) khi n = 100.

• Giờ đây, với n = 100, P(51300 < x < 52300) = 0.7888.


• Vì phân phối mẫu với n = 100 có sai số chuẩn nhỏ
𝑥
hơn nên các giá trị của có ít biến thiên hơn và
có khuynh hướng gần với trung bình tổng thể hơn
𝑥
các giá trị của với n = 30.
7.6 Phân Phối Mẫu của p
 Thực hiện các suy diễn về Tỷ Lệ Tổng Thể

Tổng thể Một mẫu ngẫu nhiên gồm


với tỷ lệ n phần tử được chọn
p=? từ tổng thể.

Giá trị của p được Dữ liệu mẫu cung cấp


dùng để suy diễn về một giá trị cho tỷ lệ
giá trị của p. mẫ u p
Phân phối mẫu của p

Tỷ lệ p là ước lượng điểm của tỷ lệ tổng thể p.


Công thức để tính tỷ lệ mẫu là:
x
p
n
Trong đó:
x = số phần tử trong mẫu có tính chất chúng ta
quan tâm
n = cỡ mẫu
p
Phân phối mẫu của p
Phân phối mẫu của là phân phối xác suất
của tấtp cả các giá trị có thể có của tỷ lệ mẫu .
Giá trị kỳ vọng của p
Giá trị kỳ vọng của plà trung bình của tất cả
các giá trị có thể xảy ra của p, và bằng tỷ lệ tổng
thể p
Giá trị kỳ vọng của : p
𝐸(𝑝 )=𝜇 𝑃 =𝑝
p – Tỷ lệ tổng thể
Vì E ( p) nênp
là𝑝ước lượng không chệch của
p.
Độ lệch chuẩn của tỷ lệ mẫu:
Độ lệch chuẩn của tỷ lệ mẫu, được ký hiệu
là  được
p xác định bởi công thức:
Tổng thể hữu hạn Tổng thể vô hạn
p (1  p ) N n p(1  p )
p   p 
n N 1 n

p - Tỷ lệ tổng thể; n – cở mẫu


( N  n)-/ Nhệ
1
số điều chỉnh tổng thể hữu hạn
Nếu tổng thể hữu hạn với: n/N ≤ 0,05; thì
dùng p (1  p )
p 
n
Nếu tổng thể hữu hạn với n/N > 0,05; thì hệ số
điều chỉnh tổng thể hữu hạn được sử dụng.
Từ ví dụ 7.1:
Tỷ lệ tổng thể những nhà quản lý tham gia vào
chương trình đào tạo quản lý là p =0,60
Với n/N =30/2500 = 0,012 → Ta có thể bỏ qua
hệ số hiệu chỉnh tổng thể hữu hạn. Lúc đó:

p (1  p ) 0, 60(1  0, 60)
p    0, 0894
n 30
x
Dạng phân phối mẫu của p 
n

Đối với mẫu ngẫu nhiên từ tổng thể lớn, giá

trị x là một biến ngẫu nhiên có phân phối nhị thức


cho biết số phần tử trong mẫu với tính chất
được quan tâm.
x
n là hằng số, xác suất p  giống với xác
n
suất nhị thức của x, có nghĩa là phân phối mẫu
của 𝑝 là một phân phối xác suất rời rạc
cũng
x
và xác suất của mỗi giá trị của p giống
là n
với xác suất của x
(Xem chương 5, một phân phối nhị thức có
thể xấp xỉ một phân phối chuẩn khi cỡ mẫu đủ
lớn để thỏa mãn: np ≥ 5 và n(1-p) ≥ 5).
Phân phối mẫu của p có thể xấp xỉ một
phân phối chuẩn bất kỳ khi nào np ≥ 5 và
n(1-p) ≥ 5. Hay ta có thể ứng dụng định lý
giới hạn trung tâm:
p p p p
z 
p p(1  p)
n

Trong thực tế cỡ mẫu hầu như đủ lớn để


cho phép sử dụng một xấp xỉ chuẩn với phân
phối mẫu p
Ví dụ 7.4: Được biết 30 % các hộ gia đình ở một
quận có sử dụng mạng internet. Mẫu ngẫu nhiên
gồm 250 hộ được chọn từ quận trên. Tính xác suất
để tỉ lệ các hộ có sử dụng internet khoảng từ 25%
đến 35%.  0,25  p p  p 0,35  p 
P(0, 25  p  0,35)  P    
 p p p 
 
 
 0,25  0,30 0,35  0,30 
 P z 
 0,30(1  0,30) 0,30(1  0,30) 
 
 250 250 
 P(1,72  z  1,72)  0,9573  0,0427  0,9146
Trong 250 hộ, thì có 91,46% hộ có sử dụng internet
nằm trong khoảng 25% đến 35%.
Các Tính Chất của các Ước Lượng Điểm
 Trước khi sử dụng một thống kê mẫu như một tham số
ước lượng điểm, các nhà thống kê cần kiểm tra để biết
thống kê mẫu có các tính chất sau đây gắn liền với các
tham số ước lượng điểm tốt hay không.
• Tính không chệch
• Tính hiệu quả
• Tính vững
 Không chệch
Nếu giá trị kỳ vọng của thống kê mẫu bằng với tham số
tổng thể đang được ước lượng, thống kê mẫu được gọi là
một tham số ước lượng không chệch của tham số tổng
thể.
Các Tính Chất của các Ước Lượng Điểm

Ký hiệu:
θ – Tham số tổng thể quan tâm (theta)
- Thống kê mẫu hay ước lượng điểm
(không chệch) của θ gọi là theta-hat.

 là ước lượng không chệch của θ nếu kỳ


vọng toán học của bằng θ, nghĩa là:
E ( ) = θ

Phân phối mẫu của  
Phân phối mẫu của 

Chệch


 

θ )
E(
θ

Tham số θ nằm tại giá trị Tham số θ không nằm tại giá
trung bình của phân phối trị trung bình của phân phối
mẫu E ( ) = θ mẫu E ( ) ≠ θ
Ước lượng không chệch Ước lượng chệch
Ví dụ: Mức năng suất lao động ngày của 5
công nhân (kg): 20, 22, 25, 30 và 32. Kích
thước mẫu bằng 2 và chọn không lặp:

n N! 5!
C    10
n! N  n ! 2!5  2 !
N
Mẫu Trung
bình
Mẫu Trung
bình
Trung bình tổng
mẫu mẫu thể:
20 và 21,0 22 và 30 26,0 µ = (20 + 22+ 25 +
22
30 + 32)/5 = 25,8
20 và 25 22,5 22 và 32 27,0 kg
Trung bình cuûa
20 và 30 25,0 25 và 30 27,5 taát caû trung bình
maãu:
20 và 32 26,0 25 và 32 28,5
(21,0+22,5+25,0+…+
28,5+31,0)/10
= 25,8 kg
22 và 25 23,5 30 và 32 31,0
Tức là:
x
E ( ) = μ =25,8 kg
Tính hiệu quả
Giả sử cần lựa chọn hai tham số ước lượng
điểm không chệch của cùng tham số tổng thể.
Chúng ta sẽ thích sử dụng tham số ước lương
điểm có độ lệch chuẩn nhỏ hơn, vì nó có xu hướng
cho ra các ước lượng gần với tham số tổng thể hơn.
Tham số ước lương điểm có độ lệch chuẩn nhỏ
hơn được gọi là có tính hiệu quả tương đối lớn hơn
tham số còn lại.
Phân phối mẫu của 2 ước lượng điểm không chệch

Phân phối mẫu


của (theta-hat)1

Phân phối mẫu


của (theta-hat)2

𝜃 Theta-hat
Ước lượng vững

 

là ước lượng vững của θ nếu có xu
hướng ngày càng gần với θ khi kích thước
mẫu tăng lên.

(Cỡ mẫu lớn làm cho giá trị  x  nhỏ
n
→ ước lượng điểm gần với trung bình tổng
thể hơn).
CÁC PHƯƠNG PHÁP LẤY MẪU KHÁC
Các Phương Pháp Lấy Mẫu Khác
 Lấy mẫu ngẫu nhiên phân tầng (lớp)
 Lấy mẫu cụm (cả khối)
 Lấy mẫu hệ thống
 Lấy mẫu thuận tiện (thuận lợi)
 Lấy mẫu phán đoán
Lấy Mẫu Ngẫu Nhiên Phân tầng

Đầu tiên tổng thể được chia thành các nhóm phần tử
gọi là các tầng.

Mỗi phần tử trong tổng thể thuộc một và chỉ một


tầng.

Các kết quả tốt nhất đạt được khi các phần tử trong
mỗi tầng tương tự càng nhiều càng tốt (nghĩa là, phần
tử trong cùng nhóm thì thuần nhất).
Lấy mẫu ngẫu nhiên phân tầng

Một mẫu ngẫu nhiên đơn giản được lấy từ mỗi tầng.

Các công thức có sẵn kết hợp các kết quả mẫu tầng
thành một ước lượng tham số tổng thể.

Thuận lợi: Nếu các tầng thuần nhất, phương pháp này
“chính xác ” như lấy mẫu ngẫu nhiên đơn giản nhưng
với cỡ mẫu nhỏ hơn.

Ví dụ : Cơ sở để thành lập tầng có thể là bộ phận,


vị trí, tuổi tác, ngành công nghiệp …
Trong choïn maãu ngẫu nhiên phaân tầng, töø
moät toång theå goàm N phần tử ñöôïc chia
thaønh H tầng được gọi là tầng sao cho mỗi phần
tử trong tổng thể thuộc một và chỉ một tầng.
Caùc phần tử trong moãi tầng töông ñoái
gioáng nhau lúc đó tầng sẽ có phương sai nhỏ và
mẫu ngẫu nhiên phân tầng tốt nhất khi phương sai
giữa các phần tử trong mỗi tầng tương đối nhỏ.
Töø moãi tầng choïn caùc phần tử ñaïi dieän
theo caùch choïn ngaãu nhieân đơn giản.
Nếu tầng đồng nhất, thủ tục lấy mẫu ngẫu nhiên
phân tầng cung cấp kết quả chính xác như lấy mẫu
ngẫu nhiên đơn giản với cỡ mẫu nhỏ hơn.
Toång caùc maãu ñaït ñöôïc ta goïi laø maãu ngaãu
nhieân phaân tầng.
Maãu n ñôn vò ñöôïc phaân boå cho caùc toå
vôùi soá phần tử maãu töông öùng n 1, n2, n3,… , nH
(n1 + n2 + n3 + … + nH) = n
Soá phần tử ñöôïc choïn töø moãi tầng coù theå
töông öùng với tyû troïng cuûa tầng ñoù trong
toång theå, goïi laø choïn phaân tầng theo tyû leä,
hoaëc coù theå khoâng töông öùng vôùi tyû troïng
ñoù.
Tröôøng hôïp choïn maãu ngẫu nhiên phaân
tầng theo tyû leä: Soá phần tử maãu ôû töøng
tầng, ni, coù theå ñöôïc xaùc ñònh theo phöông
phaùp tyû leä, nghóa laø:
ni Ni Ni
  n i  n 
n N N
Trong ñoù: ni - Soá phần tử ñöôïc laáy maãu
ôû
tầng thöù i.
Ni – Soá phần tử cuûa tầng thöù i
Ví duï, choïn maãu ngẫu nhiên phân tầng theo
tyû leä vôùi cỡ maãu 100 töø moät toång theå coù
N=2000 chia thaønh 4 tầng vôùi soá phaàn töû
moãi tầng nhö sau:

Phương Tầng Tổng


pháp
chọn N1 =700 N2 = 400 N3 =300 N4 =600 N=2000

Bằng 25 25 25 25 n = 100
nhau
Theo tỷ 35 20 15 30 n=100
Lấy mẫu thuận tiện
- Chủ yếu bởi sự thuận tiện
- Các phần tử (kể cả trong mẫu) không có
khả năng được biết hay xác định trước về việc
chọn lựa.

Ví dụ, một Gs đang nghiên cứu ở một


trường đại học có thể sử dụng sinh viên tình
nguyện để tạo mẫu bởi vì họ sẳn lòng và sẽ
tham gia như đối tượng nghiên cứu với ít
hoặc không tốn chi phí.
Lấy mẫu phán đoán
Người am hiểu nhất về chủ đề nghiên cứu
chọn các phần tử của tổng thể mà người đó
cảm thấy đại diện tổng thể nhiều nhất.
Chất lượng của kết quả mẫu phụ thuộc vào
sự đánh giá của người chọn mẫu.
Mẫu Cụm (khối)

Đầu tiên tổng thể được chia thành các nhóm riêng lẻ
gồm các phần tử gọi là các cụm.

Một cách lý tưởng, mỗi cụm là một phiên bản qui mô


nhỏ đại diện của tổng thể (nghĩa là nhóm không
thuần nhất).

Một mẫu nhiên đơn giản gồm các cụm được lấy.

Tất cả các phần tử nằm trong mỗi cụm được chọn


mẫu tạo nên mẫu.
Mẫu Cụm
Ví dụ: Một ứng dụng cơ bản là lấy mẫu theo vùng,
ở đó các cụm là các khối nhà thành phố hay các
vùng xác định khác.

Ưu điểm: Các phần tử ờ gần nhau có thể là


hiệu quả về chi phí (nghĩa là, nhiều quan sát
trong mẫu có thể có được trong thời gian ngắn)

Nhược điểm: Phương pháp này nói chung yêu


cầu cỡ mẫu lớn hơn mẫu ngẫu nhiên đơn giản
hay phân lớp.
Chọn mẫu hệ thống (chọn máy móc)
Trong choïn maãu heä thoáng caùc phần
tử ñöôïc choïn löïa töø toång theå theo
khoaûng caùch thôøi gian, khoâng gian hoaëc
thöù haïng baèng nhau. Phần tử đầu tiên được
choïn ngaãu nhieân moät trong số k (k=N/n)
phần tử đầu tiên từ danh sách tổng thể, coøn
caùc phần tử tieáp theo ñöôïc choïn vaøo
maãu cöù sau khoaûngNcaùch choïn maãu k:
k
n
Giaû söû chuùng ta laáy maãu 50 phaàn
töû töø toång theå goàm 5000 phaàn töû.
Nhö vaäy, khoaûng caùch choïn maãu laø
100 (5000/50), thì töø phaàn töû maãu ñaàu
tieân ñöôïc choïn ngaãu nhieân trong số 100
phần tử đầu tiên từ danh sách tổng thể.
Các phần tử khác được xác định bằng
cách bắt đầu với phần tử được lấy mẫu đầu
tiên và chọn mọi phần tử theo khoảng cách
chọn mẫu k =100, chọn cho ñeán khi ñuû 50
phaàn töû vào maãu.
Choïn maãu heä thoáng coù öu
ñieåm: thuû tuïc tieán haønh ñôn giaûn,
neân ruùt ngaén ñöôïc thôøi gian vaø chi
phí coù khaû naêng giaûm bôùt. Maët
khaùc, do soá ñôn vò maãu ñöôïc phaân
phoái raûi ñeàu trong toång theå chung
neân tính ñaïi biểu của mẫu cao so vôùi
choïn maãu ngaãu nhieân ñôn giaûn.
Nhöôïc ñieåm cuûa choïn heä thoáng laø
coù khaû naêng xuaát hieän sai soá heä
thoáng.
Recommendation

It is recommended that probability sampling methods


(simple random, stratified, cluster, or systematic) be
used.

For these methods, formulas are available for


evaluating the “goodness” of the sample results in
terms of the closeness (gần) of the results to the
Population parameters being estimated.

An evaluation of the goodness cannot be made with


non-probability (convenience or judgment) sampling
methods.
Hết chương 7

You might also like