You are on page 1of 9

CHƯƠNG 7 : CHỌN MẪU VÀ PHÂN PHỐI MẪU

Một phần tử là thực thể trên đó dữ liệu được thu thập


Một tổng thể là một tập hợp của tất cả các phần tử quan tâm
Một mẫu là một tập con của tổng thể.
Tổng thể được lấy mẫu là tổng thể từ đó mẫu được rút ra
Một dàn chọn mẫu là một danh sách các phần tử mà mẫu sẽ được chọn từ đó
Lý do chúng ta chọn một mẫu là thu thập dữ liệu để trả lời một câu hỏi nghiên cứu về một tổng
thể.
Các kết quả mẫu chỉ cung cấp các ước lượng về các giá trị của các đặc điểm tổng thể.
Lý do đơn giản là mẫu chỉ chứa một phần của tổng thể.
Với các phương pháp lấy mẫu thích hợp, các kết quả mẫu có thể cung cấp các ước lượng “tốt”
các đặc điểm tổng thể.
I. Chọn mẫu
a) Lấy mẫu từ một tổng thể hữu hạn
- Tổng thể hữu hạn thường được định nghĩa bằng các danh sách như :
+ Bảng phân công các thành viên của tổ chức
+ Các số tài khoản thẻ tín dụng
+ Bảng kê số sản phẩm
- Một mẫu ngẫu nhiên đơn giản cỡ n từ một tổng thể hữu hạn kích thước N là
một mẫu được chọn sao cho mỗi mẫu cỡ n như vậy có cùng khả năng được
lựa chọn.
- Trả lại mỗi phần tử đã được lấy mẫu trước khi lựa chọn các phần tử sau được
gọi là lấy mẫu có hoàn lại.
- Lấy mẫu không hoàn lại là thủ tục thường được sử dụng
- Trong các dự án lấy mẫu lớn, các số ngẫu nhiên do máy tính tạo ra thường
được sử dụng để tự động hóa quá trình chọn mẫu
VD : Đại học St. Andrew’s đã nhận 900 đơn xin vào học năm tới từ các sinh
viên tương lai. Các ứng viên đã được đánh số, từ 1 đến 900, khi đơn của họ
nộp vào. Trưởng ban tuyển sinh muốn chọn một mẫu ngẫu nhiên đơn giản
gồm 30 ứng viên.
b) Lấy mẫu từ một tổng thể vô hạn
- Đôi khi chúng ta muốn chọn một mẫu, nhưng nhận thấy không thể có được
một danh sách gồm tất cả các phần tử trong tổng thể.
- Kết quả, chúng ta không thể xây dựng một dàn chọn mẫu cho tổng thể
- Do đó, chúng ta không thể sử dụng thủ tục chọn số ngẫu nhiên
- Hầu hết tình huống này xảy ra trong các trường hợp tổng thể vô hạn.
- Tổng thể thường được tạo ra bằng một quá trình xảy ra hiện thời ở đó không
có giới hạn trên đối với số lượng đơn vị có thể được tạo ra.
- Vài ví dụ về quá trình xảy ra hiện thời, với các tổng thể vô hạn, là :
• các bộ phận đang được sản xuất trên một dây chuyền sản xuất
• các giao dịch đang xảy ra tại một ngân hàng
• các cuộc gọi điện thoại đang đến ở một tổ hỗ trợ kỹ thuật
• các khách hàng đang đi vào một cửa hàng
- Trong trường hợp một tổng thể vô hạn, chúng ta phải chọn một mẫu ngẫu
nhiên để thực hiện các suy diễn thống kê có căn cứ về tổng thể từ mẫu được
lấy
- Một mẫu ngẫu nhiên từ một tổng thể vô hạn là một mẫu được chọn sao cho
các điều kiện sau đây thỏa mãn.
 Mỗi phần tử được chọn đến từ tổng thể quan tâm.
 Mỗi phần tử được chọn một cách độc lập.
II. Ước lượng điểm
- Ước lượng điểm là một dạng của suy diễn thống kê.
- Trong ước lượng điểm chúng ta sử dụng dữ liệu từ mẫu để tính toán giá trị của
một thống kê mẫu, rồi dùng nó như một ước lượng của tham số tổng thể.
- Chúng ta xem x như ước lượng điểm của trung bình tổng thể μ
- s là ước lượng điểm của độ lệch chuẩn tổng thể σ
- p là ước lượng điểm của tỷ lệ tổng thể p
 Lời khuyên thực hành
- Tổng thể đích là tổng thể mà chúng ta muốn thực hiện các suy diễn về nó.
- Tổng thể lấy mẫu là tổng thể mà từ đó mẫu được lấy.
- Bất kỳ khi nào một mẫu được sử dụng để suy diễn một tổng thể, chúng ta nên
chắc chắn tổng thể đích và tổng thể lấy mẫu là gần giống nhau.
III. Phân Phối Mẫu của x
- Phân phối mẫu của x là phân phối xác suất của tất cả các giá trị có thể có của
trung bình mẫu x
- Khi tổng thể có phân phối chuẩn, thì phân phối mẫu của x có phân phối chuẩn
với mọi cỡ mẫu.
- Trong đa số ứng dụng, phân phối mẫu của x có thể được xấp xỉ bằng một phân
phối chuẩn bất cứ khi nào cỡ mẫu từ 30 trở lên.
- Trong các trường hợp mà tổng thể bị lệch nhiều hay các giá trị bất thường xuất
hiện, các mẫu cỡ 50 có lẽ cần thiết.
- Phân phối mẫu của x có thể được sử dụng để cung cấp thông tin xác suất về
trung bình mẫu x gần như thế nào với trung bình tổng thể μ
- Định lí giới hạn trung tâm : Khi chọn các mẫu ngẫu nhiên cỡ n từ một tổng
thể, phân phối mẫu của trung bình mẫu x có thể xấp xỉ một phân phối chuẩn
khi cỡ mẫu đủ lớn lớn.
VD : Xác suất mà một mẫu ngẫu nhiên đơn giản gồm 30 ứng viên sẽ cho một
ước lượng của điểm SAT trung bình tổng thể ở trong vòng +/-10 so với trung
bình tổng thể thực sự m là bao nhiêu ?
Nói cách khác, xác suất x nằm giữa 1080 và 1100là bao nhiêu?
 Bước 1: Tính giá trị z tại điểm trên của khoảng
z = (1100 - 1090)/14.6= 0.68
 Step 2: Tìm diện tích dưới đường cong về bên trái của điểm trên.
P(z < 0.68) = 0.7517
 Bước 3 : Tính giá trị z tại điểm dưới của khoảng
z = (1080 - 1090)/14.6= -0.68
 Bước 4: Tìm diện tích dưới đường cong về bên trái của điểm dưới
P(z < -0.68) = 0.2483
 Bước 5: Tính diện tích dưới đường cong giữa các điểm trên và dưới của
khoảng.
P(-0.68 < z < 0.68) = P(z < 0.68) - P(z < -0.68
= 0.7517 - 0.2483
= 0.5034
Xác suất để trung bình mẫu của điểm SAT sẽ nằm giữa 1080 và 1100 là:
P(1080 < < 1100) = 0.5034

IV. Phân Phối Mẫu của p


- Phân hối mẫu của p là phân phối xác suất của tất cả các giá trị có thể có của tỷ
lệ mẫu .
 Dạng phân phối mẫu của p
- Phân phối mẫu của p có thể xấp xỉ một phân phối chuẩn bất cứ khi nào cỡ
mẫu đủ lớn để thỏa mãn hai điều kiện:
np > 5 và n(1 – p) > 5
Vì khi các điều kiện này thỏa mãn, phân phối xác suất của x trong tỷ lệ mẫu,
p = x/n, có thể xấp xỉ phân phối chuẩn (và vì n là một hằng số )
VD : Nhắc lại là 72% sinh viên tương lai nộp đơn vào đại Học St.
Andrew’s muốn ở ký túc xá.Xác suất để một mẫu ngẫu nhiên đơn giản
gồm 30 ứng viên sẽ cho một ước lượng của tỷ lệ tổng thể ứng viên muốn ở
ký túc xá nằm trong vòng cộng trừ 0.05 so với tỷ lệ tổng thể thực sự là
bao nhiêu?
Ví dụ của chúng ta, với n = 30 và p = 0.72, phân phối chuẩn là một xấp xỉ có
thể chấp nhận được vì:
np = 30(0.72) = 21.6 > 5

n(1 - p) = 30(0.28) = 8.4 > 5
Bước 1: Tính giá trị z tại điểm trên của khoảng.
z = (0.77 - 0.72)/0.082 = 0.61
Bước 2: Tìm diện tích dưới đường cong về bên trái điểm trên.
P(z < 0.61) = 0.7291
Bước 3: Tính giá trị z tại điểm dưới của khoảng.
z = (0.67 - 0.72)/0.082 = - 0.61
Bước 4: Tìm diện tích dưới đường cong về bên trái điểm dưới
P(z < - 0.61) = 0.2709
Bước 5: Tính diện tích dưới đường cong giữa các điểm trên và dưới của
khoảng.
(-0.61 < z < 0.61) = P(z < 0.61) - P(z < -0.61)
= 0.7291 - 0.2709
= 0.4582
Xác suất tỷ lệ mẫu của các ứng viên muốn ở ký túc xá sẽ nằm trong vòng +/-
0.05 so với tỷ lệ tổng thể thực sự :
P(0.67 < < 0.77) = 0.4582
V. Các Tính Chất của các Ước Lượng Điểm
a) Không chệch
- Nếu giá trị kỳ vọng của thống kê mẫu bằng với tham số tổng thể đang được
ước lượng, thống kê mẫu được gọi là một tham số ước lượng không chệch của
tham số tổng thể.
b) Tính hiệu quả
- Giả sử cần lựa chọn hai tham số ước lượng điểm không chệch của cùng tham
số tổng thể, chúng ta sẽ thích sử dụng tham số ước lương điểm có độ lệch
chuẩn nhỏ hơn, vì nó có xu hướng cho ra các ước lượng gần với tham số tổng
thể hơn.
- Tham số ước lương điểm có độ lệch chuẩn nhỏ hơn được gọi là có tính hiệu
quả tương đối lớn hơn tham số còn lại.
c) Tính vững
- Một tham số ước lượng điểm là vững nếu các giá trị của ước lượng điểm có
xu hướng trở nên gần hơn tham số tổng thể khi cỡ mẫu trở nên lớn hơn.
- Nói cách khác, cỡ mẫu lớn có xu hướng cho một ước lượng điểm tốt hơn một
cỡ mẫu nhỏ
VI. Các Phương Pháp Lấy Mẫu Khác
a) Lấy Mẫu Ngẫu Nhiên Phân Tầng
- Đầu tiên tổng thể được chia thành các nhóm phần tử gọi là các tầng.
- Mỗi phần tử trong tổng thể thuộc một và chỉ một tầng.
- Các kết quả tốt nhất đạt được khi các phần tử trong mỗi tầng tương tự càng
nhiều càng tốt (nghĩa là, phần tử trong cùng nhóm thì thuần nhất).
b) Lấy Mẫu Ngẫu Nhiên Phân Lớp
- Một mẫu ngẫu nhiên đơn giản được lấy từ mỗi tầng.
- Các công thức có sẵn kết hợp các kết quả mẫu tầng thành một ước lượng tham
số tổng thể
- Thuận lợi : Nếu các tầng thuần nhất, phương pháp này “chính xác ” như lấy
mẫu ngẫu nhiên đơn giản nhưng với cỡ mẫu nhỏ hơn.
- Ví dụ : Cơ sở để thành lập tầng có thể là bộ phận, vị trí,tuổi tác, ngành công
nghiệp …
c) Mẫu Cụm (khối)
- Đầu tiên tổng thể được chia thành các nhóm riêng lẻ gồm các phần tử gọi là
các cụm.
- Một cách lý tưởng, mỗi cụm là một phiên bản qui mô nhỏ đại diện của tổng
thể (nghĩa là nhóm không thuần nhất).
- Một mẫu nhiên đơn giản gồm các cụm được lấy.
- Tất cả các phần tử nằm trong mỗi cụm được chọn tạo nên mẫu
- Ví dụ: Một ứng dụng cơ bản là lấy mẫu theo vùng, ở đó các cụm là các khối
nhà thành phố hay các vùng xác định khác.
- Ưu điểm: Các phần tử ờ gần nhau có thể là hiệu quả về chi phí (nghĩa là,
nhiều quan sát trong mẫu có thể có được trong thời gian ngắn)
- Nhược điểm: Phương pháp này nói chung yêu cầu cỡ mẫu lớn hơn mẫu ngẫu
nhiên đơn giản hay phân tầng
d) Lấy Mẫu Hệ Thống
- Nếu một mẫu cỡ n được yêu cầu từ một tổng thể chứaN phần tử, chúng ta có
thể lấy mẫu một phần tử cho mỗi n/N phần tử trong tổng thể.
- Chúng ta chọn ngẫu nhiên một phần tử trong N/n phần tử đầu tiên từ danh
sách tổng thể.
- Sau đó chúng ta chọn mỗi phần tử thứ N/n tiếp theo trong danh sách tổng thể.
- Phương pháp này có các tính chất của một mẫu ngẫu nhiên đơn giản, đặc biệt
nếu danh sách các phần tử tổng thể là một sự sắp xếp ngẫu nhiên.
- Ưu điểm: Mẫu này thường dễ xác định hơn mẫu sử dụng phương pháp lấy
mẫu ngẫu nhiên.
- Ví dụ: Chọn mỗi số điện thoại thứ 100 trong danh bạ điện thoại sau khi số
điện thoại ngẫu nhiên đầu tiên được chọn
e) Lấy Mẫu Thuận Tiện
- Đó là một kỹ thuật lấy mẫu phi xác suất. Các phần tử được bao gồm trong
mẫu không biết xác suất được chọn là bao nhiêu.
- Mẫu được xác định cơ bản bằng sự thuận tiện.
- Ví dụ: Một giáo sư đang hướng dẫn nghiên cứu có thể sử dụng các sinh viên
tình nguyện để thiết lập một mẫu
- Ưu điểm: Việc chọn mẫu và dữ liệu thu thập tương đối dễ dàng
- Nhược điểm : Không thể xác định được mẫu đại diện như thế nào cho tổng
thể
f) Lấy Mẫu Phán Đoán
- Người hiểu biết nhiều nhất về vấn đề nghiên cứu chọn các phần tử của tổng
thể mà người ấy cảm thấy là đại diện nhiều nhất cho tổng thể.
- Nó là một kỹ thuật lấy mẫu phi xác suất
- Ví dụ : Một phóng viên có thể lấy mẫu ba hay bốn thượng nghị sĩ, xét đoán
họ như đang phản ánh ý kiến chung của thượng viện
- Ưu điểm: Nó là cách chọn mẫu tương đối dễ.
- Nhược điểm: Chất lượng của các kết quả mẫu phụ thuộc vào sự phán đoán
của người chọn mẫu.
 Người ta khuyên dùng các phương pháp lấy mẫu xác suất (ngẫu nhiên, phân
lớp, cụm, hệ thống).
 Đối với các phương pháp này, các công thức có sẵn để đánh giá “tính tốt” của
mẫu dẫn đến các điều kiện để các kết quả gần với các tham số tổng thể đang
 được ước lượng.
 Sự đánh giá về tính tốt không thể thực hiện với phương pháp lấy mẫu phi xác
suất (thuận tiện hay phán đoán).

You might also like