You are on page 1of 77

CHƯƠNG III

LÝ THUYẾT MẪU VÀ BÀI TOÁN ỨƠC LƯỢNG THAM SỐ

NỘI DUNG CHÍNH

§ 1. Mẫu ngẫu nhiên và các đặc trưng mẫu.


§ 2. Ước lượng tham số.
GIỚI THIỆU KHÁI QUÁT
Thống kê là một ngành của toán học, có vai trò rất quan trọng trong
đời sống. Thống kê có thể được hiểu theo nghĩa là tập số liệu được ghi
chép lại từ những quan sát thực tế, chẳng hạn như: giá của một loại cổ
phiếu qua các lần giao dịch, số người nhiễm bệnh sốt xuất huyết ở Việt
Nam qua các tháng trong năm, số lượng du khách đến Việt Nam qua các
tháng... Bảng số liệu này mang thông tin cần thiết, trực tiếp cho người
sử dụng như giá trị trung bình của những con số hay mức độ sai lệch
giữa chúng. Ngoài ra, thống kê còn được hiểu là một hệ thống gồm việc
thu thập số liệu, các phương pháp phân tích, xử lý các số liệu nhằm đưa
ra những thông tin bản chất hay tính quy luật của số liệu. Thống kê hiểu
theo nghĩa thứ hai rất được quan tâm, có vai trò quan trọng trong thực
tế, bởi vì từ những gì phân tích xử lý số liệu ta có thể đưa ra những nhận
xét, khẳng định hay những tiên đoán.
Từ đó, thống kê thường được chia thành hai loại. Thống kê mô tả
ứng với cách hiểu theo nghĩa thứ nhất "thống kê mô tả là một ngành
của thống kê bao gồm việc sắp xếp, tổng hợp và trình bày dữ liệu”.
Thống kê suy diễn ứng với cách hiểu thứ hai "thống kê suy diễn là một
ngành của thống kê bao gồm việc sử dụng mẫu từ tổng thể để đưa ra
những kết luận về tổng thể”. Cơ sở lý thuyết của thống kê suy diễn dựa
trên lý thuyết xác suất, đặc biệt là các định lý giới hạn trong xác suất.
Trong đó, có thể nói đến là các định lý giới hạn trung tâm, các định lý
về luật số lớn. Đôi khi ta còn nghe đến thuật ngữ thống kê úng dụng
hay thống kê Toán. Thống kê ứng dụng được hiểu là việc sử dụng
thống kê vào thực tế, nó bao gồm cả thống kê suy diễn và thống kê mô
tả. Người ta còn chia thành các ngành riêng của thống kê ứng dụng
như: thống kê bảo hiểm, thống kê dân số, thống kê trong giáo dục,
thống kê trong 𝑦 học... Còn về thống kê Toán lại là lĩnh vực nghiên cứu
cơ sở lý thuyết của khoa học thống kê.
CHƯƠNG III. LÝ THUYẾT MẪU VÀ BÀI TOÁN
ỨƠC LƯỢNG THAM SỐ

§1. Mẫu ngẫu nhiên và các đặc trưng mẫu

1.1. Tổng thể và mẫu


▪ Tổng thể: Giả sử cần nghiên cứu một số tính chất nào đó của tất
cả các phần tử trong một tập hợp, ta gọi tập hợp đó là tổng thể hay
đám đông, mỗi phần tử thường gọi là một cá thể.
▪ Mẫu là một tập con của tổng thể được chọn ra để nghiên cứu
nhằm thay thế cho việc phải nghiên cứu mọi phần tử của tổng thể.
Số phần tử của mẫu gọi là kích thước mẫu hay cỡ mẫu, thường ký
hiệu là 𝑛.
1.2. Mẫu ngẫu nhiên:
Để nghiên cứu dấu hiệu X của tất cả các cá thể trong một tổng thể
ta cần chọn một mẫu kích thước n. Gọi 𝑋𝑖 là dấu hiệu X của phần
tử thứ i của mẫu mà ta quan sát được. Khi đó:
• Mẫu đã cho được gọi là mẫu ngẫu nhiên đặc trưng cho dấu
hiệu X nếu 𝑋1 , 𝑋2 , … , 𝑋𝑛 là một dãy biến ngẫu nhiên độc lập có
cùng phân phối xác suất với X. Kí hiệu: 𝑋 = 𝑋1 , 𝑋2 , … , 𝑋𝑛 .
• Đặc biệt, khi các 𝑋𝑖 nhận giá trị cụ thể 𝑥𝑖 (𝑖 = 1, … , 𝑛), ta có
mẫu cụ thể 𝑥 = 𝑥1 , 𝑥2 , … , 𝑥𝑛 .
Khi nghiên cứu các vấn đề lý thuyết ta dùng mẫu ngẫu nhiên tổng
quát. Khi thực nghiệm và ứng dụng ta dùng mẫu cụ thể.
❖ Ví dụ: Để nghiên cứu chiều cao X(cm) của học sinh lớp 1 ở Việt
Nam, người ta chọn ngẫu nhiên 100 học sinh lớp 1 để đo chiều cao.
Khi đó:
• Tổng thể là toàn bộ học sinh lớp 1 Việt Nam, mỗi học sinh là một
cá thể.
• Dấu hiệu cần quan sát X là một biến ngẫu nhiên. Tập giá trị của
X có thể là: … , 70, 71,72, 73,74,75,76, . . , 100, 101, … .
• Mẫu ngẫu nhiên kích cỡ 𝑛 = 100 cá thể được chọn ra là:
𝑋 = 𝑋1 , 𝑋2 , … , 𝑋100 .
Trong đó 𝑋1 , 𝑋2 , … , 𝑋𝑛 là các biến ngẫu nhiên độc lập có cùng
phân phối xác suất với X.
• Một mẫu cụ thể là một bộ gồm 100 giá trị về chiều cao, chẳng
hạn:
𝑋 = (70, 71,72, 72,74,75,74,75,74,75,76, . . , 100).
1.2. Các phương pháp chọn mẫu
a) Chọn mẫu ngẫu nhiên đơn giản:
Quy trình chọn mẫu ngẫu nhiên đơn cỡ 𝑛 từ tổng thể gồm 𝑁 cá thể:
• B1. Lập danh sách, đánh số thứ tự toàn bộ các cá thể của tổng thể;
• B2. Bốc thăm hoặc bảng số ngẫu nhiên để chọn mẫu.
❖ Ưu điểm:
• Cách làm đơn giản, tính đại diện cao nếu giữa các đơn vị của tổng
thể không có khác biệt nhiều.
𝑛
• Tất cả cá thể đều có cùng xác suất được chọn là 𝑝 = .
𝑁
• Có thể lồng vào các kỹ thuật chọn mẫu khác.
❖ Nhược điểm:
• Nếu tổng thể các đơn vị có sự khác biệt nhau đáng kể thì cách chọn
này khó đảm bảo tính đại diện.
• Tổng thể quá lớn thì việc chọn mẫu ngẫu nhiên cũng gặp khó khăn
• Mẫu được chọn có thể phân tán, khó thu thập.
❖ Ví dụ
Để khảo sát khả năng chịu đựng say sóng của 100 sinh viên
Viện Hàng Hải, giáo viên chọn mẫu gồm 10 sinh viên tại đây.
a) Hãy nêu cách chọn mẫu theo phương pháp mẫu ngẫu
nhiên đơn giản.
b) Tính xác xuất được chọn của mỗi sinh viên.
a) B1. Lập danh sách thứ tự toàn bộ 100 sinh viên của Viện
Hàng Hải. Ghi 100 lá thăm số thứ tự của mỗi sinh viên.
B2. Bỏ tất cả thăm vào một cái hộp, xáo trộn rồi bốc ngẫu
nhiên 10 lá thăm.
C10
99
b) Xác suất để một sinh viên nào đó không được chọn là: 10
C100
(Tức là 10 lá thăm bốc ra thuộc về 99 người còn lại).
Xác suất để một sinh viên được chọn là:
C10
99 99! 10!90! 99! 90! 90 10
p=1− 10 =1− . =1 − . =1− = .
C100 10!89! 100! 89! 100! 100 100
b) Chọn mẫu ngẫu nhiên hệ thống
B1. Lập danh sách và đánh số thứ tự các đối tượng trong tổng thể.
𝑁
B2. Tính khoảng cách dãy 𝑑 = (N là số các cá thể trong tổng thể,
𝑛
𝑛 là cỡ mẫu).
B3. Bốc thăm chọn cá thể đầu tiên u1 ∈ 1; 2; … ; 𝑑 .
B4. Mẫu được chọn là các cá thể có số thứ tự lập thành một cấp số
cộng với số hạng đầu là 𝑢1 , công sai là 𝑑.
❖ Ưu điểm:
• Thay cho mẫu ngẫu nhiên đơn khi không có khung mẫu chính xác.
• Có tính đại diện hơn ngẫu nhiên đơn.
1 𝑛
• Tất cả cá thể đều có cùng xác suất được chọn là 𝑝 = = .
𝑑 𝑁
❖ Nhược điểm: Xác xuất để các tổ hợp gồm n cá thể được chọn làm
mẫu là không bình đẳng. Bởi một tổ hợp có số thứ tự lập thành cấp
1 𝑛
số cộng thì có xác xuất được chọn là 𝑝 = = , nhưng nếu không
𝑑 𝑁
phải cấp số cộng thì không được chọn.
❖ Ví dụ
Hãy chọn một mẫu 5 khách hàng từ nhóm 20 khách hàng theo
phương pháp chọn mẫu ngẫu nhiên hệ thống .
Giải
▪ Đánh số thứ tự 20 khách hàng.
▪ Khoảng cách dãy: 𝑑 = 20/5 = 4. 1 2 3 4
▪ Bốc thăm ngẫu nhiên một giá trị
5 6 7 8
u1 ∈ 1; 2; 3; 4 . Chẳng hạn, bốc
được u1 = 3. 9 10 11 12
▪ Mẫu được chọn là các khách hàng 13 14 15 16
mang số 3; 7; 11; 15;19. (Cấp số
cộng u1 = 3, công sai là 𝑑 = 4). 17 18 19 20
1
❖ Nhận xét: Mỗi khách đều có cùng xác suất được chọn là 𝑝 = .
4
Bốn cột lập thành CSC như: {3;7;11;15;19} có xác suất được chọn là ¼
nhưng các tổ hợp còn lại như {1;2;3;4;5} thì xác xuất được chọn bằng 0.
c) Chọn mẫu ngẫu nhiên phân tầng
B1. Lập danh sách các đối tượng trong tổng thể nghiên cứu.
B2. Phân chia tổng thể nghiên cứu thành các tầng khác nhau căn cứ
vào các đặc điểm như giới, nhóm tuổi, tình trạng hôn nhân…đảm
bảo giữa các tầng không có sự chồng chéo.
B3. Quyết định số cá thể được lựa chọn ở mỗi tầng. Cỡ mẫu ở mỗi
tầng phải tỷ lệ thuận với kích cỡ của từng tầng trong tổng thể.
B4. Tiến hành phương pháp chọn mẫu ngẫu nhiên đơn trong từng
tầng.
❖ Ưu điểm:
• Phổ biến nhất vì tính chính xác và đại diện cao, ít tốn kém;
• Có thể biết được hình ảnh của từng tầng;
• Về mặt quản lý, mẫu phân tầng dễ hơn ngẫu nhiên đơn.
❖ Nhược điểm: Cần nhiều công sức thiết lập khung mẫu chi tiết
của từng tầng.
d) Chọn mẫu chùm
B1. Xác định các chùm. Chùm thường được hình thành bởi các
các thể tập hợp gần nhau và thường có chung một số đặc điểm
(gia đình, làng xã, trường học…).
B2. Lập danh sách tất cả các chùm.
B3. Chọn ngẫu nhiên một số chùm vào mẫu.
B4. Chọn đối tượng nghiên cứu. Một là, tất cả các cá thể trong
các chùm đã chọn sẽ được nghiên cứu. Hai là, liệt kê danh
sách các cá thể rong các chùm đã chọn và áp dụng phương
pháp chọn mẫu ngẫu nhiên đơn hoặc ngẫu nhiên hệ thống
trong mỗi chùm để chọn các cá thể vào mẫu.
e) Chọn mẫu nhiều tầng: (Sinh viên tự tham khảo)
1.3. Các dặc trưng về dữ liệu và thang đo
a) Các loại dữ liêu: Có 2 loại
▪ Dữ liệu định tính là thông tin bao gồm dạng thuộc tính, tính
chất,danh gọi của đối tượng được khảo sát.
▪ Dữ liệu định lượng là thông tin được biểu thị dưới dạng trị số,
giá trị số của sự đo, đếm đối tượng được khảo sát.
❖ Ví dụ: Chẳng hạn, xét giá bán của sản phẩm được phân theo
từng loại như trong bảng sau:
Loại sản phẩm Loại I Loại II Loại III
Giá bán(1000đ/kg) 50 45 30
• Dữ liệu định tính là thông tin sản phẩm về phân loại: loại
I, loại II, loại III.
• Dữ liệu định lượng là thông tin về giá bán: 50, 45, 30
(nghìn đồng).
b) Thang đo lường
▪ Thang đo định danh: là thang đo chỉ dùng trong dữ liệu định tính.
Dữ liệu dùng thang đo này bao gồm tên, nhãn hiệu, thuộc tính hay
tính chất.
▪ Thang đo thứ bậc: là thang đo được dùng cho cả dữ liệu định tính
và định lượng. Dữ liệu dùng thang đo này sẽ có sắp xếp thứ hạng,
tuy nhiên phép toán hiệu sẽ không mang ý nghĩa gì.
❖ Ví dụ: Xếp loại xăng được sử dụng phổ biến trên thị trường là:
1. A92 2. A95 3. E5.
• Các mã số A92, A95, E5 chỉ là nhãn để gán cho loại xăng
nên là thang đo định danh.
• Các trị số 1, 2, 3 có ý nghĩa thứ hạng về lượng bán ra, nhiều
nhất sẽ là xăng A92 và hiệu giữa các trị số này sẽ không có ý
nghĩa gì trong tính toán. Đây là các trị số dùng trong thang
đo thứ bậc.
▪ Thang đo khoảng: Là thang đo chỉ dùng cho dữ liệu định lượng,
thang đo này thể hiện được sự sắp xếp thứ bậc, phép toán hiệu được
định nghĩa, tuy nhiên phép nhân lại không có ý nghĩa trong tính
toán. Có một đặc điểm dễ nhận ra ở thang đo này là số 0 đơn thuần
chỉ thể hiện một vị trí trong thang đo.
❖ Ví dụ: Nhiệt độ đóng băng của nước là 00 𝐶, ở đây nó chỉ vị trí
nhiệt độ mà tại đó nước đóng băng và đây không phải là số 0 thật
sự. Vì nếu xét về một đơn vị khác, như Kelvin thì vị trí nhiệt độ này
là 273,150 𝐾 hay 320 F nếu dùng thang đo Fahrenheit. Nói nhiệt độ
cao nhất hôm nay ở Tp HCM là 320C, Hà Nội là 280C và ở Cần
Thơ là 360C, ở đây mức nhiệt độ cao nhất ở Cần Thơ cao hơn HCM
là 40C, ở HCM cao hơn Hà Nội là 40C. Sự chênh lệch nhiệt độ này
là có ý nghĩa về mặt tính toán, hai giá trị 40C thể hiện các mức
chênh lệch này là như nhau.
▪ Thang đo tỉ lệ: là thang đo chỉ dùng cho dữ liệu định lượng, nó cũng
tương tự như thang đo khoảng nhưng bổ sung thêm tính chất của số
0, số 0 sẽ là số không thật sự. Tỉ số giữa các số liệu sẽ có ý nghĩa.
❖ VíCả dụ: Doanh
hai dữ nămcủa
liệu vềthu một công
và doanh quadữmột
thu đềutythuộc liệusố năm
định được
lượng. Các ghi nhận
số liệu lại
về năm:
1998, 1999, 2013, Năm 1998thuộc1999
2014, 2015, 2016 về thang đo khoảng,
2013 2014chỉ có phép toán
2015 2016hiệu là có ý
nghĩa. Hiệu Triệu USD 0,8đến 2013
1,0 là cách
11nhau 13,1
2013 -1999 = 14 năm, từ năm 1999 14 năm, 15 18
•bảngCảdữhai
liệu dữ
đã bỏliệu
số liệu
vềcủa
năm13 năm, từ năm 2000
và doanh thu đến
đều2012. Dữ dữ liệu định lượng.
thuộc
Các số liệu về năm: 1998, 1999, 2013, 2014, 2015, 2016 thuộc về
liệu thứ hai về doanh thu (triệu USD) thuộc về thang đo tỉ lệ. Hiệu 11-1 = 10 triệu USD, tỉ số
thang đo khoảng, chỉ có phép toán hiệu là có ý nghĩa.
11:1 = 11 đều có ý nghĩa. Thấy rằng đơn vị doanh thu (triệu USD) sẽ có số không thật sự,
•nghĩa
Hiệu 2013
là 0 triệu USD -1999 = 14vớinăm,
đồng nghĩa không từ năm thu,
có doanh 1999 đến02013
0 USD, VND,..làSau
cách nhau
đây ta 14
xét đến
mẫunăm, bảng
ứng với từng dữ
loại liệu đã bỏ số liệu của 13 năm, từ năm 2000 đến 2012.
dữ liệu.
• Dữ liệu thứ hai về doanh thu (triệu USD) thuộc về thang đo tỉ lệ.
Hiệu 11-1 = 10 triệu USD, tỉ số 11:1 = 11 đều có ý nghĩa. Thấy rằng
đơn vị doanh thu sẽ có số 0 thật sự, nghĩa là 0 triệu USD đồng nghĩa
với không có doanh thu, 0 USD, 0 VND,..
c) Mẫu định tính và mẫu định lượng
▪ Mẫu định tính:
Đó là mẫu mà ta chỉ quan tâm đến các phần tử của nó có tính chất
A nào đó hay không. Trong trường hợp này mẫu được cho dưới
dạng:
• Kích thước mẫu: n
• Số phần tử có tính chất A: k
𝑘
• Tỉ số 𝑓𝑛 = gọi là tỷ lệ mẫu.
𝑛
▪ Mẫu định lượng:
Đó là mẫu mà ta cần quan tâm đến một yếu tố về lượng của các
phần tử. Yếu tố về lượng là yếu tố mà có thể cân, đo, đong, đếm
được và có kèm theo đơn vị, chẳng hạn như: độ dài, khối lượng,
nhiệt độ, độ ẩm, thời gian, thu nhập, giá bán,...
1.4. Các phương pháp trình bày mẫu
a) Bảng phân phối tần số, tần suất: Xét mẫu ngẫu nhiên rời rạc kích
thước 𝑛 nhỏ cho dấu hiệu 𝑋 của tổng thể, gồm các giá trị quan sát
(𝑥1 , 𝑥2 , , … , 𝑥𝑛 ) trong đó có đúng k giá trị phân biệt sắp xếp theo thứ
tự tăng dần 𝑥1 , 𝑥2 , , … , 𝑥𝑛 (𝑘 < 𝑛), số lần xuất hiện 𝑥𝑖 là 𝑛𝑖 và 𝑛1 +
⋯ + 𝑛𝑘 = 𝑛. Khi đó, có thể lập bảng phân phối tần số :
𝑋 𝑥1 𝑥2 … 𝑥𝑘
𝑛𝑖 (tần số) 𝑛1 𝑛2 … 𝑛𝑘
𝑛𝑖 𝑛𝑖
Gọi 𝑝𝑖 = = là tần suất xuất hiện 𝑥𝑖 . Khi đó ta có thể
𝑛1 +⋯+𝑛𝑘 𝑛
trình bày mẫu ở dạng bảng sau gọi là bảng phân phối tần suất:
𝑋 𝑥1 𝑥2 … 𝑥𝑘
𝑝𝑖 (tần suât) 𝑝1 𝑝2 … 𝑝𝑘
❖ Biểu diễn hình học của mẫu: Từ dữ liệu ở bảng phân phối, vẽ
đường gấp khúc nối các điểm (𝑥𝑖 ; 𝑛𝑖 ) hay (𝑥𝑖 ; 𝑝𝑖 ), 𝑖 = 1, 𝑘 trong
mặt phẳng tọa độ ta được đường gấp khúc tần số hay tần suất.
❖ Ví dụ
Đường kính 𝑋 (đơn vị tính cm) của mẫu 50 quả thanh long
chọn ngẫu nhiên trong một nhà vườn, có kết quả như sau:
7 7 6 8 7 9 6 8 11 5
9 7 11 5 9 11 6 7 7 8
11 7 8 7 9 10 10 6 7 8
9 6 8 7 7 6 11 10 9 12
9 10 9 7 8 9 8 8 9 8
Lập bảng phân phối tần số, tần suất và biểu đồ của mẫu.
𝑿(𝐜𝐦) 5 6 7 8 9 10 11 12
Bảng phân phối tần số:
𝒏𝒊 2 6 12 10 10 4 5 1

𝑿(𝐜𝐦) 5 6 7 8 9 10 11 12
Bảng phân phối tần suất: 𝒑𝒊 𝟐 𝟔 𝟏𝟐 𝟏𝟎 𝟏𝟎 𝟒 𝟓 𝟏
𝟓𝟎 𝟓𝟎 𝟓𝟎 𝟓𝟎 𝟓𝟎 𝟓𝟎 𝟓𝟎 𝟓𝟎
Biểu đồ tần số
Biểu đồ tần suất

𝟏𝟐Τ𝟓𝟎

𝟔Τ𝟓𝟎
b) Bảng phân bố ghép lớp (khoảng)
Khi mẫu có kích thước lớn hoặc các giá trị tương đối nhiều và gần
nhau ta thường phân hoạch miền giá trị của biến X thành nhiều lớp
(khoảng) sao cho mỗi số liệu mẫu rơi vào đúng một lớp. Có nhiều
cách chia lớp khác nhau với độ rộng của mỗi lớp không nhất thiết
phải bằng nhau nhưng thông thường người ta hay lấy bằng nhau để
dễ so sánh.
Ví dụ: Một mẫu điều tra về thời hạn sử dụng an toàn 𝑋 (đơn
vị: tháng) một loại dược phẩm được có thể biểu diễn bởi một
bảng phân phối tần số ghép lớp như sau:

X [13-14) [14-15) [15-16) [16-17) [17-18) [18-19) [19-20]


Số sản phẩm 43 17 15 11 9 5 3
Bảng phân phối tần suất có thể minh họa bằng biểu đồ tần suất
trong mặt phẳng tọa độ. Bằng cách dựng các hình chữ nhật
vuông góc với trục hoành, diện tích bằng tần số (hay tần suất)
còn chiều rộng là độ rộng tương ứng của lớp đó.

50 Biểu đồ cột và đường gấp khúc tần suất


40
30
20
10
0
13-14 14-15 15-16 16-17 17-18 18-19 19-20
c) Hàm phân phối thực nghiệm: Cho mẫu kích cỡ n của biến ngẫu
nhiên X có phân phối:
𝑋 𝑥1 𝑥2 … 𝑥𝑘
𝑛𝑖 (tần số) 𝑛1 𝑛2 … 𝑛𝑘
𝑝𝑖 (tần suât) 𝑝1 𝑝2 … 𝑝𝑘
• Hàm phân phối thực nghiệm của X là hàm xác định bởi công thức:
෌𝑥 <𝑥 𝑛𝑖
𝑖
𝐹𝑛 𝑥 = = σ𝑥𝑖<𝑥 𝑝𝑖 , 𝑥 ∈ 𝑅.
𝑛
• Nếu mẫu cho dưới dạng bảng phân phối ghép lớp thì ta tính tần số
cộng dồn 𝑛𝑖 tại các đầu mút của mỗi lớp rồi nối các điểm (𝑥𝑖 ; 𝑛𝑖 )
lại với nhau ta được hình ảnh hàm phân phối thực nghiệm.
• Với mỗi giá trị của n ta được một hàm phân phối thực nghiệm. Khi
𝑛 → ∞ các hàm phân phối thực nghiệm tiến dần tới hàm phân phối
lý thuyết cần tìm (là xấp xỉ của hàm phân phối lý thuyết).
1.5. Các đặc trưng của mẫu
a) Kỳ vọng, phương sai và độ lệch của mẫu ngẫu nhiên:
Cho 𝑋 = 𝑋1 , 𝑋2 , … , 𝑋𝑛 là mẫu ngẫu nhiên. Ta ký hiệu và định
nghĩa:
▪ Kỳ vọng mẫu (Trung bình mẫu):
𝑋1 +𝑋2 +⋯+𝑋𝑛 1 𝑛

𝑋= = σ𝑖=1 𝑋𝑖 ;
𝑛 𝑛
1 𝑛
▪ Phương sai mẫu: ƶ 2
𝑆𝑥 = σ𝑖=1 𝑋𝑖 − 𝑋᪄ 2
;
𝑛

▪ Độ lệch mẫu: 𝑆ƶ𝑥 = 𝑆ƶ𝑥2 ;


▪ Phương sai mẫu hiệu chỉnh:
𝑛 1
2
𝑆𝑥 = ƶ 2
𝑆𝑥 = σ𝑛𝑖=1 𝑋𝑖 − 𝑋᪄ 2 ;
𝑛−1 𝑛−1
▪ Độ lệch mẫu hiệu chỉnh: 𝑆𝑥 = 𝑆𝑥2 .
b) Kỳ vọng, phương sai và độ lệch của mẫu cụ thể:
Khi mẫu ngẫu nhiên X nhận giá trị cụ thể cho trong bảng phân phối
tần suất:
𝑋 𝑥1 𝑥2 … 𝑥𝑘
𝑛𝑖 (tần số) 𝑛1 𝑛2 … 𝑛𝑘
thì các đặc trưng của mẫu mẫu nhận giá trị cụ thể:
𝑛1 𝑥1 +𝑛2 𝑥2 +⋯.+𝑛𝑘 𝑥𝑘 σ𝑘
𝑖=1 𝑛1 𝑥𝑖 1
▪ Trung bình mẫu: 𝑥᪄ = = = σ𝑘𝑖=1 𝑛𝑖 𝑥𝑖 ;
𝑛1 +𝑛2 +⋯+𝑛𝑘 σ𝑘
𝑖=1 𝑛𝑖 𝑛
1 𝑘 1 𝑘
▪ Phương sai mẫu: 𝑠ƶ𝑥2 = σ𝑖=1 𝑛𝑖 𝑥𝑖 − 𝑥᪄ 2 = σ𝑖=1 𝑛𝑖 𝑥𝑖2 − 𝑥᪄ 2 ;
𝑛 𝑛
▪ Độ lệch mẫu: 𝑠ƶ𝑥 = 𝑠ƶ𝑥2 ;
𝑛 1
▪ Phương sai mẫu hiệu chỉnh: 𝑠𝑥2 = 𝑠ƶ𝑥2 = σ𝑘𝑖=1 𝑛𝑖 𝑥𝑖 − 𝑥᪄ 2 ;
𝑛−1 𝑛−1
▪ Độ lệch mẫu hiệu chỉnh: 𝑠𝑥 = 𝑠𝑥2 .
❖ Đặc biệt: Nếu mẫu ngẫu cụ thể cho dưới dạng ghép lớp
𝑿 [𝒂𝟏 ; 𝑎2 ) [𝒂𝟐 ; 𝑎3 ) … [𝒂𝑘 −𝑎k+1 )
𝒏𝒊 𝒏𝟏 𝒏𝟐 … 𝒏𝒌
𝒂 +𝒂
Ta đặt 𝑥𝑖 = 𝒊 𝑖+1 là trung điểm lớp thứ i, nó được xem là giá trị
2
đại diện của mỗi lớp rồi đưa bảng phân bố tần số về dạng quen
thuộc để tính:
𝑿 𝑥1 𝑥2 … 𝑥k
𝒏𝒊 𝒏𝟏 𝒏𝟐 … 𝒏𝒌
c) Các đặc trưng khác của mẫu cụ thể:
❑ Mode mẫu (Kí hiệu là Mo)
• Nếu mẫu cho dưới dạng bảng phân bố tần số thì mode là giá trị
của mẫu ứng với tần số lớn nhất.
• Nếu mẫu cho dưới dạng bảng phân bố ghép lớp thì khoảng mode
là khoảng có tần số lớn nhất.
❖ Ví dụ:
• Một cửa hàng muốn dự trữ hàng hóa đúng nhu cầu của người
mua thì phải tìm hiểu loại hàng nào khách hàng hay hỏi mua
nhất.
• Thống kê số người mắc bệnh theo độ tuổi thì độ tuổi có nhiều
người mắc bệnh thường được quan tâm hơn là độ tuổi trung bình
mắc bệnh.
❑ Số trung vị (Median)
Xét mẫu cụ thể kích thước 𝑛 cho dấu hiệu 𝑋 của tổng thể, gồm các giá trị
quan sát (𝑥1 , 𝑥2 , , … , 𝑥𝑛 ). Trung vị hay median của mẫu, ký hiệu Med được
xác định như sau:
• Nếu n lẻ thì: 𝑀ⅇ𝑑 = 𝑥(𝑛+1)/2 ;
• Nếu n chẵn thì: 𝑀ⅇ𝑑 = 𝑥𝑛 ; 𝑥𝑛+1
2 2
❖ Ví dụ 1:
• Mẫu (𝑥1 , 𝑥2 , 𝑥3 , 𝒙𝟒 , 𝑥5 , 𝑥6 , 𝑥7 ) có trung vị 𝑀ⅇ𝑑 = 𝑥(7+1)/2 = 𝒙𝟒 .
• Mẫu (𝑥1 , 𝑥2 , 𝑥3 , 𝒙𝟒 , 𝒙𝟓 , 𝑥6 , 𝑥7 , 𝑥8 ) có trung vị 𝑀ⅇ𝑑 = 𝒙𝟒 ; 𝒙𝟓 .
❖Chú ý: Nếu mẫu cho dưới dạng bảng phân phối lớp ghép:
• Bước 1: Tìm khoảng trung vị là tìm khoảng thứ k với k là chỉ số bé
nhất thỏa mãn: 𝑛1 + 𝑥2 + ⋯ + 𝑥𝑘 ≥ 𝑛/2.
• Bước 2: Tìm đường 𝑥 = 𝑀ⅇd chia đôi diện tích của biểu đồ tần số.
Me là trung vị cần tìm.
❖ Ví dụ
Một mẫu số liệu điểm thi (X) môn XSTK của sinh viên ĐHGT:
X 1 2 3 4 5 6 7 8 9 10
ni 3 9 1 9 8 8 1 2 6 4
Tính các đặt trưng mẫu cho 𝑋.
• Cỡ mẫu: n = σki=1 ni = 3 + 9 + 1 + 9 + 8 + 8 + 1 + 2 + 6 + 4 = 51.
3.1+7.2+5.3+6.4+5.5+8.6+4.7+2.8+6.9+4.10
• Trung bình: 𝑥ҧ = ≈ 5,1961.
51
1
• Phương sai: sƶ x2 = σki=1 ni xi2 − x᪄ 2
n
3.1 +9.2 +1.3 +9.42 +8.52 +8.62 +1.72 +2.82 +6.92 +4.102
2 2 2
= − 5,19612 = 7,1772.
50
2 n 2 50
• Phương sai hiệu chỉnh: sx = sƶ = . 7,1772 ≈ 7,3207.
n−1 x 50−1
• Độ lệch hiệu chỉnh: sx = sx2 ≈ 2,70569.
• Mode mẫu: M0 = 2 và M0 = 4 (ứng với tần số lớn nhất).
• Trung vị mẫu: Mⅇd = x25 = x26 = 5.
❑ Hướng dẫn dùng máy tính CASIO fx 580 VN X:
Bước 1. Bật cột tần số:
▪ Bấm lần lượt các phím SHIFT, MENU và ▼
▪ Bấm phím 3 để chọn Statistics
▪ Bấm phím 1 để chọn On / Bật cột tần số.
Bước 2. Bấm phím MENU rồi bấm phím 6 để chọn Statistics
Bước 3. Bấm phím 1 để chọn 1-Variable (Hiện bảng phân phối tần số)
Bước 4. Nhập giá trị vào Bảng phân phối.
Bước 6. Bấm phím OPTN rồi bấm phím 3 để chọn 1-Variable Calc
để đọc kết quả (Để xem hết được các kết quả thống kê có thể dùng
phím mũi tên ▼và ▲ để dịch chuyển)
❖ Chú ý:
• Để quay lại chỉnh sửa Bảng phân phối thì bấm OPTN.
• Để lấy dữ liệu thống kê cho phép tính liên quan bấm OPTN ▼ 2
❖ Các ký hiệu trên máy CASIO:
• ΣX = σki=1 𝑛𝑖 𝑥𝑖
• Σ𝑋 2 = σki=1 ni xi2
• Σ𝜎 2 𝑋: Phương sai: sƶ x2
• 𝜎𝑋: Độ lệch sƶ 𝑥 = sƶ x2
• 𝑆 2 𝑋: Phương sai hiệu chỉnh: sx2
• SX: Độ lệch hiệu chỉnh 𝑠𝑥
• n : Kích thước mẫu
• min(X): GTNN của X
• max(X): GTLN của X
• Q1: Tứ phân vị thứ nhất
• Med: Trung vị mẫu: Mⅇ
• Q3: Tứ phân vị thứ hai
❑ Hướng dẫn dùng máy tính CASIO fx 570 ES Plus:
Bước 1. BMở chức năng thống kê:
▪ Bấm lần lượt các phím SHIFT MODE ▼
▪ Bấm phím 4 để chọn Statistics
▪ Bấm phím 1 để chọn On để bật chức năng thống kê
Bước 2. Bấm phím MODE rồi bấm phím 3 để chọn STAT
▪ Bấm 1 để chọn bảng 1 chiều (Cột dữ liệu X và cột tần số)
▪ Bấm 2 chọn bảng 2 chiều (Cột dữ liệu X,Y và cột tần số)
Bước 3. Nhập giá trị vào Bảng phân phối rồi bấm AC
Bước 4. Lấy kết quả ta bấm SHIFT 1 4
▪ Chọn số liệu cần tính và bấm =
❖ Chú ý:
• MODE rồi bấm phím 3
• Ký hiệu 𝜎𝑛−1 là độ lệch hiệu chỉnh 𝑠𝑥
Đọc thêm

❑ Hướng dẫn sử dụng Excel trong thống kê mô tả


Bước 1: Tải file RealStats.xlam
Bước 2: Mở chương trình excel và sau đó chạy file RealStats.xlam.
Khi đó trên menu của excel xuất hiện Real Statistics. Nhấp vào Real
Statistics hoặc nhấn tổ hợp phím Ctrl - m, chọn Frequency Table.
Đọc thêm

Bước 3:
• InputRange: chọn vùng dữ liệu (dữ liệu dạng cột, cột giá trị đứng
trước, tần số đứng sau)
• Chọn Raw data nếu dữ liệu thô, Frequency Table nếu dữ liệu dạng
bảng tần số.
• Chọn Descriptive stats (thống kê mô tả)
• OutputRange : Chọn vị trí chứa kết quả
Đọc thêm
❖ Kết quả như bảng sau:
Descriptive Statistics
1
Mean 814 ᪄
Trung bình 𝑋 = σ𝑛𝑖 𝑥𝑖
𝑛
𝑆𝑥
Standard Error 0,023906 Sai số chuẩn:
𝑛

Median 8 Trung vị
Mode 7 Mốt
Standard Deviation 0,169043 Độ lệch chuẩn 𝑠𝑥 = 𝑠𝑥2
Phương sai mẫu (hiệu chỉnh)
Sample Variance 0,028576 2
𝑠𝑥 =
1
σ𝑘𝑖=1 𝑛
𝑛−1
Kurtosis −0,507937 Độ nhọn
Skewness 0,299501 Độ nghiêng
Đọc thêm

Range 0,7 Khoảng biến thiên: xmax − xmin


Maximum 12 Giá trị lớn nhất của 𝑋
Minimum 5 Giá trị nhỏ nhất của 𝑋
Sum 2612 Tổng: σ𝑛𝑖 𝑥𝑖
Count 50 Kích thước mẫu: 𝑛
𝑛 𝑛 𝑛
Geometric Mean 811379 Trung bình nhân: 𝑥1 1 … 𝑥𝑘 𝑘
𝑛
Trung bình điều hòa: 𝑛1 𝑛
Harmonic Mean 808771 +⋯+ 𝑘
𝑥1 𝑥𝑘

AAD 0,1368
MAD 0,1
IQR 0,2
Đọc thêm
❖ Ví dụ
Một hãng sản xuất một loại sản phẩm công bố rằng thời gian
hoạt động tốt 𝑋 (đơn vị: tháng) của sản phẩm của họ trong
điều kiện bình thường trung bình phải tới 26,3 tháng. Một
mẫu điều tra về thời gian hoạt động tốt của một số sản phẩm
đã qua sử dụng của hãng này được cho trong bảng sau:
X [23-24) [24-25) [25-26) [26-27) [27-28) [28-29) [29-30]
Số sản phẩm 7 25 45 60 43 16 4
Hãy tính các đặt trưng mẫu cho 𝑋.

𝑎𝑖 +𝑎𝑖+1
Giải. Đặt 𝑥𝑖 = . Ta có mẫu thu gọn sau :
2

X 23,5 24,5 210 26,5 27,5 28,5 29,5


Số sản phẩm 7 25 45 60 43 16 4
Đọc thêm

Chạy Excel, ta có kết quả :


Mean 26,355 Trung bình mẫu: 𝑥᪄ = 26,355
Standard Deviation 1,3201 Độ lệch chuẩn (hiệu chỉnh)
𝑠𝑥 = 1,3201
Sample Variance 1,7427 Phương sai mẫu (hiệu chỉnh)
𝑠𝑥2 = 1,7427
Count 200 Kích thước mẫu: 𝑛 = 200
§2. Ước lượng tham số
2.1. Các khái niệm về ước lượng
a) Ước lượng:
Ước lượng là dự đoán giá trị chưa biết dựa vào quan sát (thường là
quan sát lấy mẫu). Có hai hình thức ước lượng đó là:
• Ước lượng điểm;
• Ước lượng khoảng tin cậy.
Trong bài này chúng ta ước lượng ba tham số đặc trưng chưa biết của
tổng thể đó là:
• Trung bình 𝜇 = 𝐸(𝑋);
• Phương sai 𝜎 2 = 𝐷(𝑋);
• Tỉ lệ 𝑝 = 𝑃(𝐴) (tỉ lệ các phần tử có tính chất 𝐴 của tổng thể).
Nghĩa là dự đoán trung bình, phương sai, xác suất của tổng thể
thông qua các mẫu cụ thể.
b) Ước lượng điểm:
Cho 𝑋1 , … , 𝑋𝑛 là mẫu ngẫu nhiên kích cỡ 𝑛. Giả sử 𝜃 là một tham
số đặc trưng của tổng thể mà ta chưa biết. Dựa vào mẫu, tìm được số
𝜃෠ = 𝜃෠ 𝑋1 , … , 𝑋𝑛 gần bằng 𝜃. Khi đó, số 𝜃෠ gọi là ước lượng điểm của 𝜃.
Ước lượng này có thể tốt hoặc không tốt, tùy vào hàm mà ta chọn.
Khi mẫu ngẫu nhiên 𝑋1 , … , 𝑋𝑛 nhận giá trị là các mẫu cụ thể khác
nhau thì ta được các ước lượng 𝜃෠ là khác nhau. Từ đó ta thấy ước lượng
𝜃෠ = 𝜃෠ 𝑋1 , … , 𝑋𝑛 của 𝜃 là một biến ngẫu nhiên. Hàm 𝜃෠ = 𝜃෠ 𝑋1 , … , 𝑋𝑛
còn gọi là một thống kê của mẫu ngẫu nhiên 𝑋1 , … , 𝑋𝑛 .
Để 𝜃෠ là ước lượng tốt cho 𝜃 thì 𝜃෠ phải thỏa các tính chất sau:
▪ Tính không chệch: 𝜃෠ được gọi là ước lượng không chệch của 𝜃
nếu 𝐸 𝜃෠ = 𝜃. Trái lại, ta gọi là ước lượng chệch.
▪ Tính vững: 𝜃෠ được gọi là ước lượng vững của tham số 𝜃 nếu với
mọi 𝜀 > 0 cho trước tùy ý ta có: 𝑙𝑖𝑚 𝑃[|𝜃ƶ − 𝜃| < 𝜀] = 1. ( 𝜃ƶ hội
𝑛→∞
tụ theo xác suất tới 𝜃 ).
▪ Ý nghĩa thực hành: Khi kích thước mẫu 𝑛 đủ lớn thì 𝜃෠ ≈ 𝜃.
▪ Tính hiệu quả: Thống kê 𝜃෠ được gọi là ước lượng hiệu quả của 𝜃
nếu nó là ước lượng không chệch và có phương sai bé nhất trong
các ước lượng không chệch của 𝜃.
▪ Ngoài ra, đôi lúc ta còn quan tâm đến tính đầy đủ thông tin, chẳng
hạn như trung vị chỉ quan tâm đến một hoặc hai phần tử ở giữa,
còn trung bình thì sử dụng tất cả dữ liệu mẫu.
❖ Người ta chứng minh được rằng:
• Trung bình mẫu 𝑥, ᪄ phương sai mẫu hiệu chỉnh 𝑠𝑥2 , tỉ lệ mẫu 𝑓𝑛
tương ứng là ước lượng không chệch, vững của 𝜇, 𝜎 2 , 𝑝.
• Phương sai mẫu 𝑠ƶ 2 là ước lượng chệch, vững của 𝜎 2 .
• Nếu 𝑋~𝑁 𝜇, 𝛿 2 thì trung bình mẫu 𝑋᪄ là ước lượng hiệu quả
cho 𝜇.
c) Ước lượng khoảng tin cậy:
Giả sử tổng thể có tham số 𝜃 chưa biết. Ta nói 𝜃 có khoảng uớc lượng
(hay khoảng tin cậy) là 𝜃1 , 𝜃2 với độ tin cậy 1 − 𝛼 cho trước nếu:
𝑃 𝜃1 < 𝜃 < 𝜃2 = 1 − 𝛼.
Khi đó:
• 𝜃2 − 𝜃1 gọi là độ dài của khoảng ước lượng;
𝜃2 −𝜃1
• 𝜀= gọi là độ chính xác của ước lượng.
2
Như vậy, độ tin cậy chính là xác suất mà khoảng ước lượng 𝜃1 , 𝜃2
chứa tham số 𝜃. Thông thường ta xét độ tin cậy 1 − 𝛼 khá lớn,
khoảng từ 90% đến 99%.
Trong phần này, chúng ta tìm khoảng tin cậy cho các số đặc trưng
của tổng thể như: trung bình 𝜇, phương sai 𝜎 2 , tỉ lệ 𝑝; xác định cỡ
mẫu 𝑛 và xác định độ tin cậy 1 − 𝛼.
2.2. Bài toán ước lượng khoảng tin cậy cho trung bình μ
a) Đặt bài toán:
▪ Giả sử biến quan sát 𝑋 có phân phối chuẩn, tức là 𝑋 ∼ 𝑁 𝜇, 𝜎 2 ,
trong đó giá trị trung bình 𝜇 chưa biết.
▪ Hãy ước lượng khoảng tin cậy (KTC) cho trung bình 𝜇 với độ tin
cậy 1 − 𝛼 cho trước.
b) Giải quyết bài toán:
▪ Lập mẫu kích thước 𝑛 về biến quan sát 𝑋.
▪ Tính trung bình mẫu 𝑥ഥ .
▪ Tính độ lệch mẫu hiệu chỉnh 𝐬𝐱 (nếu chưa biết phương sai 𝜎).
▪ Kết luận khoảng tin cậy đối xứng của 𝜇 có dạng: (𝑥᪄ − 𝜀; 𝑥᪄ + 𝜀)
tức là 𝜇 = 𝑥᪄ ± 𝜀. Với độ chính xác: 𝜀 được cho bởi bảng công
thức sau:
Trường hợp KTC đối xứng KTC bên KTC bên phải
trái
𝑥ഥ − 𝜀 < 𝜇 < 𝑥ഥ + 𝜀 𝜇 < 𝑥ഥ + 𝜀 𝑥ഥ − 𝜀 < 𝜇
Đã biết 𝜎2 𝜎 𝜎
𝜀 = 𝑍𝛼/2 ;𝜀 = 𝑍𝛼
𝑛 𝑛

Chưa biết 𝜎 2 𝑥ഥ − 𝜀 < 𝜇 < 𝑥ഥ + 𝜀 𝜇 < 𝑥ഥ + 𝜀 𝑥ഥ − 𝜀 < 𝜇


𝑆𝑥 𝑆𝑥
và 𝑛 ≥ 30 𝜀= 𝑍𝛼/2 ; 𝜀= 𝑍𝛼
𝑛 𝑛

Chưa biết 𝜎 2 𝑥ഥ − 𝜀 < 𝜇 < 𝑥ഥ + 𝜀 𝜇 < 𝑥ഥ + 𝜀 𝑥ഥ − 𝜀 < 𝜇


𝑠𝑥 𝑠𝑥
và 𝑛 < 30 𝜀 = 𝑡𝛼/2 (𝑛 − 1) ;𝜀 = 𝑡𝛼 (𝑛 − 1)
𝑛 𝑛
❖ Trong đó:
• 𝑍𝛼 là phân vị bậc 1 − 𝛼 của phân phối chuẩn chính tắc mức 𝛼. Tìm
𝑍𝛼 từ công thức 𝜑 𝑍𝛼 = 0,5 − 𝛼 ⇒ 𝑍𝛼 = 𝜑−1 0,5 − 𝛼 rồi tra
bảng giá trị hàm Laplace.
• 𝑡𝛼 (𝑛) là phân vị bậc 1 − 𝛼 của phân phối Student với 𝑛 bậc tự do,
thỏa 𝑃 𝑋 > 𝑡𝛼 (𝑛) = 𝛼. Tính 𝑡𝛼 (𝑛) nhờ tra bảng phân phối Student.
❖ Lưu ý:
• Trong Excel ta có thể dùng hàm để tính 𝑧𝛼 và 𝑡𝛼 (𝑛):
𝑍𝛼 = 𝑁𝑜𝑟𝑚𝑠𝑖𝑛𝑣 𝛼 với 0,5 ≤ 𝛼 < 1

𝑍𝛼 = 𝑁𝑜𝑟𝑚𝑠𝑖𝑛𝑣(1 − 𝛼) với 0 < 𝛼 < 0,5
𝑡𝛼 (𝑛) = 𝑇𝑖𝑛𝑣(2𝛼, 𝑛).
• Bài toán ước lượng khoảng tin cậy bên trái (bên phải) của 𝜇
= 𝐸(𝑋) thường là bài toán ước lượng giá trị trung bình tối đa
(tối thiểu) của dấu hiệu 𝑋.
• Bằng các phép toán giới hạn, có thể chứng minh được hàm mật
độ của phân bố student hội tụ về hàm Gauss khi bậc tự do 𝑛 dần
đến vô cùng, do đó khi 𝑛 đủ lớn, ta xấp xỉ 𝑡𝛼 (𝑛) ≈ 𝑍𝛼 . Do đó
trong trường hợp chưa biết 𝜎 2 và 𝑛 ≥ 30 ta sử dụng trực tiếp
phân vị 𝑧𝛼/2 , 𝑧𝛼 .
• Trong trường hợp chưa biết được biến quan sát có phân phối
chuẩn, kích thước mẫu 𝑛 cần lớn để thỏa mãn điều kiện định lý
giới hạn trung tâm. Thông thường, ta có thể chấp nhận ở mức
𝑛 ≥ 30 và kết quả xem như kết quả xấp xỉ. Xấp xỉ này tốt khi
phân bố "thực sự” của tổng thể có tính đối xứng.

Chứng minh:
❑Trường hợp phương sai 𝝈𝟐 đã biết:
Giả sử 𝑋 = 𝑋1 , … , 𝑋𝑛 là một mẫu ngẫu nhiên và 𝑋 ∼ 𝑁 𝜇, 𝜎 2 .
Khi đó:
• 𝑋𝑖 ∼ 𝑁 𝜇, 𝜎 2 , 𝑖 = 1, … , 𝑛
1 𝑛 1 𝑛 1

• 𝐸 𝑋 = 𝐸 σ𝑖=1 𝑋𝑖 = σ𝑖=1 𝐸 𝑋𝑖 = . 𝑛 𝜇 = 𝜇.
𝑛 𝑛 𝑛
1 𝑛 1 1 𝜎2
• 𝐷 𝑋᪄ = 𝐷 σ 𝑋𝑖 = 2. σ𝑛𝑖=1 𝐷 𝑋𝑖 = . 𝑛. 𝜎 2 = .
𝑛 𝑖=1 𝑛 𝑛2 𝑛
Áp dụng 2 tính chất sau đây của phân phối chuẩn:
• Nếu 𝑋 ∼ 𝑁 𝜇, 𝜎 2 và 𝑘 là số thực, thì k𝑋 ∼ 𝑁 𝑘𝜇, (𝑘𝜎)2
• Nếu các biến ngẫu nhiên độc lập 𝑋, 𝑌 độc lập và 𝑋 ∼ 𝑁 𝜇𝑋 , 𝜎𝑋2 và
𝑌 ∼ 𝑁 𝜇𝑌 , 𝜎𝑌2 thì 𝑋 + 𝑌 và 𝑋 − 𝑌 là độc lập nhau, hơn nữa:
𝑋 ± 𝑌 ∼ 𝑁 𝜇𝑋 ± 𝜇𝑌 , 𝜎𝑋2 + 𝜎𝑌2 .
Ta có: σ𝑛𝑖=1 𝑋𝑖 ∼ 𝑁 𝑛𝜇; 𝑛𝜎 2
1 𝑛 1 1 𝜎2
⇒ 𝑋᪄ = σ 𝑋𝑖 ∼ 𝑁 𝑛𝜇; 𝑛( 𝜎)2 =𝑁 𝜇; .
𝑛 𝑖=1 𝑛 𝑛 𝑛
𝜎2 𝜎
Suy ra 𝑋᪄ ∼ 𝑁 𝜇; hay 𝑋᪄ ∼ 𝑁 𝜇; ( )2 .
𝑛 𝑛
Ta cần tìm độ chính xác 𝜀 sao cho 𝑋᪄ là ước lượng cho 𝜇 với độ tin cậy
1 − 𝛼 cho trước với, nghĩa là tìm 𝜀 thỏa:
𝑃(𝑋᪄ − 𝜀 < 𝜇 < 𝑋᪄ + 𝜀) = 1 − 𝛼 hay 𝑃(|𝑋᪄ − 𝜇| < 𝜀) = 1 − 𝛼 (*)
Áp dụng công thức xác suất phân phối chuẩn:
𝜀
Nếu Y∼ 𝑁 𝜇𝑌 , 𝜎𝑌2 thì 𝑃 𝑌 − 𝜇𝑌 < 𝜀 = 2𝜑 .
𝜎𝑌
𝜀
ta có: ∗ ⇔ 𝑃 𝑋᪄ − 𝜇 < 𝜀 = 2𝜑 𝜎 = 1 − 𝛼.
𝑛
𝜀 𝑛 1−𝛼 𝛼
⇔ 𝜑 = = 0,5 − .
𝜎 2 2
𝜀 𝑛 𝜎
Đặt = 𝑍𝛼/2 ⇔ 𝜀 = 𝑍𝛼/2 .
𝜎 𝑛
Vậy, ước lượng của 𝜇 với độ tin cậy 1 − 𝛼 có dạng: (𝑋᪄ − 𝜀; 𝑋᪄ + 𝜀).
𝜎
Đối với mẫu cụ thể là 𝑥᪄ − 𝜀; 𝑥᪄ + 𝜀 , độ chính xác là 𝜀 = 𝑢𝛼/2 và
𝑛
𝛼
𝑍𝛼/2 được tìm từ điều kiện 𝜑 𝑍𝛼/2 = 0,5 − .
2
᪄ 2
𝑋−𝜇 𝜎 2 𝜎
Đặt 𝑇 = . Do 𝑋᪄ ∼ 𝑁 𝜇; ( ) ⇒ 𝑋᪄ − 𝜇 ∼ 𝑁 0;
𝜎/ 𝑛 𝑛 𝑛

1 𝜎 2
⇒ 𝑇 ∼ 𝑁 0; 𝜎 . = 𝑁 0,1 .
𝑛
𝑛
𝑏−𝜇𝑌
ADCT: Nếu Y∼ 𝑁 𝜇𝑌 , 𝜎𝑌2 thì 𝑃 Y ≤ 𝑏 = 0,5 + 𝜑( ).
𝜎𝑌
ta có: 𝑃(T ≤ 𝑍𝛼 ) = 0,5 + 𝜑(𝑍𝛼 ).

𝑋−𝜇
Mặt khác: 𝑃(𝑇 ≤ 𝑍𝛼 ) = 1 − 𝛼 ⇔ 𝑃 𝜎 ≤ 𝑍𝛼 = 1 − 𝛼
𝑛
𝜎 𝜎
⇔ 𝑃 𝑋᪄ − 𝜇 ≤ 𝑍𝛼 . = 1 − 𝛼 ⇔ 𝑃 𝑋᪄ − 𝑍𝛼 . ≤ 𝜇 = 1 − 𝛼.
𝑛 𝑛
Vậy với độ tin cậy 1 − 𝛼, khoảng tin cậy bên trái của 𝜇 là 𝑥ഥ − 𝜀 < 𝜇
𝜎
Với 𝜀 = 𝑍𝛼 và 𝑍𝛼 được tìm từ điều kiện 0,5 + 𝜑 𝑍𝛼 = 1 − 𝛼
𝑛
hay 𝜑 𝑍𝛼 = 0,5 − 𝛼.
❑Trường hợp phương sai 𝝈𝟐 chưa biết ta dung phương sai hiệu chỉnh 𝑆𝑥2
của mẫu để thay thế:

𝑋−𝜇
Đặt 𝑇 = thì T có phân phối Student với (n-1) bậc tự do.
𝑠𝑥 / 𝑛
Theo phân phối Student, ta tìm được 𝑡𝛼/2 (𝑛 − 1) thỏa mãn:
𝑃 |𝑇| ≥ 𝑡𝛼/2 (𝑛 − 1) = 𝛼 ⇔ 𝑃 |𝑇| < 𝑡𝛼/2 (𝑛 − 1) = 1 − 𝛼.
Khoảng ước lượng cho kỳ vọng 𝜇 là:
𝑠𝑥 𝑠𝑥
𝑋᪄ − 𝑡𝛼/2 (𝑛 − 1) ᪄
; 𝑋 + 𝑡𝛼/2 (𝑛 − 1)
𝑛 𝑛
𝑠𝑥
với độ chính xác 𝜀 = 𝑡𝛼/2 (𝑛 − 1) .
𝑛
Trong đó 𝑡𝛼/2 (𝑛 − 1) tra từ bảng phân phối Student với (n-1) bậc tự do, mức
ý nghĩa 𝛼/2.
❖ Chú ý: Khi cỡ mẫu 𝑛 > 30, phân phối Student tiệm cận phân phối chuẩn nên
có thể sử dụng 𝑢𝛼/2 thay cho 𝑡𝛼/2 (𝑛 − 1).
❖ Ví dụ
Trọng lượng 𝑋 (kg) của một bao xi măng trong một nhà máy là
biến ngẫu nhiên có phân phối chuẩn. Kiểm tra 100 bao ở phân
xưởng này, có kết quả sau:

𝑿 49 49,2 49,4 49,6 49,8 50 50,2 50,4


Số bao 3 7 10 23 37 14 4 2

a) Với độ tin cậy 97%, hãy ước lượng khoảng tin cậy đối xứng
cho trọng lượng trung bình một bao xi măng ở phân xưởng
này.
b) Với độ tin cậy 98%, hãy cho biết trọng lượng trung bình tối
đa, tối thiểu của một bao xi măng ở phân xưởng này là bao
nhiêu?
❑ Hướng dẫn dùng máy tính CASIO fx 580 VN X:
Bước 1. Bật cột tần số:
▪ Bấm lần lượt các phím SHIFT, MENU và ▼
▪ Bấm phím 3 để chọn Statistics
▪ Bấm phím 1 để chọn On / Bật cột tần số.
Bước 2. Bấm phím MENU rồi bấm phím 6 để chọn Statistics
Bước 3. Bấm phím 1 để chọn 1-Variable (Hiện bảng phân phối tần số)
Bước 4. Nhập giá trị vào Bảng phân phối.
Bước 6. Bấm phím OPTN rồi bấm phím 3 để chọn 1-Variable Calc
để đọc kết quả (Để xem hết được các kết quả thống kê có thể dùng
phím mũi tên ▼và ▲ để dịch chuyển)
❖ Chú ý:
• Để quay lại chỉnh sửa Bảng phân phối thì bấm OPTN.
• Để lấy dữ liệu thống kê cho phép tính liên quan bấm OPTN ▼ 2
a) Với độ tin cậy 97%, hãy ước lượng khoảng tin cậy đối xứng
cho trọng lượng trung bình một bao xi măng ở phân xưởng này.
Giải
Ta có: 𝑛 = 100; 𝑥᪄ = 49,704; 𝑠𝑥 = 0,28353
a) Gọi 𝜇 là trọng lượng trung bình (thực tế) một bao xi măng ở
phân xưởng này.
• Cỡ mẫu 𝑛 = 100 > 30, 𝜎 2 chưa biết.
• Độ tin cậy 1 − 𝛼 = 97% ⇒ 𝛼 = 0,03 ⇒ 𝛼/2 = 0,015
• 𝜑 𝑧𝛼/2 = 0,5 − 𝛼Τ2 = 0,5 − 0,015 = 0,485 ⇒ 𝑧𝛼/2 = 2,170
𝑺𝒙
• Độ chính xác: 𝜺 = 𝒛𝜶/𝟐 . = 0,062
𝒏
• Vậy khoảng tin cậy đối xứng cho 𝜇 là:
(𝑥᪄ − 𝜀; 𝑥᪄ + 𝜀) = (49,642; 49,766).
b) Với độ tin cậy 98%, hãy cho biết trọng lượng trung bình tối đa,
tối thiểu của một bao xi măng ở phân xưởng này là bao nhiêu?
Giải
Ta có: 𝑛 = 100; 𝑥᪄ = 49,704; 𝑠𝑥 = 0,28353
b) Độ tin cậy 1 − 𝛼 = 98% = 0,98 ⇒ 𝛼 = 0,02
⇒ 𝜑 𝑧𝛼 = 0,5 − 𝛼 = 0,50 − 0,02 = 0,48
⇒ 𝑧𝛼 = 2,054
𝑆𝑥
• Độ chính xác: 𝜀 = 𝑧𝛼 = 0,058.
𝑛
• Giá trị trung bình tối đa là: 𝑥᪄ + 𝜀2 = 49,762.
• Giá trị trung bình tối thiểu là: 𝑥᪄ − 𝜀2 = 49,646.
❖ Chú ý: Tra Bảng giá trị hàm Laplace:
𝜑 𝑧𝛼/2 = 0,485 ⇒ 𝑧𝛼/2 = 2,170.
𝜑 𝑧𝛼/2 = 0,495 ⇒ 𝑧𝛼/2 = 2,576.
𝑥 1,645 1,751 1,881 1,960 2,054 2,170 2,326 2,576
𝜑(𝑥) 0,450 0,460 0,470 0,475 0,480 0,485 0,489 0,495
c) Các bài toán ngược:
❑ Bài toán 1: Xác định cỡ mẫu của biến quan sát 𝑿 ∼ 𝑵 𝝁, 𝝈𝟐 .
Mẫu sơ lược hiện tại kích thước 𝑛
Cho biết: ൞Độ tin cậy cần đạt: 1 − 𝛼 . Tìm kích thước mẫu
Độ chính xác mong muốn: 𝜀
cần điều tra 𝑚 (kích thước mẫu cần điều tra thêm là 𝑚 − 𝑛) để đạt
được độ chính xác 𝜀 với mức độ tin cậy 1 − 𝛼.
Cách giải:
• Tính độ lệch hiệu chỉnh 𝑆𝑥 và phân vị chuẩn 𝑍𝛼/2 .
• Với mong muốn tăng kích cỡ mẫu đủ lớn nên ta lấy công thức
𝑆𝑥
tính độ chính xác là: 𝜀 = 𝑍𝛼/2 .
𝑚
• Bình phương hai vế ta rút được công thức xác định 𝑚 như sau:
𝑍𝛼/2 ⋅𝑆𝑥 2
𝑚= + 1 (với 𝑥 là phần nguyên của 𝑥 ).
𝜀
❑ Bài toán 2: Tìm độ tin cậy (Khi lấy 𝑥᪄ ước lượng cho 𝜇) của
biến quan sát 𝑿 ∼ 𝑵 𝝁, 𝝈𝟐 .
Mẫu có kích thước 𝑛
Cho biết: ቊ .
Độ chính xác của ước lượng 𝜇 = 𝑥᪄ ± 𝜀 là 𝜀 đã biết
Tìm độ tin cậy 1 − 𝛼.
Cách giải:
𝑆
• Từ công thức 𝜀 = 𝑍𝛼/2 𝑥 suy ra công thức tính phân vị:
𝑛
𝜀 𝑛
𝑍𝛼/2 = .
𝑆𝑥
𝛼
• Áp dụng công thức 𝜑 𝑍𝛼/2 = 0,5 − ta suy ra công thức
2
tính độ tin cậy:
1 − 𝛼 = 2. 𝜑 𝑍𝛼/2
1 𝑥 −𝑡 2 /2
trong đó 𝜑(𝑥) = ‫׬‬ ⅇ 𝑑𝑡 là hàm Laplace.
2𝜋 0
❖ Ví dụ
Trọng lượng 𝑋 (kg) của một bao xi măng trong một nhà máy là
biến ngẫu nhiên có phân phối chuẩn. Kiểm tra 100 bao ở phân
xưởng này, có kết quả sau:
𝑿(𝒌𝒈) 49 49,2 49,4 49,6 49,8 50 50,2 50,4
Số bao 3 7 10 23 37 14 4 2
a) Để ước lượng khoảng tin cậy đối xứng cho trọng lượng trung
bình một bao xi măng đảm bảo độ tin cậy 99% và độ chính xác
0,02 kg thì cần điều tra thêm bao nhiêu bao xi măng nữa?
b) Để ước lượng khoảng tin cậy đối xứng cho trọng lượng trung
bình một bao xi măng với độ chính xác 0,05 kg thì đảm bảo độ
tin cậy là bao nhiêu?
c) Những bao xi măng có trọng lượng từ 50 kg trở lên được gọi
là đạt chuẩn. Với độ tin cậy 96%, hãy cho biết trọng lượng trung
bình tối đa của những bao xi măng đạt chuẩn là bao nhiêu?
a) Để ước lượng khoảng tin cậy đối xứng cho trọng lượng trung
bình một bao xi măng đảm bảo độ tin cậy 99% và độ chính xác
0,02 kg thì cần điều tra thêm bao nhiêu bao xi măng nữa?
Giải
a) Ta có:
• Kích thước mẫu ban đầu: 𝑛 = 100;
• Độ lệch hiệu chỉnh của mẫu ban đầu 𝑠𝑥 = 0,28353
• Độ chính xác cần đạt 𝜀 = 0,02.
• Độ tin cậy 1 − 𝛼 = 99% ⇒ 𝛼 = 0,01 ⇒ 𝛼/2 = 0,005
⇒ 𝜑 𝑍𝛼/2 = 0,5 − 𝛼Τ2 = 0,5 − 0,005 = 0,495 ⇒ 𝑍𝛼/2 = 2,576
• Kích thước mẫu cần điều tra là:
2
𝑍𝛼/2 ⋅ 𝑠𝑥
𝑚= + 1 = 1333,61 + 1 = 1333 + 1 = 1334.
𝜀
Vậy cần phải điều tra thêm là: 𝑚 − 𝑛 = 1234 bao.
b) Để ước lượng khoảng tin cậy đối xứng cho trọng lượng trung
bình một bao xi măng với độ chính xác 0,05 kg thì đảm bảo độ
tin cậy là bao nhiêu?
Giải
b) Ta có:
• Kích thước mẫu ban đầu: 𝑛 = 100;
• Độ lệch hiệu chỉnh của mẫu ban đầu 𝑠𝑥 = 0,28353.
• Độ chính xác cần đạt 𝜀 = 0,05.
𝜀 𝑛
• ADCT tính phân vị: 𝑍𝛼/2 = = 1,76348.
𝑠𝑥
• ADCT tính độ tin cậy: 1 − 𝛼 = 2𝜑 𝑍𝛼/2 ≈ 0,9222.
Vậy độ tin cậy là: 1 − 𝛼 = 92,22%.
c) Những bao xi măng có trọng lượng từ 50 kg trở lên được gọi
là đạt chuẩn. Với độ tin cậy 96%, hãy cho biết trọng lượng trung
bình tối đa của những bao xi măng đạt chuẩn là bao nhiêu?
Giải
𝑿 (kg) 50 50,2 50,4
Số bao 14 4 2
c) Các đặc trưng mẫu của bao xi măng đạt chuẩn;
• 𝑛 = 20 < 30; 𝑥᪄ = 50,08; 𝑠𝑥 = 0,13611.
• Cỡ mẫu 𝑛 = 20 < 30, 𝜎 2 chưa biết.
• Độ tin cậy 1 − 𝛼 = 96% = 0,96 ⇒ 𝛼 = 0,04
• 𝑡𝛼 𝑛 − 1 = 𝑡0,04 20 − 1 = 𝑡0,04 (19) = 1,850.
𝑆𝑥
• Độ chính xác: 𝜀 = 𝑡𝛼 (𝑛 − 1) = 0,056
𝑛
• Giá trị trung bình tối đa của những bao xi măng đạt chuẩn
là: 𝑥᪄ + 𝜀 = 50,136.
❖ Chú ý: Tra Bảng phân phối Student để tính 𝑡𝛼 𝑛 − 1
Với 𝛼 = 0,04 và 𝑛 = 20. Ta có 𝑡𝛼 𝑛 − 1 = 𝑡0,04 (19) = 1,850.
Chọn dòng 19 và cột 𝛼 = 0,04 .
2.3. Bài toán ước lượng khoảng tin cậy cho tỉ lệ 𝑝
a) Đặt bài toán:
Giả sử trong một tổng thể, mỗi cá thể mang hoặc không mang dấu hiệu A
nào đó. Gọi p (chưa biết) là tỷ lệ cá thể có dấu hiệu A trong tổng thể. Lấy
một mẫu quan sát ngẫu nhiên cỡ n từ tổng thể. Hãy ước lượng giá trị của p.
b) Giải quyết bài toán:
Gọi X là số lượng cá thể có dấu hiệu A trong mẫu n cá thể lấy ra. Ta có ước
𝑋
lượng không chệch cho 𝑝 là tần suất chính là tần suất 𝑓𝑛 = .
𝑛
Ta thấy X~𝐵 𝑛, 𝑝 -phân phối nhị thức nên 𝑓𝑛 ~𝐵 𝑛, 𝑝 . Khi 𝑛 lớn thì 𝑓𝑛 có
𝑝𝑞
phân phối xấp xỉ phân phối chuẩn 𝑁 𝑝,
với 𝑞 = 1 − 𝑝.
𝑛
Vì 𝑝 chưa biết nên phương sai 𝐷(𝑓) cũng chưa biết. Mặt khác, tần suất mẫu
𝑓 là ước lượng vững, không chệch và hiệu quả cho tần suất 𝑝 của tổng thể
nên với 𝑛 đủ lớn, thỏa mãn điều kiện 𝑛𝑓𝑛 > 10 và 𝑛(1 − 𝑓𝑛 ) > 10 ta có thể
𝑝(1−𝑝) 𝑓𝑛 (1−𝑓𝑛 )
xấp xỉ 𝐷(𝑓𝑛 ) = ≈ .
𝑛 𝑛
Ta cần tìm độ chính xác 𝜀 của ước lượng để đạt độ tin cậy 1 − 𝛼,
nghĩa là: 𝑃 𝑓𝑛 − 𝑝 < 𝜀 = 1 − 𝛼. (1)
Áp dụng công thức xác suất phân phối chuẩn:
𝜀
Nếu X∼ 𝑁 𝜇𝑋 , 𝜎𝑋2 thì 𝑃 𝑋 − 𝜇𝑋 < 𝜀 = 2𝜑 .
𝜎𝑋
𝜀
Ta có: 𝑃 𝑓𝑛 − 𝑝 < 𝜀 = 2𝜑 (2)
𝑓𝑛 (1−𝑓𝑛 )
𝑛
𝜀 𝜀 𝛼
Từ (1) và (2): 2𝜑 =1−𝛼⇔𝜑 = 0,5 − .
𝑓𝑛 1−𝑓𝑛 𝑓𝑛 1−𝑓𝑛 2
𝑛 𝑛

𝜀 𝑓𝑛 (1−𝑓𝑛 )
Đặt 𝑍𝛼/2 = ⇔ 𝜀 = 𝑍𝛼/2 .
𝑓𝑛 (1−𝑓𝑛 ) 𝑛
𝑛
𝛼
Với 𝑍𝛼/2 được xác định từ điều kiện 𝜑 𝑍𝛼/2 = 0,5 − . Từ đó ta có:
2
c) Các bước thực hành giải:
▪ Lập mẫu kích thước 𝑛 về tính chất 𝐴, tính được tỉ lệ mẫu 𝑓𝑛 .
𝛼
▪ Tính 𝑍𝛼/2 từ công thức 𝜑 𝑍𝛼/2 = 0,5 − .
2
▪ Kết luận khoảng tin cậy:
𝑓𝑛 1−𝑓𝑛
• Khoảng tin cậy đối xứng: 𝑓𝑛 − 𝜀 < 𝑝 < 𝑓𝑛 + 𝜀 với 𝜀 = 𝑍𝛼/2 . .
𝑛
𝑓𝑛 1−𝑓𝑛
• Khoảng tin cậy bên trái: 𝑝 < 𝑓𝑛 + 𝜀 với 𝜀 = 𝑧𝛼 ⋅ .
𝑛
𝑓𝑛 1−𝑓𝑛
• Khoảng tin cậy bên phải: 𝑓𝑛 − 𝜀 < 𝑝 với 𝜀 = 𝑧𝛼 ⋅ .
𝑛
❖ Lưu ý:
• Bài toán ước lượng khoảng tin cậy bên trái (bên phải) của 𝑝 thường
là bài toán ước lượng giá trị tỉ lệ tối đa (tối thiểu) của tỉ lệ 𝑝
𝑛. 𝑓𝑛 > 5
• Điều kiện cho bài toán ước lượng tỉ lệ là: ቈ .
𝑛 1 − 𝑓𝑛 > 5
❖ Ví dụ
Để điều tra tỷ lệ sinh viên nghiện TikTok (dùng nhiều hơn 2h mỗi
ngày) trong tổng thể 16000 sinh viên ĐHGT. Người ta phỏng vấn
ngẫu nhiên 160 sinh viên và thấy trong số đó có 96 con nghiện.
a) Với độ tin cậy 99%, hãy ước lượng khoảng tin cậy đối xứng
cho tỷ lệ SV nghiện TikTok ở ĐHGT.
b) Với độ tin cậy 96%, hãy cho biết số lượng tối đa, tối thiểu SV
nghiện TikTok trong toàn trường là bao nhiêu?
Giải. a) Gọi p là tỷ lệ sinh viên nghiện TikTok ở ĐHGT.
𝑋 96
Với mẫu cụ thể cho ở trên, ta có: 𝑓𝑛 = = = 0,6.
𝑛 160
Kiểm tra ĐK 𝑛𝑓𝑛 = 96 > 10 và 𝑛 1 − 𝑓𝑛 = 64 > 10 thấy thỏa mãn.
𝛼 1−𝛼 99%
Ta có: 𝜑 𝑍𝛼/2 = 0,5 − = = = 0,495 ⇒ 𝑍𝛼/2 = 2,576.
2 2 2
𝑓𝑛 1−𝑓𝑛
Độ chính xác của ước lượng là: 𝜀 = 𝑍𝛼/2 . = 0,031.
𝑛
Vậy khoảng tin cậy cho ước lượng là: 𝑓𝑛 − 𝜀; 𝑓𝑛 + 𝜀 = 0,569; 0,631 .
b) Gọi 𝑁0 là số lượng sinh viên nghiện TikTok trong tổng thể
16000 sinh viên ĐHGT.
Độ tin cậy 1 − 𝛼 = 96% ⇒ 𝛼 = 0,04 ⇒ 𝑧𝛼 = 1,751
𝑓𝑛 1−𝑓𝑛
Độ chính xác: 𝜀 = 𝑧𝛼 ⋅ = 0,0678
𝑛
𝑁0
Tỉ lệ tối đa là: 𝑝 = = 𝑓𝑛 + 𝜀 = 0,6678 ⇒ max 𝑁0 = 10685
1085
16000
𝑁
Tỉ lệ tối thiểu là: 𝑝 = 0 = 𝑓𝑛 − 𝜀 = 0,5322 ⇒ min 𝑁0 = 8515.
16000
Vậy với độ tin cậy 96% thì số lượng sinh viên nghiện TikTok tối
đa 1085 SV, tối thiểu 8515 SV.
d) Các bài toán ngược:
Bài toán 1: Xác định cỡ mẫu
Biết 1 − 𝛼, 𝜀 tìm kích thước mẫu cần điều tra 𝑚, kích thước mẫu cần
điều tra thêm là 𝑚 − 𝑛 (với 𝑛 là kích thước mẫu hiện tại).
Từ công thức độ chính xác, suy ra công thức xác định 𝑚:
𝑍𝛼/2 2
𝑚= 𝑓𝑛 1 − 𝑓𝑛 + 1.
𝜀

Bài toán 2: Tìm độ tin cậy


Biết 𝜀, 𝑛 tìm độ tin cậy 1 − 𝛼
𝑓𝑛 1−𝑓𝑛
Từ công thức 𝜀 = 𝑧𝛼/2 . , ta suy ra:
𝑛
𝑛
𝑧𝛼/2 = 𝜀 ⋅ ⇒ 1 − 𝛼 = 2𝜑 𝑧𝛼/2
𝑓𝑛 1−𝑓𝑛
❖ Ví dụ
Điều tra tỉ lệ sản phẩm kém chất lượng trong một lô hàng có 10000
sản phẩm, người ta tiến hành kiểm tra ngẫu nhiên 200 sản phẩm,
thấy có 17 sản phẩm kém chất lượng.
a) Nếu muốn ước lượng khoảng tin cậy đối xứng cho tỉ lệ sản
phẩm kém chất lượng trong lô hàng đảm bảo độ tin cậy 97% và
độ chính xác 2% thì cần kiểm tra thêm bao nhiêu sản phẩm nữa?
b) Nếu sử dụng mẫu này và muốn ước lượng khoảng tin cậy đối
xứng cho tỉ lệ sản phẩm kém chất lượng với độ chính xác 3% thì
đảm bảo độ tin cậy là bao nhiêu?
Giải
Kích thước mẫu 𝑛 = 200, kích thước tổng thể 𝑁 = 10000
17
Tỉ lệ mẫu: 𝑓𝑛 = = 0,085
200
Kiểm tra điều kiện 𝑛𝑓𝑛 = 17 > 10 và 𝑛 1 − 𝑓𝑛 = 183 > 10 thỏa mãn.
c) Độ tin cậy 1 − 𝛼 = 97% ⇒ 𝛼 = 0,03 ⇒ 𝑧𝛼/2 = 2,170
Độ chính xác 𝜀 = 0,02. Kích thước mẫu cần điều tra là:
2
𝑍𝛼/2
𝑚= 𝑓𝑛 1 − 𝑓𝑛 + 1 = 915,587 + 1 = 916.
𝜀
Vậy cần phải kiểm tra thêm 𝑚 − 𝑛 = 716 sản phẩm.
d) Độ chính xác 𝜀 = 0,03; 𝑛 = 200; 𝑓𝑛 = 0,085
𝑛
𝑧𝛼/2 =𝜀⋅ = 1,5213 ⇒ 1 − 𝛼 = 2𝜑 𝑧𝛼/2 ≈ 0,8718
𝑓𝑛 1 − 𝑓𝑛
Vậy độ tin cậy cần tìm: 1 − 𝛼 = 87,18%
2.4. Bài toán ước lượng phương sai 𝜎 2
a) Đặt bài toán:
Giả sử biến quan sát 𝑋 ∼ 𝑁 𝜇, 𝜎 2 , có phương sai 𝜎 2 chưa biết. Hãy ước
lượng khoảng tin cậy cho phương sai 𝜎 2 với độ tin cậy 1 − 𝛼 cho trước.
b) Giải quyết bài toán:
Lập mẫu kích thước 𝑛 về biến quan sát 𝑋, từ đó có được phương sai mẫu
hiệu chỉnh 𝑠 2 .
❑ Trường hơp 1: Chưa biết 𝜇 = 𝐸(𝑋)
(𝑛−1)⋅𝑠𝑥2 (𝑛−1)⋅𝑠𝑥2
• Khoảng tin cậy hai phía: 2 (𝑛−1) ; 𝜒2 .
𝜒𝛼/2 1−𝛼/2 (𝑛−1)

(𝑛−1)⋅𝑠𝑥2
• Khoảng tin cậy bên trái : 0; 2 .
𝜒1−𝛼 (𝑛−1)
(𝑛−1)⋅𝑠𝑥2
• Khoảng tin cậy bên phải: 2 ;∞ .
𝜒𝛼 (𝑛−1)
❑ Trường hợp 2: Đã biết 𝜇 = 𝐸(𝑋)
𝑛 𝑛
෌𝑖=1 𝑛𝑖 𝑥𝑖 −𝜇 2 ෌𝑖=1 𝑛𝑖 𝑥𝑖 −𝜇 2
• Khoảng tin cậy hai phía: 2 ; 2 .
𝜒𝛼/2 𝑛 𝜒1−𝛼/2 𝑛

σ𝑛
𝑖=1 𝑛𝑖 𝑥𝑖 −𝜇
2
• Khoảng tin cậy bên trái : 0; 2 (𝑛) .
𝜒1−𝛼
σ𝑛
𝑖=1 𝑛𝑖 𝑥𝑖 −𝜇
2
• Khoảng tin cậy bên phải: 2 (𝑛) ;∞ .
𝜒𝛼
• Trong đó: 𝜒𝛼2 (𝑛) là phân vị của phân phối khi bình phương với 𝑛
bậc tự do thỏa mãn: 𝑃 𝜒 2 > 𝜒𝛼2 (𝑛) = 𝛼. Giá trị 𝜒𝛼2 (𝑛) được tính
bởi tra Bảng phân phối Khi bình phương hoặc hàm Chiinv trong
Excel: 𝜒𝛼2 (𝑛) = 𝐶ℎ𝑖𝑖𝑛𝑣(𝛼, 𝑛).
• Chẳng hạn: 𝑛 = 9, 𝛼 = 5%, 𝜒𝛼2 (𝑛) = 16,91898.
❖ Ví dụ
Trọng lượng 𝑋 (kg) của một bao xi măng trong một nhà máy là
biến ngẫu nhiên có phân phối chuẩn. Kiểm tra 100 bao ở phân
xưởng này, có kết quả sau:
𝑿 49 49,2 49,4 49,6 49,8 50 50,2 50,4
Số bao 3 7 10 23 37 14 4 2
a) Với độ tin cậy 94%, hãy tìm khoảng tin cậy hai phía cho độ
lệch tiêu chuẩn của trọng lượng bao xi măng.
b) Với độ tin cậy 95%, hãy cho biết độ lệch tiêu chuẩn của
trọng lượng bao xi măng tối đa, tối thiểu là bao nhiêu?
Giải
Theo bài, ta chưa biết trọng lượng trung bình thực tế của bao xi
măng 𝜇 = 𝐸(𝑋).
Từ mẫu, tính được: 𝑛 = 100; 𝑠𝑥 = 0,28353.
Từ mẫu, tính được: 𝑛 = 100; 𝑠𝑥 = 0,28353.
a) Độ tin cậy 1 − 𝛼 = 94% ⇒ 𝛼/2 = 0,02; 1 − 𝛼/2 = 0,98.
𝜒𝛼2 (𝑛 − 1) = 𝜒0.02
2
(99) = Chiinv(0.02,99) = 129,9958.
2
2 2
𝜒1−𝛼/2 (𝑛 − 1) = 𝜒0.98 (99) = chiinv(0.98,99) = 72,2880.
Khoảng tin cậy hai phía của 𝜎 2 là:
𝑛−1 ⋅𝑠𝑥2 𝑛−1 ⋅𝑠𝑥2
2 ; 2 = (0,06122; 0,11010).
𝜒𝛼/2 𝑛−1 𝜒1−𝛼/2 𝑛−1

Khoảng tin cậy hai phía của 𝜎 là :


( 0,06122; 0,11010) = (0,24743; 0,33181).
b) Độ tin cậy 1 − 𝛼 = 95% ⇒ 𝛼 = 0,05
2
𝜒𝛼2 𝑛 − 1 = 𝜒0.05 99 = Chiinv 0.05,99 = 123,2252;
2 2
𝜒1−𝛼 (𝑛 − 1) = 𝜒0.95 (99) = Chiinv(0.95,99) = 77,0463.
Độ lệch tiêu chuẩn của trọng lượng bao xi măng tối đa là:

(𝑛 − 1) ⋅ 𝑠𝑥2
2 = 0,3214 kg .
𝜒1−𝛼 (𝑛 − 1)

Độ lệch tiêu chuẩn của trọng lượng bao xi măng tối thiểu là:

(𝑛 − 1) ⋅ 𝑠𝑥2
2 = 0,2541 kg .
𝜒𝛼 (𝑛 − 1)

You might also like