You are on page 1of 49

BÀI 4

THỐNG KÊ SUY DIỄN


Ước lượng và kiểm định giả thuyết
I. ƯỚC LƯỢNG
1.1 Khái niệm
• Ước lượng điểm: Là dùng một tham số thống kê
mẫu đơn lẻ để ước lượng về giá trị thực của tham số
tổng thể.
• Ước lượng khoảng: Là dùng khoảng ước lượng để
ước lượng giá trị thật của trung bình tổng thể

• Ước lượng khoảng có tính tới sự biến thiên của


tham số mẫu (mẫu này so với mẫu khác)
• Chỉ dựa vào một mẫu quan sát.
• Cho biết thông tin về tham số tổng thể có thể có
trị số trong khoảng ước lượng và không bao giờ
chắc chắn 100%
1.2 Một số khái niệm cần nắm
• Độ tin cậy (xác suất)
• P(A<𝜃<B) = 1- α (độ tin cậy)
• α: là hệ số tin cậy
• 𝜃: có thể là trung bình tổng thể 𝜇, hoặc tỉ lệ của tổng
thể P)
• Viết dưới dạng %: 100(1- α)%
• P(A<𝜃<B) = 1- α 90%
95%
99%
• Khoảng tin cậy (a,b)
• Giới hạn dưới : L (Lower limit).
• Giới hạn trên : U (Upper limit).
• Nếu Z là một biến số bình thường chuẩn hóa thì ta
có 2 giá trị tới hạn là zα/2 và -zα/2 .
• Theo định nghĩa P(-Zα/2 ≤ 𝜃 ≤ Zα/2) = 1- α (độ tin cậy)

• ↔ 2.P (0≤ 𝜃 ≤Zα/2) = 1- α


1−α
• → P(0≤ 𝜃 ≤Zα/2) =
2

• Khi độ tin cậy là 0.90 (90%)


1−α 0.9
• Ta có: P(0≤ 𝜃 ≤Zα/2) = = = 0.45
2 2
Bảng Z
• Sử dụng để tra xác suất trong trường hợp tập dữ liệu
có phân phối bình thường, khi đó Z là biến số bình
thường chuẩn hóa
Độ lệch chuẩn

Diện tích hay


Xác suất
• Tra bảng Z
• Tìm phần diện tích bằng 0.45 ta được 1.645
• → Zα/2 = 1.645 (độ lệch chuẩn)
• VD: Khi độ tin cậy 1- α = 0.95 (95%) ta có:
1−α 0.95
• Ta có: P(0≤ 𝜃 ≤Zα/2) = = = 0.475
2 2
• Tra bảng Z , tìm phần diện tích = 0.475 ta được 1.96
• → Zα/2 = 1.96
Thực hành
• Cho độ tin cậy bằng 0.99 (99%). Tìm Zα/2
1−α 0.99
• Ta có: P(0≤ 𝜃 ≤Zα/2) = = = 0.495
2 2
• Tra bảng ngược ta được Zα/2 = 2.58
1.3 Tìm khoảng tin cậy
của trung bình tổng thể

• 1.3.1 Một số khái niệm cần nắm:


– Độ tin cậy : 1-α
– Hệ số tin cậy: α
• Nếu độ tin cậy 95%
→ 1-α = 0.95, thì hệ số tin cậy α = 0.05
• Một số bài toán yêu cầu tìm khoảng ước lượng hay
tìm khoảng tin cậy, hai khái niệm này là tương
đương nhau.
1.3.2 Khoảng tin cậy của trung bình tổng thể

• Bản chất của ước lượng là dựa vào trung bình của
mẫu 𝑥 cộng trừ một khoảng 𝜀 (𝑥 ± 𝜀).
𝝈
– 𝜺 là sai số ước lượng 𝜺 = Z𝜶/2
𝒏
𝜎
• Khi biết σ thì 𝜇 ∈ (𝑥 ± Z𝛼/2 )
𝑛
s
• Khi không biết σ: n  30    ( x  z / 2 )
ns
n  30    ( x  t n 1; / 2 )
n
• t tuân theo phân phối Student với df = n-1
Cách tra bảng t (bảng 2)

 t ( n1; / 2)
• Tra bảng t
• Độ tự do df = n-1
• Hệ số tin cậy α/2
n =18, α = 0.01, t(17, 0.005) = 2.898
n =15, α = 0.05, t(14, 0.025) = 2.145
1.3.4 Công thức

 
• Biết σ x  z / 2    x  z / 2
n n

• Không biết σ (n ≥30) x  z / 2 s    x  z / 2 s


n n

• Không biết σ (n < 30) x  t( n1; / 2) s    x  t( n1; / 2) s


n n
Một số giá trị thường dùng
Ví dụ: Tìm khoảng tin cậy của trung bình tổng
thể biết σ
• Một mẫu n =100, 𝑥 = 29,698, σ = 0,05. Với độ tin cậy
95%, tìm khoảng ước lượng cho trung bình tổng thể.
• Giải: Ta có (1-α)/2 = 0,475 ; Tra bảng ta được Zα/2 =1,96
 
x  z / 2    x  z / 2
n n
29,698  1,96 * 0,05 / 100    29,698  1,96 * 0,05 / 100
29,69    29,71

• Với độ tin cậy 95% trung bình tổng thể được ước lượng
trong khoảng từ 29,69 đến 29,71
Ví dụ: Tìm khoảng tin cậy của trung bình tổng thể
không biết σ (n ≥30)
• Kiểm tra ngẫu nhiên chiều cao của 250 thanh niên 20
tuổi của Tp HCM. Kết quả đo được chiều cao trung bình
𝑥 = 166.5cm; độ lệch chuẩn s = ± 6.4cm. Với độ tin cậy
95% cho biết chiều cao trung bình của thanh niên 20
tuổi Tp HCM?
• Giải: (1-α)/2 = 0.475; Tra bảng ta được Zα/2 = 1,96.
• Công thức: x  z / 2
s
   x  z / 2
s
n n
6,4 6,4
166,5  1,96 *    166,5  1,96 *  165.7    167.29
250 250
• Với độ tin cậy 95% cho thấy chiều cao trung bình của
thanh niên 20 tuổi Tp HCM nằm trong khoảng từ
165,7cm đến 167,29cm
Ví dụ: Tìm khoảng tin cậy của trung bình tổng thể
không biết σ (n <30)

• Một mẫu n = 16, 𝑥 = 952, s = 45. Với độ tin cậy 95%,


tìm khoảng ước lượng của trung bình tổng thể.
• Giải: Ta có α/2=0,025
• t(n-1, α/2)= t(15, 0,025)= 2,1314
S S
• Công thức: x  t( n 1, / 2)    x  t( n 1, / 2)
n n
45 45
952  2,1314    952  2,1314  928,02    975,89
16 16
• Với độ tin cậy 95% trung bình của tổng thể nằm trong
khoảng từ 928,02 đến 975,89
1.4. Tìm khoảng tin cậy của tỉ lệ tổng thể

• P: tỉ lệ tổng thể
• Ps: tỉ lệ mẫu
• 𝜺 là sai số ước lượng

p  ( ps   )

ps (1  ps )
  Z / 2
n
ps (1  ps ) ps (1  ps )
ps  Z / 2  p  ps  Z / 2
n n
Ví dụ
• Chọn ngẫu nhiên 100 người, thấy 25% số người thuận
tay trái trong ăn uống. Với độ tin cậy 95%, tìm khoảng
ước lượng cho tỉ lệ người thuận tay trái trong tổng thể.
• Giải: (1-α)/2 = 0.475; Tra bảng ta được Zα/2 = 1,96.

ps (1  ps ) ps (1  ps )
p s  Z / 2  p  ps  Z / 2
n n

0.25 * (1  0.25) 0.25 * (1  0.25)


0.25  1.96  p  0.25  1.96
100 100

0.1651  p  0.3349
1.5 Tính cỡ mẫu để ước lượng

 Z / 2
• Ước lượng trung bình:   Z / 2 n( )2
n 
• (Sai số ước lượng)

ps (1  ps )
• Ước lượng tỉ lệ:   Z / 2
n

Z2 / 2 * ps (1  ps )
n
2
Ví dụ ước lượng cỡ mẫu trung bình
• Số liệu tổng thể về số ngày nghỉ ốm của nhân viên tại
các công ty cho thấy có phân phối bình thường với độ
lệch chuẩn là 3 ngày. Nếu muốn khoảng tin cậy 85%
của trung bình tổng thể chênh lệch khoảng ±0,5 ngày
so với trung bình mẫu thì cần chọn bao nhiêu nhân
viên?
• Giải: (1-α)/2 = 0.425; tra bảng ta được Zα/2 = 1,44.
• 𝜀 = 0.5
ps (1  ps ) Z / 2 2 1.44 * 3 2
  Z / 2 n( ) ( )  74.6
n  0.5
• Để đạt yêu cầu cần nghiên cứu 75 nhân viên
Ví dụ ước lượng cỡ mẫu tỉ lệ
• Phản ứng của một người trong một loại trắc nghiệm
tâm l{ có thể phát hiện dưới hai dạng A và B. Nếu
người làm trắc nghiệm muốn ước tính xác suất số
người phản ứng loại A trong tổng thể thì cần làm thí
nghiệm với bao nhiêu người? Cho rằng người này
bằng lòng với kết quả, nếu sai số ước lượng là 0.04,
độ tin cậy của bài toán là 90%. Anh ta kz vọng p có
giá trị khoảng 0.6.
• Giải: (1-α)/2 = 0.45; Tra bảng Z ta được Zα/2 = 1,645.
Z2 / 2 * ps (1  ps ) 1.6452 * 0.6 * (1  0.6)
n   405.9  406
2 0.04 2
II. KIỂM ĐỊNH GIẢ THUYẾT
2.1. CÁC VẤN ĐỀ CHUNG VỀ KIỂM ĐỊNH

• Một bài toán kiểm định luôn bắt đầu bằng việc đặt
giả thuyết. Giả thuyết gồm:
– H0: Mô tả hiện tượng bình thường (theo qui luật)
– H1: Mô tả điều đang nghi ngờ cần kiểm chứng
• Theo qui ước trong H0 luôn tồn tại một dấu bằng (=
≤ ≥) và trong H1 không tồn tại dấu bằng (≠ > <).
• VD1: Một công ty SX mì ăn liền ghi trên bao bì trọng
lượng trung bình là 75 gr, bộ phận kiểm soát chất
lượng nghi ngờ dây truyền đóng gói bị trục trặc cần
phải kiểm định độ tin cậy.
• Ta có cặp giả thuyết:
• H0 : μ = 75 (H0 mô tả hiện tượng lúc bình thường trọng lượng 75gr)
• H1 : μ ≠ 75 (H1 mô tả điều đang nghi ngờ cần kiểm tra)
• VD2: Một công ty SX lốp xe công bố rằng độ bền lốp
xe của công ty có tuổi thọ không dưới 100.000km.
Hiệp hội người tiêu dùng nghi ngờ lời quảng cáo đó
và đặt ra giả thuyết để kiểm định.
 H0 : μ ≥ 100.000
 H1 : μ < 100.000
• VD4: Một ngân hàng TMCP quảng cáo là trung bình
thời gian thực hiện dịch vụ trên ATM không quá 1
phút. Một ngân hàng cạnh tranh nghi ngờ lời quảng
cáo đó và muốn tìm bằng chứng để phản bác { kiến
trên nên đặt giả thuyết để kiểm định.
 H0 : μ ≤ 1
 H1 : μ > 1
Phân biệt

Kiểm định 2 bên Kiểm định bên trái Kiểm định bên phải
2.2 Các nguyên tắc liên quan đến đặt giả thuyết
• Các kiểm định thường gọi theo H1.
• Nếu quan tâm đến hai bên thì gọi là kiểm định hai bên.
 H0 : μ = 75
 H1 : μ ≠ 75
• Nếu quan tâm một bên thì gọi là kiểm định một bên.
Mũi tên trong H1 quay về phía nào thì gọi theo kiểm
định bên đó.
• Kiểm định bên trái
 H0 : μ = 75
 H1 : μ < 75
• Kiểm định bên phải
 H0 : μ ≤ 1
 H1 : μ > 1
Các nguyên tắc liên quan đến đặt giả thuyết

• Đặt ra giả thuyết nghi ngờ và đi tìm bằng chứng


thống kê để chứng minh. Nếu có đủ bằng chứng
thống kê thì chúng ta bác bỏ H0 tức là bác bỏ điều
đang tồn tại và chấp nhận H1 có nghĩa là những nghi
ngờ đặt ra là đúng.
• Không loại bỏ H0 tức là chưa có đủ bằng chứng thống
kê để kết luận H1 đúng.
• Tuy nhiên không loại bỏ H0 không đồng nghĩa với việc
đã chứng minh được H0 đúng, mà chỉ là chưa có đủ
bằng chứng thống kê để loại bỏ H0.
2.3 Xác suất sai lầm α và β
• Sai lầm loại I ký hiệu là α: Là xác suất bác bỏ giả
thuyết H0 trong khi thật sự nó đúng
• Sai lầm loại II ký hiệu là β: Là xác suất để ta không
bác bỏ giả thuyết H0 khi nó sai
• Nếu bác bỏ H0 tức là đang đứng trước nguy cơ sai
lầm loại I. Còn nếu không bác bỏ giả thuyết H0 thì
đang đối mặt với nguy cơ sai lầm loại II.
• Giá trị α xác định nên vùng diện tích bác bỏ giả thuyết
H0. Khi tăng α thì phần diện tích bác bỏ H0 tăng dẫn
đến khả năng phạm sai lầm loại II giảm và ngược lại.

• Ví dụ về sai lần loại 1 và loại 2.


• Cho một sinh viên giỏi bị rớt (sinh viên này học rất tốt)
• Cho một sinh viên yếu đậu (sinh viên này không học tốt)
2.4 Mức ý nghĩa

• Giá trị xác suất phải được ấn định trước khi kiểm
định α =0.1; α =0.05; α =0.01 (α là mức ý nghĩa).
Việc chọn α bằng bao nhiêu phải dựa vào dữ kiện
của mẫu không căn cứ trên tổng thể.
• Nếu bác bỏ H0 với α =0.05 có nghĩa là nếu lặp lại thử
nghiệm 100 lần với 100 mẫu khác nhau và mỗi lần
như vậy lại bác bỏ H0 thì có thể sẽ có 5 lần phạm sai
lầm loại α.
Mức ý nghĩa

• Chúng ta có 5% khả năng phạm lỗi đã bác bỏ H0 khi


thực tế nó đúng, nói cách khác chúng ta tin cậy 95%
là đã quyết định đúng. Lúc này ta phát biểu rằng giả
thuyết đã bị bác bỏ ở mức { nghĩa 5%.
• Trong một bài toán kiểm định nếu khả năng phạm sai
lầm loại I giảm thì khả năng phạm sai lầm loại 2 tăng
lên, do đó người ta thường chọn mức { nghĩa α trong
khoảng từ 1% đến 10%.
Giá trị P - Value

• P – Value gọi là mức { nghĩa quan sát, là xác suất mắc


sai lầm loại 1 tối đa khi bác bỏ giả thuyết H0 với tập
dữ liệu mẫu đang quan sát
• P–Value = P(│Z│≥│Ztt│)

• Qui tắc dùng P-Value để bác bỏ hay không bác bỏ H0:


• P–Value ≥ α thì bác bỏ H0 .
• P–Value < α thì chấp nhận H0 (chưa đủ cơ sở để bác
bỏ H0)
Cách xác định P-Value
• VD: cho α = 0.05. Tìm Zα.
• Ta có 𝜑(Zα) = 0.5 - α
• = 0.5 - 0.05= 0.45
• Tra bảng ta được Zα = 1.645

• VD: Trong trường hợp kiểm


định 1 bên. Nếu giá trị kiểm
định Ztt=1.5 thì P-value =
P(│Z│≥1.5)
Cách xác định P-Value
• Nếu cho mức { nghĩa là 5% (α = 0.05)
• Trường hợp kiểm định 2 bên ta có 𝜑(Zα/2)= 0.5- α/2
• Trường hợp kiểm định 1 bên ta có 𝜑(Zα)= 0.5- α
• VD: cho α = 0.05. Tìm Zα/2
• Ta có 𝜑(Zα/2) = 0.5- α/2
• = 0.5 - 0.25= 0.475
• Tra bảng ta được Zα/2 = 1.96
• Trong trường hợp kiểm định 2
bên. Nếu giá trị kiểm định
Ztt=1.8 thì P-value = P(│Z│≥1.8)
• =0.5 – 0.4614 = 0.0386
2.5 KIỂM ĐỊNH GIẢ THUYẾT TRUNG BÌNH TỔNG THỂ
KIỂM ĐỊNH MỘT MẪU
2.5.1 Công thức
x
- Trường hợp biết σ sử dụng phân phối Z  ztt 
/ n
x
- Không biết σ (n ≥ 30) sử dụng phân phối Z  ztt 
s/ n
x
- Không biết σ (n<30) sử dụng phân phối t  ttt 
s/ n
2.5.2 Qui tắc bác bỏ H0

Kiểm định 2 bên


- Phân phối Z
Ztt>Zα/2 hoặc Ztt<-Zα/2
- Phân phối t
ttt>t(n-1;α/2) hoặc ttt<-t(n-1;α/2)
Kiểm định một bên
- Kiểm định bên trái
Phân phối Z: Ztt<-Zα
Phân phối t : ttt<-t(n-1;α)
- Kiểm định bên phải
Phân phối Z: Ztt>Zα
Phân phối t : ttt>t(n-1;α)
2.5.3 Qui trình tiến hành kiểm định

1. Nhận định tham số tổng thể.


2. Đặt giả thuyết
3. Xác định mức ý nghĩa α.
4. Tính giá trị kiểm định theo công thức.
5. Xem xét bác bỏ hay không bác bỏ H0.
6. Kết luận.
• VD1: Giám đốc sản xuất một nhà máy đang quan tâm
đến dây truyền tự động đóng hộp ngũ cốc cho người
ăn kiêng.
• Theo đúng qui định thì trọng lượng của mỗi hộp ngũ
cốc là 368gr nhưng ông ta nghi ngờ dây truyền gặp
trục trặc khiến những qui định trên không bảo đảm.
Ông ta chọn ngẫu nhiên 25 hộp ngũ cốc và thu được
trọng lượng trung bình là 372,5 gr độ lệch chuẩn
tổng thể là 15 gr. Kiểm định với mức ý nghĩa 5%
Giải
• 1/ Ta có n=25; 𝑥 = 327.5g; σ = 15g; α = 0.05
• Đầu bài cho biết độ lệch chuẩn tổng thể nên sử dụng
phân phối Z
• 2/ Đặt giả thuyết:
H0: μ = 368
H1: μ ≠ 368
• 3/ Ta có α=0.05 → α/2 =0.025; Zα/2=Z0.025=1.96
• 4/ Tính giá trị kiểm định theo công thức Ztt
x   372.5  368
Z tt    1.5
/ n 15 / 25
• 5/ Bác bỏ giả thuyết H0 khi: Ztt >Zα/2 hoặc Ztt< - Zα/2
• Ta có Ztt = 1.5 < Zα/2 = 1.96 nên không bác bỏ H0

• 6/ Kết luận: Với mức { nghĩa 5% cho thấy chưa có đủ


bằng chứng thống kê để kết luận rằng dây truyền đóng
hộp ngũ cốc bị trục trặc với P>0.05
VD 2
• Chuyên viên kiểm tra chất lượng của nhà máy sản
xuất bóng đèn chọn ngẫu nhiên 16 sản phẩm, kết
quả cho thấy tuổi thọ trung bình là 925 giờ, độ lệch
chuẩn là 45 giờ. Giám đốc nhà máy cho biết tuổi thọ
của sản phẩm không ít hơn 950 giờ. Kiểm định lời
tuyên bố đó, với mức ý nghĩa 10%.
Giải
• 1/ Ta có: n = 16; 𝑥 = 925, s = 45, α = 0,1
• Theo đầu bài ta không biết độ lệch chuẩn tổng thể và
n<30 nên bài toàn sẽ sử dụng kiểm định t.
• 2/ Giả thuyết:
H0 : μ ≥ 950
H1 : μ < 950
• 3/ Mức { nghĩa: ta có α = 0.1; tra bảng t(n-1; α) = t(15;0,1) =
1,3406
x 925  950
• 4/ Tính giá trị kiểm định: t tt  ttt   2,22
s/ n 45 / 16
• 5/ Bác bỏ giả thuyết H0 khi: ttt<-t(n-1;α)
• Ta có: ttt = -2,22 < -t(15;0,1)=-1,3406 → Bác bỏ H0

• 6/ Kết luận: Với mức { nghĩa 10% cho thấy đã có đủ


bằng chứng thống kê để bác bỏ H0. (P< 10%). Tức là
lời tuyên bố của giám đốc không chính xác .
Bài tập thực hành

1/ Tìm khoảng tin cậy của số trung bình với:


– n = 26 người; 𝑥 = 11,14; σ =1,5; 1-α=0,95
2/ Tìm khoảng tin cậy của số trung bình với:
– n = 46 người; 𝑥 = 11,14 ; s =1,769; 1-α=0,98
3/ Tìm khoảng tin cậy của số trung bình với:
– n = 15 người ; 𝑥 = 501,4 (cm) ; s = 22,45(cm);
1-α=0,95
Bài tập về nhà
ước lượng
• 1. Một mẫu n = 15, 𝑥 = 276, σ = 32. Với độ tin cậy
98%, tìm khoảng ước lượng của trung bình tổng thể
• 2. Một mẫu n = 15 , 𝑥 = 825, s = 42. Với độ tin cậy
99%, tìm khoảng tin cậy của trung bình tổng thể.
• 3. Trọng lượng của 25 bé trai 8 tuổi tại một làng có
cân năng trung bình là 22.06kg, độ lệch chuẩn
1.61kg. Với độ tin cậy 95%, ước lượng trọng lượng
trung bình của bé trai làng này?
Bài tập về nhà
Kiểm định giả thuyết một mẫu
• Cán bộ sở du lịch thành phố A cho rằng giá phòng
khách sạn trong mùa thấp điểm trung bình không
quá 168 ngàn đồng/ngày đêm. Một mẫu ngẫu nhiên
25 khách sạn trong thành phố được chọn và người ta
tính được trung bình 𝑥 = 172.5 ngàn đồng /ngày
đêm, độ lệch chuẩn s =15.4 ngàn đồng/ngày đêm.
Hãy kiểm định câu phát biểu của vị cán bộ xem có
đúng không. Chọn mức { nghĩa 5%

You might also like