You are on page 1of 43

KIỂM ĐỊNH GIẢ THUYẾT THÔNG KÊ

(STATISTICAL HYPOTHESIS TESTING)


TS. Hồ Thị Vân Anh
Khoa Kế toán – Kiểm toán
0947225717 – hothivananh@iuh.edu.vn
1
Mục tiêu chương
 Về kiến thức: Cung cấp cho sinh viên các khái niệm cơ bản về kiểm định

thống kê, các phương pháp kiểm định giả thiết về các tham số của hiện

tượng kinh tế (hay chỉ tiêu kinh tế) nghiên cứu.

 Về kỹ năng: Rèn luyện cho sinh viên biết vận dụng các phương pháp

kiểm định thống kê để kiểm tra các kết quảcủa hiện tượng kinh tế.

 Về thái độ: Rèn luyện cho sinh viên có thái độ học tập và làm việc nhóm

tích cực và giúp cho sinh viên nhận thức được tầm quan trọng của kiến

thức chương này.

2
Nội dung chương
1. Khái niệm, phương pháp và phân loại kiểm định giả thuyết
2. Kiểm định tham số
2.1. Kiểm định giả thuyết về tỷ lệ

2.2. Kiểm định giả thuyết về trung bình


2.3. Kiểm định giả thuyết về phương sai

3
1. Khái niệm, phương pháp và phân loại kiểm định
giả thuyết
1.1. Khái niệm
Kiểm định giả thuyết thống kê là một trong những nội dung cơ bản của
thống kê.
 Giả thuyết thống kê (statistical hypothesis) là những kết quả hoặc
kết luận được báo cáo (hay nêu ra) về một vấn đề kinh tế, xã hội.
Thường các giả thuyết nói về các số đặc trưng, qui luật phân phối,
tính độc lập hoặc phụ thuộc của các đại lượng ngẫu nhiên.
 Giả thuyết kinh tế (economic hypothesis) là những kết quả hoặc
kết luận liên quan đến các hiện tượng kinh tế hoặc các chỉ tiêu kinh
tế nghiên cứu.
 Kiểm định giả thuyết kinh tế (economic hypothesis testing) là việc
thu thập các số liệu hay thông tin để chứng minh cho một kết quả
hoặc một kết luận kinh tế có ý nghĩa về mặt thống kê hay không.

4
1. Khái niệm, phương pháp và phân loại kiểm định
giả thuyết

1.2. Các bước kiểm định giả thuyết (Steps in hypothesis


testing - Traditional method)
Có 2 loại kiểm định giả thuyết:
 Giả thuyết không (null hypothesis) – H0: không có sự
khác biệt giữa một tham số với một giá trị cụ thể nào đó,
hoặc không có sự khác biệt giữa 2 tham số.
 Giả thuyết đối (alternative hypothesis/research
hypothesis) – H1: có sự khác biệt giữa một tham số với
một giá trị cụ thể nào đó, hoặc không có sự khác biệt giữa
2 tham số

5
1. Khái niệm, phương pháp và phân loại

KĐ 2 bên KĐ bên trái KĐ bên phải


H0: θ = θ0 H0: θ = θ0 H0: θ = θ0
H1: θ ≠ θ0 H1: θ < θ0 H1: θ > θ0

6
VÍ DỤ 1

Một nhà nghiên cứu về thuốc quan tâm về những kết quả khi
nào thì loại thuốc mới sẽ có những phản ứng phụ không mong
muốn. Nhà nghiên cứu xem xét các phát hiện kết hợp với tỷ lệ
mạch đập của những bệnh nhân khi họ uống loại thuốc mới
này để trả lời cho câu hỏi: tỷ lệ mạch đập sẽ tăng, giảm, hay
không thay đổi sau khi bệnh nhân uống thuốc?. Trong đó, nhà
nghiên cứu biết được tỷ lệ mạch đập trung bình cho tổng thể
trong nghiên cứu là 82 lần/phút, giả thuyết cho tình huống này
là:
H0: µ = 82
H1: µ ≠ 82
7
VÍ DỤ 2
Xác định giả thuyết H0 và H1 cho mỗi trường hợp sau:
a) Một nhà nghiên cứu xem xét việc chơi bài bạc của những người trẻ. Bà
ta cho rằng những người trẻ mất hơn $30/ngày vào bài bạc.
H0: µ = $30 và H1: µ > $30
b) Một nhà nghiên cứu muốn xem liệu các sĩ quan cảnh sát có vợ hoặc
chồng làm việc trong cơ quan thực thi pháp luật có điểm thấp hơn so với
điểm trung bình 120 trong bảng câu hỏi về mức độ căng thẳng trong
công việc.
H0: µ = 120 và H1: µ < 120
c) Một giáo viên cảm thấy rằng liệu một cuốn sách giáo khoa trực tuyến
được sử dụng cho một khóa học thay vì một cuốn sách bìa cứng có thể
làm thay đổi điểm số của học sinh trong bài kiểm tra cuối kỳ. Trong quá
khứ, điểm thi cuối kỳ của học sinh là 83.
H0: µ = 83 và H1: µ ≠ 83

8
1. Khái niệm, phương pháp và phân loại

 Kiểm định giả thuyết thống kê ta phải tiến hành 5


bước:
1. Nêu các giả thuyết và xác định yêu cầu.
2. Tìm (các) giá trị tới hạn (tra giá trị t, z, χ2 , p-value).
3. Tính giá trị kiểm định.
4. Đưa ra quyết định từ chối hoặc chấp nhận giả
thuyết H0.
5. Tóm tắt kết quả

9
1. Khái niệm, phương pháp và phân loại
1.3. Phân loại kiểm định giả thiết

Kiểm định tham số (parametric tests) là phép kiểm tra về các tham số đặc

trưng của tổng thể như: trung bình, tỷ lệ và phương sai (hay sai số chuẩn).

Đây là một loại kiểm traphổ biến đối với các dữ liệu thu thập sử dụng

thang đo dạng scale (interval, ratio). Để thực hiện phép kiểm tra này dữ

liệu thu thập cần tuân thủ một số điều kiện như sau:

 Mẫu nghiên cứu được chọn (quan sát) ngẫu nhiên,

 Tổng thể nghiên cứu có phân phối chuẩn.

 Dữ liệu mẫu có tính dừng (đối với dữ liệu kiểu tỷ lệ - ratio hoặc chuỗi thời

gian). 10
1. Khái niệm, phương pháp và phân loại

Kiểm định phi tham số (Nonparametric Tests)

Trong thực tế, có nhiều nghiên cứu mà số liệu thống kêthu thập có dạng dấu hoặc

xếp hạng, do đó chúng ta không thể sử dụng các kiểm định có tham số. Trong

trường hợp này kiểm định Wilconxon và Mann-Whitney là hai lọai kiểm định phi

tham số thường được sử dụng cho mẫu cặp và cho mẫu độc lập.Kiểm định phi

tham số được áp dụng cho dữ liệu không tuân theo phân phối chuẩn, hoặc các

nghiên cứu mà số liệu thu thập bị hạn chế do đó mẫu điều tracó kích thước nhỏ,

hoặc các dữ liệu nghiên cứu sử dụng các thang đo định danh (nominal), thứ bậc

(ordinal)

11
1. Khái niệm, phương pháp và phân loại

1.4. Xác suất sai lầm trong phân tích kiểm định giả thiết thống kê

 Vì chỉ dựa trên một mẫu để kết luận đến các giá trị của tổng thể hay chỉ tiêu

nghiên cứu, nên ta có thể phạm sai lầm khi đưa các kết luận về giả thuyết H

Sai lầm loại 1 (type I error) tức là bác bỏ giả thuyết H0 khi giả thuyết này đúng.

Sai lầm loại 2 (type II error) tức là chấp nhận (không bác bỏ) giả thuyết H0 khi

giả thuyết này sai.

 Như vậy khi ta bác bỏ một giả thuyết thì ta có thể mắc phải sai lầm loại 1, còn

khi ta chấp nhận một giả thiết thì ta cóthể phạm phải sai lầm loại 2.

12
1. Khái niệm, phương pháp và phân loại

 Sai lầm loại 1: nếu quyết định xác suất bác bỏ giả thiết H0
khi giả thuyết này đúng là α thì xác suất để chấp nhận nó
là (1 − α). Người ta gọi α là mức ý nghĩa của kiểm định.
 Sai lầm loại 2: nếu xác suất của việc quyết định chấp
nhận một giả thiết H0 sai được ký hiệu là β thì xác suất để
bác bỏ giả thiết này là (1 − β).

H0 đúng H0 sai

Chấp nhận H0 Kết luận đúng Sai lầm loại 2


Xác suất (1 – α) Xác suất β

Bác bỏ H0 Sai lầm loại 1 Kết luận đúng


Xác suất α Xác suất (1 – β)
13
VÍ DỤ 3

Giả sử 1 mẫu xe hơi hiện đang đạt được mức tiêu thụ nhiên liệu trung bình
là 25km/lít. Nhóm nghiên cứu sản phẩm phát triển 1 hệ thống phu nhiên
liệu mới được thiết kế đặc biệt để tăng số km/lít. Để đánh giá hệ thống
mới, họ sản xuất thử vài sản phẩm, lắp ráp vào các xe hơi, và đưa vào thực
hiện các thử nghiệm có kiểm soát. Ở đây, nhóm NCSP đang tìm kiếm bằng
chứng để kết luận rằng hệ thống mới làm tăng số km trung bình/lít.

Trong trường hợp này, giả thuyết nghiên cứu (H1) là hệ thống phun nhiên
liệu mới sẽ cho số km trung bình/lít lớn hơn 25.

14
VÍ DỤ 3

Hiện tại, xe đạt được trung bình 25km/lít, kiểm định giả
thuyết được thiết lập như sau:
H0: μ = 25
H1 : μ > 25
 Sai lầm loại 1: bác bỏ H0 (H0 đúng) -> hệ thống phun
nhiên liệu mới không có gì tốt hơn hệ thống hiện tại.
 Sai lầm loại 2: chấp nhận H0 (H0 sai) -> hệ thống phun
nhiên liệu mới không có gì tốt hơn hệ thống hiện tại, trong
khi thực tế hệ thống mới có cải thiện số km/lít.
 Mức ý nghĩa là xác suất để bác bỏ H0: μ ≤ 25 (μ = 25)

15
1. Khái niệm, phương pháp và phân loại

1.5. Mức ý nghĩa (α)


 Mức ý nghĩa (level of significance): là xác suất tối đa của
việc phạm sai lầm loại I. Xác suất này được ký hiệu bằng
α. Nghĩa là, P (lỗi loại I) = α.
 Trong một bài toán kiểm định, nếu khả năng phạm sai lầm loại I
giảm thì khả năng phạm sai lầm loại II lại tăng lên. Do đó người
ta thường chọn  trong khoảng từ 1% đến 10%.
 Quy tắc dùng P-value để bác bỏ hay chấp nhận giả thuyết H0:

 P-value <   Bác bỏ H0

 P-value    Chấp nhận H0 (chưa đủ cơ sở để bác bỏ H0)

16
P-value = P(| Z |  |Ztt|)

P-value

Z
Ztt
P-value được gọi là mức ý nghĩa quan sát, là xác suất
mắc sai lầm loại 1 tối đa khi bác bỏ giả thuyết H0 với tập
dữ liệu mẫu đang quan sát 17
2. Kiểm định tham số
2.1. Kiểm định tỷ lệ của tổng thể

 Với và

Tra bảng Laplace


18
Nguyên tắc ra quyết định

Hoặc dựa vào giá trị P-value


P-value = 1 – Z
(Tra bảng Cumulative Standard Normal Distribution - E).
Nếu: P-value ≥ α: Chấp nhận H0
P-value < α: Bác bỏ H0 19
VÍ DỤ 4
Theo số liệu báo cáo cuối năm 2018 của dây chuyền hoàn
chỉnh của xưởng sản xuất giày da công ty Bitis Đồng Nai
thì tỷ lệ sản phẩm lỗi là 5%. Nội dung báo cáo quý 1/2019
Ban giám đốc yêu cầu Phân xưởng sản xuất phải thống kê
tỷ lệ sản phẩm bị lỗi và đánh giá tính hiệu quả của các
chuyền nhằm giúp cho Ban quản trị Bitis đưa ra quyết
định về đầu tư nâng cấp hệ thống. Bộ phận phân xưởng đã
tiến hành kiểm ngẫu nhiên 400 đôi tại chuyền hoàn chỉnh
thì thấy có 16 đôi bị lỗi. Với mức ý nghĩa α = 2%. Hãy
kiểm tra xem thông tin về tỷ lệ sản phẩm lỗi của phân
xưởng sản xuất

20
Bài làm
 Gọi tỷ lệ sản phẩm lỗi của chuyền hoàn chỉnh là p.
Khi đó, đặt giả thiết như sau:
 Giả thiết H0: p = 0.05
Hα : p # 0.05
 Với mức ý nghĩa (α) = 0.02 thì Z0.02/2 = 2.33
 Tỷ lệ sp lỗi f = 16/400 = 0.04
 Theo công thức Z = -0.92
=> |Z| < Zα/2: chấp nhận H0 (thông tin về tỷ lệ sp lỗi của
xưởng sản xuất là đáng tin cậy).
21
VÍ DỤ 5

Một luật sư tuyên bố rằng hơn 25% tất cả các luật sư


đều có sử dụng các dịch vụ quảng cáo. Lấy mẫu ngẫu
nhiên gồm 200 luật sư ở một thành phố A cho thấy có
63 người đã sử dụng một số hình thức quảng cáo. Với
giá trị α = 0,05 liệu có đủ bằng chứng hỗ trợ cho lời
tuyên bố của luật sư này không?

22
Bài làm
Ta có giả thuyết : H0: p = 0.25
H1: p > 0.25
 Với mức ý nghĩa (α) = 0.05 thì Z0.05 = 1.65
 Tỷ lệ sp lỗi f = 63/200 = 0.315
 Theo công thức Z = 2.12 = 0.9830 (Tra bảng E)
Þ p-value = 1- 0.9830 = 0.0170 < α
 Kết luận: bác bỏ giả thuyết H0 (lời tuyên bố này là không
đáng tin cậy)

23
2.2. Kiểm định trung bình của tổng thể

24
Nguyên tắc ra quyết định

25
Nguyên tắc quyết định (p-value)

Đã biết σ2 n ≥ 30 n < 30
chưa biết σ2 chưa biết σ2
P-value được xác định dựa
P-value
P-value =
= 11 –– Z
Z vào T (tìm khoảng ước
(Tra
(Tra bảng
bảng E)E) lượng p – tra bảng F)

P-value < α: bác bỏ H0


P-value < α: bác bỏ H0
P-value ≥ α: chấp nhập H0
P-value ≥ α: chấp nhập H0

26
VÍ DỤ 6
Dây chuyền đóng gói loại 1kg của nhà máy đường
Biên Hòa hoạt động bình thường thì trọng lượng của
các gói đường là đại lượng ngẫu nhiên phân phối
theo qui luật chuẩn với kỳ vọng là 1kg và độ lệch
chuẩn σ = 0.3. Qua một thời gian sản xuất, người ta
nghi ngờ trọng lượng trung bình của các gói đường
này đã thay đổi. Người ta tiến hành kiểm tra và cân
thử 100 gói thì thấy trọng lượng trung bình là 1,05
kg. Với mức ý nghĩa α = 5%. Hãy xác định lại điều
nghi ngờ trên
27
Bài làm
 Gọi X là trọng lượng thực tế của các gói đường. Ta sẽ
kiểm định giả thiết sau:
H0: μ = 1
H1 : μ # 1
 Theo công thức Z = 1.67
 Với mức ý nghĩa (α) = 0.05 thì Z0.05/2 = 1.96
=> Z < Zα/2: chấp nhận H0
 Kết luận: Dây chuyền đóng gói của nhà máy đường Biên
Hòa hoạt động bình thường, trọng lượng của các gói
đường là đại lượng ngẫu nhiên phân phối theo qui luật
chuẩn với kỳ vọng là 1kg và độ lệch chuẩn σ = 0,3
28
VÍ DỤ 7

Một nhà nghiên cứu muốn kiểm tra lời tuyên bố rằng học
phí và lệ phí trung bình cho 4 năm học tại một trường cao
đẳng công lập lớn hơn $5,700. Bà ta tiến hành lấy mẫu
ngẫu nhiên gồm 36 trường cao đẳng công lập hệ 4 năm và
thấy rằng học phí và lệ phí trung là $5,950. Độ lệch chuẩn
tổng thể là $659. Có bằng chứng nào chứng minh cho lời
tuyên bố? với α = 0.05 . Sử dụng p-value.

29
Bài làm

 Ta sẽ kiểm định giả thuyết sau:


H0: μ = $5,700
H1 : μ > $5,700
 Theo công thức Z = 2.28 = 0.9887 (tra bảng E)
 P –value = 1 – 0.9887 = 0.0113
 Với mức ý nghĩa (α) = 0.05
=> p-value < α : bác bỏ H0
 Kết luận: có đủ bằng chứng ủng hộ cho lời tuyên bố
này.
30
VÍ DỤ 8

Một cuộc điều tra y tế cho rằng số ca nhiễm trùng trung


bình mỗi tuần tại một bệnh viện ở khu vực tây nam ban
Pennsylvania, Mỹ là 16.3. Khảo sát ngẫu nhiên trong 10
tuần thấy số ca nhiễm trùng trung bình là 17.7. Độ lệch
chuẩn của mẫu là 1.8. Có đủ bằng chứng để bác bỏ lời
tuyên bố của điều tra viên không? Với α = 0.05.

31
Bài làm

• Gọi
  X là số ca nhiễm trùng trung bình/tuần. Ta sẽ
kiểm định giả thuyết sau:
H0: μ = 16.3
H1 : μ # 16.3
 Theo công thức T = 2.46
 Với mức ý nghĩa (α) = 0.05, df(n – 1) = 10 – 1 = 9
thì = 2.262
=> T > : bác bỏ H0
 Kết luận: lời tuyên bố là không đáng tin cậy

32
VÍ DỤ 9

Một bác sĩ cho rằng lượng oxy hấp thụ tối đa của người chạy
bộ lớn hơn mức trung bình của tất cả người trưởng thành. Ông
tiến hành lấy mẫu ngẫu nhiên gồm 15 người chạy bộ thì thấy
lượng oxy hấp thụ trung bình là 40.6 ml/kg và độ lệch chuẩn là
6 ml/kg. Nếu mức hấp thụ oxy trung bình của tất cả người
trưởng thành là 36.7 ml/kg, liệu có đủ bằng chứng để chứng
minh cho tuyên bố của bác sĩ? với α = 0.05.

33
Bài làm
• Ta
  sẽ kiểm định giả thuyết sau:
H0: μ = 36.7
H1 : μ > 36.7
 Theo công thức T = 2.517 (tra bảng F)
 P-value (2.145, 2.624)
 Tương ứng với α = 0.025, α = 0.01
=> 0.01 < p-value < 0.025
=> p-value < α = 0.05: bác bỏ H0
 Kết luận: có đủ bằng chứng ủng hộ cho lời tuyên bố này.

34
2.3. Kiểm định phương sai của tổng thể

KĐ 2 bên KĐ bên trái KĐ bên phải


H0: H0: H0:
H1: H1: H1:

35
Nguyên tắc quyết định

KĐ 2 bên KĐ bên trái KĐ bên phải


Bác bỏ H0 khi Bác bỏ H0 khi Bác bỏ H0 khi
>
Hoặc < >
<

 Hoặcdựa vào giá trị P_value.


 P-value được xác định thông qua (tìm khoảng ước lượng p-
value - tra bảng G).
< p-value <
 Nếu: P-value < α, bác bỏ H0
P-value ≥ α, chấp nhập H0
36
VÍ DỤ 10

Một nhà sản xuất thuốc lá cho rằng phương sai hàm
lượng nicotine trong thuốc lá của họ là 0.644. Hàm
lượng nicotin được đo bằng miligam và giả định rằng
nó được phân phối chuẩn. Nhà sản xuất lấy mẫu ngẫu
nhiên gồm 20 điếu thuốc lá có độ lệch chuẩn là 1.00
milligram. Tại α = 0.05, có đủ bằng chứng để bác bỏ
tuyên bố của nhà sản xuất?
37
Bài làm
• Ta
  đặt giả thuyết sau. H0: σ2 = 0.644
H1 : σ2 # 0.644
 S = 1.0; σ = 0.644; n = 20
 Theo công thức χ2 = 29.5
 α = 0.05; df(n – 1) = 20 – 1 = 19 (tra bảng G)
=> = 32.852
=> χ2 < -> chấp nhận H0
 Kết luận: không có đủ bằng chứng để bác bỏ lời
khẳng định của nhà sản xuất

38
VÍ DỤ 11

Một nhà quản lý bệnh viện tin rằng độ lệch chuẩn của những
người sử dụng dịch vụ phẫu thuật ngoại trú mỗi ngày lớn hơn
8. Lấy mẫu ngẫu nhiên trong 15 ngày. Dữ liệu được hiển thị
bảng dưới. Tại α = 0.10, có đủ bằng chứng để hỗ trợ cho tuyên
bố của nhà quản trị? Giả sử biến được phân phối chuẩn.
25 30 5 15 18
42 16 9 10 12
12 38 8 14 27

39
Bài làm

• Ta
  đặt giả thuyết sau. H0: σ = 8
H1 : σ > 8
 S = 11.2; σ2 = 64; n = 15
 Theo công thức χ2 = 27.44
 α = 0.10; df(n – 1) = 15 – 1 = 14 (tra bảng G)
=> = 21.064
=> χ2 > -> bác bỏ H0
 Kết luận: có đủ bằng chứng để ủng hộ lời khẳng
định của nhà quản lý bệnh viện
40
VÍ DỤ 12

Một nhà nghiên cứu đã tìm thấy từ các nghiên cứu


trước đây rằng độ lệch chuẩn của thời gian cần thiết để
kiểm tra một chiếc ô tô là 16.8 phút. Ông tiến hành lấy
mẫu ngẫu nhiên gồm 24 ô tô được chọn và kiểm tra thì
thấy độ lệch chuẩn là 12.5 phút. Tại α = 0.05 liệu có thể
kết luận rằng độ lệch chuẩn đã thay đổi? Sử dụng
phương pháp P-value.
41
Bài làm

 Ta kiểm định giả thuyết sau


H0: σ = 16.8
H1 : σ # 16.8
 S = 12.5; σ = 16.8; n = 24
 Theo công thức χ2 = 12.733
 α = 0.05; df(n -1) = 24 – 1 = 23 (tra bảng G)
Þ P-value ϵ (11.689, 13.091)
 Tương ứng với α = 0.975, α = 0.95
=> 1- 0.975 < p-value < 1 – 0.95 hay 0.05 < p-value < 0.1
=> p-value > α = 0.05-> chấp nhận H0
 Kết luận: không có đủ bằng chứng cho lời tuyên bố này

42

You might also like