You are on page 1of 39

Bài 8

Kiểm định mối liên hệ giữa


hai biến định tính
Outline

 Kiểm định mối liên hệ giữa hai biến định danh – định
danh và định danh – thứ bậc
 Kiểm định mối liên hệ giữa hai biến thứ bậc

Applied Informatics in Statistics 2


Bài toán

 Trình độ học vấn có tác động đến cách đọc báo, nói
cách khác, phải chăng có mối liên hệ giữa trình độ học
vấn (thứ bậc) và cách đọc báo (định danh) của người
đọc

Applied Informatics in Statistics 3


 Câu hỏi
- Kết quả trên mẫu có đủ mạnh để thuyết phục chúng ta rằng nó
cũng đúng với tổng thể hay không, chúng ta phải tìm bằng chứng
thống kê,
 Thực hiện các phép kiểm định.
 Giải quyết
- Kiểm định tính độc lập
- 2 tình huống
 Dữ liệu định danh (Norminal) – định danh hoặc định danh – thứ bậc
(Ordinal)
 Dữ liệu thứ bậc – thứ bậc

Applied Informatics in Statistics 4


Các kiểm định thường gặp
 Kiểm định mối liên hệ giữa một biến định danh và một
biến thứ bậc
- Ví dụ: Tìm hiểu mối liên hệ giữa trình độ học vấn và cách đọc
báo.
 Kiểm định mối liên hệ giữa 2 biến định danh
- Ví dụ: Tìm hiểu mối quan hệ giữa giới tính và việc chọn ngành
học.
 Kiểm định mối liên hệ giữa hai biến thứ bậc
- Ví dụ: độ tuổi có ảnh hưởng tới mức độ quan tâm đến chủ đề
gia đình

Applied Informatics in Statistics 5


 Các bước kiểm định giả thuyết bằng SPSS
- B1: xác định phép kiểm định cần thực hiện
- B2: Đặt giả thuyết
 H0: không …
 H1: có …
- B3: thực hiện kiểm định bằng SPSS
- B4: Đọc số Sig. và so sánh với số α (thường là 0.05)
 Nếu Sig. ≥ α  chấp nhận H0.
 Nếu Sig. < α  bác bỏ H0.

Applied Informatics in Statistics 6


Kiểm định mối liên hệ giữa hai biến
định danh – định danh & định danh – thứ bậc

 Kiểm định χ (chi – square, chi bình phương)


- Cho biết có tồn tại mối liên hệ giữa hai biến trong tổng thể hay
không
- Nhưng không cho biết độ mạnh của mối liên hệ giữa hai biến

 Đặt giả thuyết thống kê


- Giả thuyết không H0 (Null Hypothesis): “hai biến độc lập với
nhau”.
- Giả thuyết đối H1: “hai biến có liên hệ với nhau”.

Applied Informatics in Statistics 7


 Nghiên cứu mối liên hệ giữa trình độ học vấn (thứ bậc)
và cách đọc các tờ báo (định danh) của người đọc bằng
kiểm định Chi – bình phương  lập bảng chéo
(Crosstab) để tìm hiểu mối quan hệ này
 Analyze – Descriptive Statistics – Crosstabs

Applied Informatics in Statistics 8


 Biến thứ bậc nhomhv (nhóm học vấn) vào ô cột và biến
định danh c6.1 (cách đọc các tờ báo) vào ô dòng

Applied Informatics in Statistics 9


 Để kiểm định giả thuyết về mối liên hệ giữa nhomhv và
c6.1, ta đặt giả thuyết không H0 như sau
- H0: học vấn không có liên hệ với cách đọc báo (cách đọc báo
không chịu ảnh hưởng của học vấn)
- H1: học vấn có liên hệ với cách đọc báo (cách đọc báo chịu ảnh
hưởng của học vấn)
 Trong hộp thoại Crosstabs nhấn nút Statistics

- Chọn Chi-square
- Nhấn nút Continue

Applied Informatics in Statistics 10


 Trong hộp thoại Crosstabs nhấn nút Cell
-  nhằm xác định các đại lượng thống kê thể hiện trong từng ô
của bảng chéo

Applied Informatics in Statistics 11


 Kết quả: 3 bảng
- Bảng đầu tiên thể hiện những thông tin tổng hợp,
- Bảng thứ 2 là bảng chéo kết hợp 2 biến mà trong các ô thể hiện
đại lượng thống kê
- Bảng tóm lược kết quả kiểm định

Applied Informatics in Statistics 12


Applied Informatics in Statistics 13
Applied Informatics in Statistics 14
 Ta có Pearson Chi-Square = 19,336 > 16,9190 (tra bảng
Tra bảng Chi – bình phương tìm giá trị giới hạn ở bậc tự
do 9 và mức ý nghĩa 0,05 [95%])
 Do vậy, theo tiêu chuẩn quyết định, chúng ta sẽ bác bỏ
giả thuyết H0 và kết luận rằng học vấn có ảnh hưởng
đến cách đọc báo của người đọc.

Applied Informatics in Statistics 15


 Nguyên tắc khác trong kiểm định giả thuyết là dùng giá
trị p-value
 Nếu p-value < α = 0,1 thì kiểm định của bạn có ý nghĩa
với độ tin cậy 90% (khái niệm “có ý nghĩa” được hiểu là
giả thuyết H0 có thể bị bác bỏ với độ tin cậy 90%)
 Nếu p-value < α = 0,05 (5%) thì kiểm định của bạn có ý
nghĩa với độ tin cậy 95% (khái niệm “có ý nghĩa” được
hiểu là giả thuyết H0 có thể bị bác bỏ với độ tin cậy
95%). Đây là điều kiện thường xứ dụng.
 Nếu p-value < α = 0,01 (1%) thì kiểm định của bạn có ý
nghĩa với độ tin cậy 99% (khái niệm “có ý nghĩa” được
hiểu là giả thuyết H0 có thể bị bác bỏ với độ tin cậy 99%)
Applied Informatics in Statistics 16
 SPSS gọi p-value là Sig. (Observed significance level –
mức ý nghĩa quan sát).
 Thay vì bạn phải tra bảng Chi – bình phương để tìm giá
trị tới hạn rồi so sánh giá trị Chi – bình phương tính toán
với giá trị này thì SPSS đã tính ngược lại với mức ý
nghĩa quan sát Sig. ứng với giá trị Chi – bình phương
tính toán được 19,336. Ở đây Sig. = 0,022 (hay 2,2%)

Applied Informatics in Statistics 17


 Từ quy tắc của p-value, bạn sẽ quyết định theo nguyên
tắc:
- Chấp nhận giả thuyết H0 nếu Sig. > α, vì nếu bác bỏ giả thuyết
H0 thì khả năng phạm sai lầm sẽ lớn hơn mức ý nghĩa cho phép.
- Bác bỏ giả thuyết H0 nếu Sig. ≤ α, vì lúc này xác suất phạm sai
lầm nếu bác bỏ giả thuyết H0 nhỏ hơn mức ý nghĩa cho phép nên
có thể an toàn khi bác bỏ giả thuyết H0
 Vì ở đây Sig. = 2,2% < α = 5% nên bác bỏ giả thuyết H0.
Ta kết luận rằng với tập dữ liệu mẫu , có đủ bằng chứng
để nói rằng trình độ học vấn có liên hệ với cách đọc báo.

Applied Informatics in Statistics 18


 Giải thích về các đại lượng trên các bảng
- Kiểm định Chi – bình phương chỉ có ý nghĩa khi số quan sát đủ
lớn, nếu có quá 20% số ô trong bảng chéo có tần số lý thuyết
nhỏ hơn 5 thì giá trị nói chung không còn đáng tin cậy.
- Continuity Correction
- Likelihood Ratio ương tự Pearson Chi-Square, với những cỡ
mẫu lớn kết quả của 2 số thống kê này rất gần nhau
- Linear-by-Linear Association đo lường mối liên hệ tuyến tính giữa
2 biến, số thống kê này chỉ hưu dụng khi biến hàng và cột được
sắp trật tự từ nhỏ nhất đến lớn nhất, còn nếu không bạn hãy bỏ
qua nó
- …

Applied Informatics in Statistics 19


Một số đại lượng thống kê khác về mối liên hệ giữa 2
biến định danh
 a. Crame V

= 0 ≤ <1
( − 1)
- k: số hàng hoặc số cột trong bảng, ta chọn k nào nhỏ hơn, ví dụ
nếu bạn có 3 hàng và 4 cột thì k = 3 và (k-1) = 2. Bài toán của ta
có số hàng bằng số cột và bằng 4 nên k = (4-1) = 3
- N: số quan sát trong mẫu
Crame V cho biết độ mạnh của mối liên hệ giữa các biến định
danh.

Applied Informatics in Statistics 20


 b. Hệ số liên hợp (Coefficient of contigency)

= 0 ≤ <1
+

- N: số quan sát trong mẫu


C = 0 khi giữa 2 biến không có quan hệ.
- một chỉ số đánh giá mức độ tương quan giữa 2 biến

Applied Informatics in Statistics 21


 c. Lambda (L hay λ)
- Lambda cho biết liệu các trị số của 1 biến có xu hướng tập
trung quanh một số trị số nào đó của biến kia không.
ố ướ − ố
λ=
ố ướ

Applied Informatics in Statistics 22


Kiểm định mối liên hệ giữa hai biến định
danh – định danh

 Có mối liên hệ giữa nghề nghiệp (nghe - định danh) với


việc đọc các trang quảng cáo trên báo SGTT (c21 - định
danh) không?

 Giả thuyết:
- H0: nghề nghiệp không có liên hệ với việc đọc các trang quảng
cáo
- H1: nghề nghiệp có liên hệ với việc đọc các trang quảng cáo

Applied Informatics in Statistics 23


 Vì ở đây Sig. = 4,62% < α = 5% nên ta bác bỏ giả thuyết
H0. Ta kết luận rằng với tập dữ liệu mẫu, có đủ bằng
chứng để nói rằng nghề nghiệp có liên hệ với việc đọc
các trang quảng cáo trên báo SGTT.

Applied Informatics in Statistics 24


Kiểm định mối liên hệ giữa hai biến thứ bậc

 Trong trường hợp hai yếu tố nghiên cứu là hai biến thu
thập từ thang đo thứ bậc, thay vì dùng đại lượng Chi –
bình phương, chúng ta có thể dung một trong các đại
lượng:
- gamma của Goodman và Kruskal
- d của Somer
- tau-b của Kendall

Applied Informatics in Statistics 25


 Gamma của Goodman và Kruskal
- Gamma là một thước đo phổ biến và dễ cảm nhận, vì trị số của
nó nằm trong khoảng từ -1 (liên hệ nghịch hoàn toàn) đến +1
(liên hệ thuận hoàn toàn), giá trị 0 ở trung tâm đại diện cho sự
độc lập hoàn toàn giữa 2 biến
- xuất phát với giả thuyết H0 rằng gamma của tổng thể chung = 0
nghĩa là thật sự không có mối liên hệ giữa các biến thứ bậc trong
tổng thể chúng ta đang nghiên cứu. Nếu kết quả kiểm định cho
phép chúng ta bác bỏ giả thuyết H0, thì chúng ta có thể kết luận
rằng 2 biến thứ bậc của chúng ta có mối liên hệ và giá trị gamma
của mẫu mà ta tính được chắc chắn xấp xỉ giá trị gamma của
tổng thể chung

Applied Informatics in Statistics 26


 tau-b của Kendall (τb)
- tau-b sử dụng hầu hết dữ liệu nen sẽ gần như luôn luôn nhỏ hơn
gamma vì vậy nó đáng tin cậy hơn khi đo lường mối liên hệ
- chỉ số tau-b thích hợp hơn cho những bảng cân đối tức là có số
hàng bằng số cột còn tau-c thích hợp cho những bảng không cân
đối, còn trị số gamma thường cao hơn các số thống kê khác nên
có thể dẫn ta đến sai lầm là ước lượng quá cao về độ mạnh của
mối liên hệ.

Applied Informatics in Statistics 27


 Ví dụ: chúng ta cần nghiên cứu mối liên hệ giữa tuổi tác
và mức độ quan tâm đối với chủ đề gia đình trên báo Sài
Gòn Tiếp Thị. Cả hai yếu tố này đều là dữ liệu thứ bậc vì
nó được phân hạng như sau:
- Độ tuổi (dotuoi): (18 – 25) tuổi; (26 – 35) tuổi; (36 – 45) tuổi; (46 –
60) tuổi.
- Mức độ quan tâm đến chủ đề gia đình (C19.3): quan tâm nhất,
quan tâm thứ nhì, quan tâm thứ ba.

Applied Informatics in Statistics 28


 Giả thuyết
- H0: Tuổi tác (tuoiMH) không có liên hệ với mức độ quan tâm đến
chủ đề gia đình trên báo Sài Gòn Tiếp Thị ([c19.3] hay mức độ
quan tâm đến chủ đề gia đình trên báo Sài Gòn Tiếp Thị không
khác nhau giữa các nhóm tuổi).
- H1: Tuổi tác (tuoiMH) có liên quan với mức độ quan tâm đến chủ
đề gia đình trên báo Sài Gòn Tiếp Thị

Applied Informatics in Statistics 29


 Thực hiện

Applied Informatics in Statistics 30


Giá trị Sig. (0.987) từ kiểm
định trong trường hợp này
lớn hơn giá trị Sig. mà Gamma
đưa ra rất nhiều

Applied Informatics in Statistics 31


 Với mức ý nghĩa Sig. = 0,498 > 0,05 ta không thể bác bỏ
giả thuyết H0. Có thể kết luận rằng với dữ liệu mẫu ta có
thì không đủ bằng chứng thống kê cho thấy tuổi tác có
liên quan đến mức độ quan tâm đến chủ đề gia đình.
Như vậy có lẽ ở bất kỳ độ tuổi nào người đọc cũng có
những mối quan tâm nhất định đối với chủ đề gia đình.
 Dùng tau-b ta cũng đi đến kết luận tương tự.
Applied Informatics in Statistics 32
 Kết luận
- Với mức ý nghĩa Sig. = 0,498 > 0,05 ta không thể bác bỏ giả
thuyết H0.
- Có thể kết luận rằng với dữ liệu mẫu ta có thì không đủ bằng
chứng thống kê cho thấy tuổi tác có liên quan đến mức độ quan
tâm đến chủ đề gia đình. Như vậy có lẽ ở bất kỳ độ tuổi nào
người độc cũng có những mối quan tâm nhất định đối với chủ đề
gia đình.

Applied Informatics in Statistics 33


Bài tập

 Có mối liên hệ giữa trình độ học vấn (hocvan) với cách


đọc các tờ báo thường đọc nhất không (c6.2)?
- Đặt giả thuyết H0.
- Thực hiện kiểm định chi bình phương
- Nhận xét

Applied Informatics in Statistics 34


 Có mối liên hệ giữa thu nhập cá nhân (tncn) với cách
đọc các tờ báo vào các ngày trong tuần (c13)?
- Đặt giả thuyết H0.
- Thực hiện kiểm định chi bình phương
- Nhận xét

Applied Informatics in Statistics 35


 Có mối liên hệ giữa thu nhập cá nhân (tncn) với mức độ
quan tâm đến chủ đề mua sắm (c19.2)?
- Đặt giả thuyết H0.
- Thực hiện kiểm định chi bình phương
- Nhận xét và cho biết sự khác biệt giữa giá trị Sig. của chi-square
với giá trị sig. mà Gamma đưa ra.

Applied Informatics in Statistics 36


 Có mối liên hệ giữa thu nhập gia đình (tngd) với mức độ
quan tâm đến chủ đề mua sắm (c19.2)?
- Đặt giả thuyết H0.
- Thực hiện kiểm định chi bình phương
- Nhận xét và cho biết sự khác biệt giữa giá trị Sig. của chi-square
với giá trị sig. mà Gamma đưa ra.

Applied Informatics in Statistics 37


 Có mối liên hệ giữa trình độ học vấn (hocvan) với việc
đáng giá tính xác thực của thông tin (c29a1)?
- Đặt giả thuyết H0.
- Thực hiện kiểm định chi bình phương
- Nhận xét và cho biết sự khác biệt giữa giá trị Sig. của chi-square
với giá trị sig. mà Gamma đưa ra.

Applied Informatics in Statistics 38


Applied Informatics in Statistics 39

You might also like