You are on page 1of 32

Chương 5.

Bảng ngẫu nhiên và suy diễn thống kê

Các chương trước phân tích sự biến động của một biến định lượng liên tục trong sự phụ
thuộc vào các biến khác thông qua mh hồi quy. Chương 5 và chương 6 sẽ thông qua một
mh hồi quy để phân tích sự biến động của một biến định lượng rời rạc hoặc định tính.
Khi quan sát một biến định tính (hay biến phân loại), dữ liệu thu được gọi là dữ liệu định
tính (DLĐT) hay dữ liệu phân loại (DLPL). Những nhận định mang tính cảm giác, chủ quan
rút ra từ các DLPL thường đa chiều và gây nhiều tranh cãi. Các nhà thống kê đã và đang
tìm kiếm nhiều cách sử dụng cho các p.pháp PTDLPL, nhằm có được những đánh giá
k/quan, k.học, tiếp cận với bản chất của biến q.sát định tính. Phân tích các mối q.hệ trong
một véc tơ q/sát là trọng tâm của hầu hết các p.tích t.kê đa biến.
Chương này đề cập đến q.hệ giữa hai biến phân loại, phần cuối đề cập đến q.hệ của nhiều
biến phân loại. Trong đó giới thiệu các tham số mô tả sự kết hợp và đưa ra các p.pháp suy
diễn cho các tham số đó. Nhiều ứng dụng liên quan đến việc so sánh giữa hai nhóm.
5.1. Dữ liệu đáp ứng phân loại và thang đo
5.1.1. Biến phân loại (hay biến định tính): có thang đo bao gồm một tập các loại. VD: Thái
độ người dân trước một chính sách mới ban hành : đồng tình, không có ý kiến, phản đối; Sự nhận
định của ngân hàng về khả năng trả nợ của một khách hàng: “có” hoặc “không”. Các thang đo phân
loại cũng xuất hiện phổ biến trong y học, để đo lường các phản ứng như là bệnh nhân có sống sót hay
không sau cuộc phẫu thuật (có, không), mức độ thương tích (không, nhẹ, trung bình, nặng) và giai
đoạn của bệnh (ban đầu, giai đoạn cuối). Các biến phân loại cũng x.hiện trong khoa học ứng xử (ví dụ:
“Đồng tình” hay “Phản đối”), trong giáo dục ("chính xác" và "không chính xác" cho trả lời câu hỏi kỳ
thi), trong tiếp thị về sự lựa chọn của khách hàng đối với các kiểu dáng.
5.1.2. Phân biệt thang đo danh nghĩa và thang đo thứ bậc
2 loại thang đo chính của biến phân loại: định danh và thứ bậc.
Biến phân loại có trật tự gọi là biến thứ tự. VD: Đáp ứng điều trị y tế (rất tốt, tốt, bình
thường, không tốt), học lực của sinh viên (giỏi, khá, trung bình, yếu kém), thái độ của
nhân viên công sở khi tiếp dân (đúng mực, chưa đúng mực), mức độ tồn kho của một
công ty (thấp, trung bình, cao),…
Biến phân loại có thang đo không sắp xếp thứ tự được gọi là các biến định danh. VD:
nghề nghiệp (công nhân, nông dân, giáo viên,…), tôn giáo (Công giáo, Do Thái, Tin Lành,
khác), khu vực cư trú (nông thôn, thành thị),….
- Đ/v biến định danh, thứ tự liệt kê các loại không thích hợp và phân tích thống kê không
nên phụ thuộc vào thứ tự đó. Các p.pháp thiết kế cho biến định danh cho k.quả tương tự
bất kể thứ tự các loại được liệt kê. P.pháp cho biến thứ tự sử dụng thứ tự thể loại. Cho dù
liệt kê các loại từ thấp đến cao hay từ cao đến thấp thường không có ý nghĩa gì, nhưng
k.quả của p.tích thứ tự sẽ thay đổi nếu các loại được xếp theo bất kỳ cách nào khác. Các
p.pháp cho biến thứ tự không thể được sử dụng cho các biến định danh, vì chúng không
có các loại được sắp xếp thứ tự. Các p.pháp cho biến định danh có thể sử dụng với biến
thứ tự. Tuy nhiên, khi sử dụng với các biến thứ tự, chúng không được sử dụng thông tin
về thứ tự đó. Điều này có thể dẫn đến mất mát vai trò thứ tự. Tốt nhất áp dụng p.pháp
phù hợp với thang đo thực tế.
- Để thuận lợi người ta xử lý dữ liệu thứ tự một cách định lượng, bằng cách gán các số
được sắp xếp cho các loại.
5.2. Bảng ngẫu nhiên hai chiều
5.2.1. Cấu trúc xác suất cho bảng ngẫu nhiên.
Cho X và Y là hai biến phân loại, X có k biểu hiện: 𝐴𝐴1 , 𝐴𝐴2 , … , 𝐴𝐴𝑘𝑘 và Y có m biểu hiện:
𝐵𝐵1 , 𝐵𝐵2 , … , 𝐵𝐵𝑚𝑚 . Sử dụng một bảng gồm k hàng và m cột để thể hiện kết quả có thể xảy ra từ
việc k.sát:
Y
𝐵𝐵1 𝐵𝐵2 … 𝐵𝐵𝑚𝑚
X
𝐴𝐴1 𝑛𝑛11 𝑛𝑛12 … 𝑛𝑛1𝑚𝑚
𝐴𝐴2 𝑛𝑛21 𝑛𝑛22 … 𝑛𝑛2𝑚𝑚
⋮ ⋮ ⋮ … ⋮
𝐴𝐴𝑘𝑘 𝑛𝑛𝑘𝑘𝑘 𝑛𝑛𝑘𝑘𝑘 … 𝑛𝑛𝑘𝑘𝑘𝑘
Bảng này gọi là bảng ngẫu nhiên hai chiều 𝑘𝑘 × 𝑚𝑚, 𝑛𝑛𝑖𝑖𝑖𝑖 là số lần quan sát được cặp thuộc
tính 𝐴𝐴𝑖𝑖 , 𝐵𝐵𝑗𝑗 , gọi là tần số của 𝐴𝐴𝑖𝑖 , 𝐵𝐵𝑗𝑗 . Một bảng ngẫu nhiên hai biến gọi là bảng hai chiều;
một bảng ngẫu nhiên 3 biến gọi là bảng ngẫu nhiên 3 chiều. Khi trình bày bảng dữ liệu 2
chiều, thường không kẻ đường phân chia hàng mà chỉ kẻ một số đường ngang cần thiết.
VD 1: K/s 1091 người Mỹ về niềm tin đ/v thế giới bên kia (sau khi chết): 435 nữ tin, 147
nữ không tin hoặc không đưa ra quyết định; 375 nam tin. V/đ là có tồn tại mối l.hệ giữa
giới tính và niềm tin vào thế giới bên kia không?
- Giới tính (Nam/Nữ) là biến dự báo, “ Niềm tin vào thế giới bên kia” (Tin/Không tin) là
biến đáp ứng. Dữ liệu trên được trình bày bởi bảng ngẫu nhiên 2 chiều 2 × 2 có một
trong hai dạng như sau: Niềm tin vào thế giới bên kia
Giới
Niềm tin Tin Không tin hoặc không
Có Không tính
Giới tính có ý kiến
Nữ 435 147 Nữ 435 147
Nam 375 134 Nam 375 134
5.2.2. P.phối đồng thời, p.phối biên duyên, x.suất có đ.kiện. G.sử mỗi q/s về 2 biến nhị
phân X và Y được chọn ngẫu nhiên từ một tổng thể. Đặt: 𝜋𝜋𝑖𝑖𝑖𝑖 = 𝑃𝑃(𝑋𝑋 = 𝐴𝐴𝐴𝐴, 𝑌𝑌 = 𝐵𝐵𝐵𝐵)
* 𝜋𝜋𝑖𝑖𝑖𝑖 là p.phối xs đồng thời của X và Y (∑𝑖𝑖,𝑗𝑗 𝜋𝜋𝑖𝑖𝑖𝑖 = 1).
* P.phối xs biên duyên là tổng theo từng hàng và Y
từng cột của bảng p.phối đồng thời của X và Y 𝐵𝐵1 𝐵𝐵2 𝜋𝜋𝑖𝑖+
X
được ký hiệu là 𝜋𝜋𝑖𝑖+ và 𝜋𝜋+𝑗𝑗 : 𝐴𝐴1 𝜋𝜋11 𝜋𝜋12 𝜋𝜋1+
𝜋𝜋𝑖𝑖+ = 𝜋𝜋𝑖𝑖𝑖 + 𝜋𝜋𝑖𝑖𝑖 , và 𝜋𝜋+𝑗𝑗 = 𝜋𝜋1𝑗𝑗 + 𝜋𝜋2𝑗𝑗 . 𝐴𝐴2 𝜋𝜋21 𝜋𝜋22 𝜋𝜋2+
P.phối đồng thời và p.phối biên duyên của các 𝜋𝜋+𝑗𝑗 𝜋𝜋+1 𝜋𝜋+2 1
biến nhị phân X, Y được thể hiện qua bảng bên: Bảng phân phối đồng thời và biên duyên

* Gọi 𝑛𝑛𝑖𝑖𝑖𝑖 là số q/s có biểu hiện (𝐴𝐴i , Bj ) Y


nij 𝐵𝐵1 𝐵𝐵2 𝜋𝜋𝑖𝑖+
X
fij = n ; n = ∑𝑖𝑖,𝑗𝑗 𝑛𝑛𝑖𝑖𝑖𝑖 . Bảng p.phối mẫu đồng 𝐴𝐴1 𝜋𝜋11 𝜋𝜋12 𝜋𝜋1+
thời và p.phối mẫu biên duyên của các biến 𝐴𝐴2 𝜋𝜋21 𝜋𝜋22 𝜋𝜋2+
X, Y được thể hiện như bảng bên: 𝜋𝜋+𝑗𝑗 𝜋𝜋+1 𝜋𝜋+2 1
* Một biến (thường là biến cột, Y) là biến đáp ứng Bảng p.phối mẫu đồng thời và p.phối mẫu biên duyên
và biến khác (biến hàng, X) là biến giải thích, với mỗi g.trị của X có một bảng p.phối các
giá trị của Y, gọi là p.phối xs có đ.kiện của Y ứng với từng giá trị của X.
P.phối có đ/k của Y với đ/k 𝑋𝑋 = 𝐴𝐴1 : P.phối mẫu có đ/k của Y với đ/k 𝑋𝑋 = 𝐴𝐴1 :
𝑌𝑌 𝐵𝐵1 𝐵𝐵2 Σ 𝑌𝑌 𝐵𝐵1 𝐵𝐵2 Σ
𝑃𝑃 𝜋𝜋11 /𝜋𝜋1+ 𝜋𝜋12 /𝜋𝜋1+ 1 𝑃𝑃 𝑓𝑓11 /𝑓𝑓1+ 𝑓𝑓12 /𝑓𝑓1+ 1

P.phối có đ/k của Y với đ/k 𝑋𝑋 = 𝐴𝐴2 : P.phối mẫu có đ/k của Y với đ/k 𝑋𝑋 = 𝐴𝐴2 :
𝑌𝑌 𝐵𝐵1 𝐵𝐵2 Σ 𝑌𝑌 𝐵𝐵1 𝐵𝐵2 Σ
𝑃𝑃 𝜋𝜋21 /𝜋𝜋2+ 𝜋𝜋22 /𝜋𝜋2+ 1 𝑃𝑃 𝑓𝑓21 /𝑓𝑓2+ 𝑓𝑓22 /𝑓𝑓2+ 1
VD2. Từ bảng dữ liệu trong VD1:
X Y Có Không 𝑓𝑓𝑖𝑖+
* Bảng bên là bảng p.phối mẫu đồng thời Nữ 𝑓𝑓11 = 0,3987 𝑓𝑓12 = 0,1348 𝑓𝑓1+ = 0,5335
và p.phối mẫu biên duyên Nam 𝑓𝑓21 = 0,3437 𝑓𝑓22 = 0,1228 𝑓𝑓2+ = 0,4665
- Đ/v nữ, tỷ lệ “tin”: 435/582 = 0,7473; 𝑓𝑓+𝑗𝑗 𝑓𝑓+1 = 0,7424 𝑓𝑓+2 = 0,2576 1
và “không”: 147/582 = 0,2527.
- Đ/v nam, tỷ lệ “tin”: 375/509 = 0,7367; và “không”: 147/509 = 0,2633.
Vậy ta có các p.phối mẫu có đ/k của n.tin vào t.giới bên kia với g.tính nữ và giới tính nam.

VD3: Có số liệu về mối quan hệ giữa sử dụng aspirin và bệnh nhồi máu cơ tim do nhóm
n/c sức khoẻ của các bác sĩ tại Trường y Harvard. N/c được thực hiện trên những bị bệnh
tim và chia làm 2 nhóm: Nhóm 1 dùng aspirin và nhóm 2 dùng giả dược. Mỗi ngày, mỗi
bệnh nhân nhóm 1 uống 1 viên aspirin, mỗi Kết quả điều trị
bệnh nhóm 2 uống 1 viên giả dược. Hãy chỉ Nhóm Bị nhồi máu Không bị nhồi Total
cơ tim máu cơ tim
ra biến đáp ứng và biến dự báo, lập bảng
Giả dược 189 10845 11034
p.phối mẫu đồng thời và biên duyên, các Aspirin 104 10933 11037
bảng p.phối mẫu có đ/k.
VD2. Từ bảng dữ liệu trong VD1: Y
X Có Không 𝑓𝑓𝑖𝑖+
* Bảng bên là bảng p.phối mẫu đồng
Nữ 𝑓𝑓11 = 0,3987 𝑓𝑓12 = 0,1348 𝑓𝑓1+ = 0,5335
thời và p.phối mẫu biên duyên
Nam 𝑓𝑓21 = 0,3437 𝑓𝑓22 = 0,1228 𝑓𝑓2+ = 0,4665
- Đ/v nữ, tỷ lệ “tin”: 435/582 = 0,7473;
𝑓𝑓+𝑗𝑗 𝑓𝑓+1 = 0,7424 𝑓𝑓+2 = 0,2576 1
và “không”: 147/582 = 0,2527.
- Đ/v nam, tỷ lệ “tin”: 375/509 = 0,7367; và “không”: 147/509 = 0,2633.
Vậy ta có các p.phối mẫu có đ/k của n.tin vào t.giới bên kia với g.tính nữ và giới tính nam.
Niềm tin của nữ Tin Không Σ Niềm tin của nam Tin Không Σ
𝑃𝑃 0,7473 0,2527 1 𝑃𝑃 0,7367 0,2644 1

VD3 (BT): Có số liệu về mối quan hệ giữa sử dụng aspirin và bệnh nhồi máu cơ tim do
nhóm n/c sức khoẻ của các bác sĩ tại Trường y Harvard. N/c được thực hiện trên những bị
bệnh tim và chia làm 2 nhóm: Nhóm 1 dùng aspirin, nhóm 2 dùng giả dược. Mỗi ngày, mỗi
bệnh nhân nhóm 1 uống 1 viên aspirin, mỗi Kết quả điều trị
bệnh nhóm 2 uống 1 viên giả dược. Hãy chỉ Nhóm Bị nhồi máu Không bị nhồi Total
ra biếnđáp ứng và biến dự báo, lập bảng cơ tim máu cơ tim
Giả dược 189 10845 11034
p.phối mẫuđồng thời và biên duyên, các Aspirin 104 10933 11037
bảng p.phối mẫu có đ/k.
5.2.3. Sự độc lập. (==S3.Ca2==) X, Y là độc lập thống kê nếu các p.phối có đ/k của Y là
không thay đổi khi X thay đổi giá trị. Khi hai biến độc lập, xác suất của bất kỳ phản ứng
nào của cột j giống nhau ở mỗi hàng. Ví dụ, niềm tin vào một thế giới bên kia là không
phụ thuộc vào giới tính nếu xác suất tin vào thế giới bên kia của cả nam và nữ là 0,7367.
Khi cả hai biến là các biến đáp ứng, có thể mô tả mối quan hệ của chúng bằng cách sử
dụng phân phối đồng thời, hoặc p.phối có đ/k của Y theo X hoặc p.phối có đ/k của X theo
Y. Tính độc lập thống kê sẽ tương đương hệ thức: 𝜋𝜋𝑖𝑖𝑖𝑖 = 𝜋𝜋𝑖𝑖+ . 𝜋𝜋+𝑗𝑗 , ∀𝑖𝑖, 𝑗𝑗
5.3. So sánh tỷ lệ trong bảng hai chiều. Biến đáp ứng có 2 biểu hiện được gọi là biến nhị
phân. Phần này trình bày các p.pháp so sánh mức độ phản ứng trên biến nhị phân.
5.3.1. Sự khác biệt giữa hai tỷ lệ. Với biến đáp ứng nhị phân Y, ta dùng thuật ngữ “thành
công” cho một đáp ứng và “thất bại” cho đáp ứng còn lại. Đ/v hàng i, ký hiệu 𝜋𝜋𝑖𝑖 là xs
thành công thì 1 − 𝜋𝜋𝑖𝑖 là xs thất bại. Cặp (𝜋𝜋𝑖𝑖 , 1 − 𝜋𝜋𝑖𝑖 ) là p.phối xs có đ/k của Y trong hàng i.
Đn 1: π1 – π2 gọi là khác biệt của 2 tỷ lệ (s.sánh xs thành công ở 2 hàng)
Ta có: −1 ≤ 𝜋𝜋1 − 𝜋𝜋2 ≤ 1 𝑣𝑣𝑣 𝜋𝜋1 − 𝜋𝜋2 = 0 ⇔ 𝜋𝜋1 = 𝜋𝜋2 .
Ký hiệu 𝑓𝑓𝑖𝑖 là tỷ lệ mẫu của “thành công” ở hàng 𝑖𝑖 (𝑖𝑖 = 1, 2), π1 – π2 được ước lượng bởi
𝑓𝑓1 − 𝑓𝑓2 . Khi n khá lớn, KTC với độ tin cậy 𝛾𝛾 = 1 − 𝛼𝛼, cho sự sai khác về tỷ lệ: 𝜋𝜋1 − 𝜋𝜋2 là:
� 𝒇𝒇𝟏𝟏 − 𝒇𝒇𝟐𝟐 , 𝒇𝒇𝟏𝟏 − 𝒇𝒇𝟐𝟐 + 𝒖𝒖(𝜶𝜶/𝟐𝟐) 𝝈𝝈
𝒇𝒇𝟏𝟏 − 𝒇𝒇𝟐𝟐 − 𝒖𝒖(𝜶𝜶/𝟐𝟐) 𝝈𝝈 � 𝒇𝒇𝟏𝟏 − 𝒇𝒇𝟐𝟐
𝑓𝑓1 1−𝑓𝑓1 𝑓𝑓2 1−𝑓𝑓2
với: 𝜎𝜎� 𝑓𝑓1 − 𝑓𝑓2 = + ;
𝑛𝑛1+ 𝑛𝑛2+
VD3: Dựa vào điều tra ở VD1, cần ước lượng KTC 95% cho sai khác về tỷ lệ tin vào thế giới
bên kia giữa phụ nữ và đàn ông Mỹ.
Với 𝛾𝛾 = 1 − 𝛼𝛼 = 0,95, 𝑐𝑐𝑐 𝛼𝛼 = 0,05, 𝑢𝑢(𝛼𝛼/2) = 𝑧𝑧(𝛼𝛼/2) = 1,96. Có:
𝑛𝑛 𝑛𝑛
𝑓𝑓1 = 𝑛𝑛 11 = 0,7473; 𝑓𝑓2 = 𝑛𝑛 21 = 0,7367; 𝜎𝜎� 𝑓𝑓1 − 𝑓𝑓2 = 0,0266;
1+ 2+
𝑓𝑓1 − 𝑓𝑓2 − 𝑧𝑧𝛼𝛼/2 𝜎𝜎� 𝑓𝑓1 − 𝑓𝑓2 = −0,0415; 𝑓𝑓1 − 𝑓𝑓2 + 𝑧𝑧𝛼𝛼/2 𝜎𝜎� 𝑓𝑓1 − 𝑓𝑓2 = 0,0627
Vậy khoảng tin cậy 95% cho sai lệch này là: −0,0415; 0,0627 .
VD4 (Bài tập). Từ dữ liệu trong VD2, hãy tìm KTC 95% cho sự khác biệt về tỷ lệ bị nhồi
máu cơ tim giữa những người không dùng Aspirin và những người dùng Aspirin.
5.3.2. Rủi ro tương đối (relative risk). Sự khác biệt giữa hai tỷ lệ 𝜋𝜋1 , 𝜋𝜋2 được đánh giá
qua sai số tuyệt đối (𝜋𝜋1 − 𝜋𝜋2 ) chỉ dựa vào khoảng cách giữa hai tỷ lệ này mà bỏ qua độ
lớn và ý nghĩa của chúng, nghĩa là khoảng cách như nhau thì đánh giá sai lệch như nhau.
Chẳng hạn khi 𝜋𝜋1 = 0,01 và 𝜋𝜋2 = 0,001 và khi 𝜋𝜋1 = 0,410 và 𝜋𝜋2 = 0,401 đều được
đánh giá là có sai lệch như nhau. Tuy nhiên nếu chỉ dựa vào k.cách này để đánh giá, so
sánh hai t.quan giữa hai tỷ lệ thì không đủ, thậm chí sẽ bỏ qua những ý nghĩa q.trọng của
sự t.quan của chúng, đặc biệt khi 2 tỷ lệ này cùng gần 0 hoặc 1, hoặc cùng gần 0,5.
VD so sánh 𝜋𝜋1 , 𝜋𝜋2 là tỷ lệ bị tác dụng phụ (p.ứng bất lợi) của 2 loại thuốc, trong 2 tr.hợp:
TH1: Sự khác biệt trong khoảng từ 0,001 đến 0,01.
TH2: Sự khác biệt trong khoảng từ 0,401 đến 0,410.
Cả hai TH này, sự khác biệt về tỷ lệ bị tác dụng phụ là như nhau (đều là 0,009). Nhưng nếu
𝜋𝜋 𝜋𝜋
để ý đến tỷ số 1 : ở TH1: 1 = 10, cho thấy khi bệnh nhân điều trị, phản ứng bất lợi của
𝜋𝜋
2 2 𝜋𝜋
𝜋𝜋1
loại thuốc thứ nhất gấp 10 lần loại thuốc thứ hai; ở TH2: = 1,0224, cho thấy khi bệnh
𝜋𝜋2
nhân điều trị, p.ứng bất lợi của loại thuốc thứ nhất gấp 1,0224 lần loại thứ hai, tức là gần
như nhau. Sự khác biệt ở TH1 là đáng chú ý hơn.
Khi đó tỉ số giữa các tỷ lệ là một thước đo hữu ích.
ĐN2: Với 𝜋𝜋1 và 𝜋𝜋2 là xs “thành công” của 2 nhóm. Rủi ro tương đối (relative risk) giữa hai
nhóm này là tỷ lệ xs “thành công” của hai nhóm: 𝝅𝝅𝟏𝟏 /𝝅𝝅𝟐𝟐
- Trong vd trên tỷ lệ về phản ứng bất lợi của loại thuốc thứ nhất và loại thuốc thứ hai, TH1
có rủi ro tương đối 10,00 và TH2 có rủi ro tương đối là 1,02.
𝜋𝜋1 𝜋𝜋1
Lưu ý: * ≥ 0; = 1 ⇔biến đáp ứng độc lập theo nhóm.
𝜋𝜋2 𝜋𝜋2
𝑓𝑓1 𝜋𝜋1
* gọi là rủi ro tương đối mẫu, dùng để xấp xỉ cho .
𝑓𝑓2 𝜋𝜋2
𝜋𝜋 𝜋𝜋
* KTC của 𝜋𝜋1 tìm được thông qua KTC cho 𝑙𝑙𝑙𝑙𝑙𝑙 𝜋𝜋1 là:
2 2
𝑓𝑓1 𝛼𝛼 1−𝑓𝑓1 1−𝑓𝑓2 𝑓𝑓1 𝛼𝛼 1−𝑓𝑓1 1−𝑓𝑓2
(𝑙𝑙𝑙𝑙𝑙𝑙 − 𝑢𝑢 + 𝑛𝑛 ; 𝑙𝑙𝑙𝑙𝑙𝑙 + 𝑢𝑢 + 𝑛𝑛 )
𝑓𝑓2 2 𝑛𝑛1+ .𝑓𝑓1 2+ .𝑓𝑓2 𝑓𝑓2 2 𝑛𝑛1+ .𝑓𝑓1 2+ .𝑓𝑓2

Vd 5: Trong VD2: f1/f2 = 0,0171 / 0,0094 = 1,82: tỷ lệ nhồi máu cơ tim đ/v nhóm dùng giả
dược cao hơn 82% so với nhóm dùng aspirin.
𝜋𝜋1 𝜋𝜋
KTC cho 𝑙𝑙𝑙𝑙𝑙𝑙 là: 0,3607; 0,8329 . KTC cho 𝜋𝜋1 là: 1,43; 2,30 . Vậy, có thể tin tưởng
𝜋𝜋2 2
95% rằng, sau năm năm, nếu dùng giả dược thì nguy cơ nhồi máu cơ tim cao gấp từ 1,43
đến 2,30 lần so với aspirin. Cho thấy nguy cơ nhồi máu cơ tim cao hơn ít nhất 43% đối với
nhóm dùng giả dược. KTC cho sự khác biệt về tỷ lệ là (0,005; 0,011) có vẻ như 2 nhóm khác
rất nhỏ, nhưng nguy cơ tương đối cho thấy sự khác biệt có thể có ý nghĩa quan trọng. Nếu
chỉ sử dụng sự chênh lệch tỷ lệ để so sánh hai nhóm có thể gây nhầm lẫn khi tỷ lệ của cả
hai nhóm đều rất gần không.
5.3.3. Tỷ lệ chênh (Odds ratio): Là tham số cơ bản dùng cho các MH.
a. ĐN3: Trong hàng 𝑖𝑖 của bảng p.phối đồng thời 2 × 2, tỷ lệ cược (odds) của “thành công”
là tỷ số giữa xs “thành công” và xs “không thành công”, ký hiệu 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑖𝑖 :
𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑖𝑖 = 𝜋𝜋𝑖𝑖 : (1 − 𝜋𝜋𝑖𝑖 )
b. NX: - 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑖𝑖 là tỷ lệ giữa khả năng “thành công” và khả năng “không thành công” trong
cùng một đ/k tác động của biến giải thích.
- Odds không âm: Odds = 1: k.năng “thành công” và “không thành công” ngang nhau;
Odds > 1: k.năng “thành công” cao hơn k.năng “không thành công”
- Xs thành công tính qua odds: 𝜋𝜋𝑖𝑖 = 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑖𝑖 : (1 + 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑖𝑖 )
- Thường odds được xấp xỉ bởi tỷ lệ cược mẫu (sample odds): 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 �𝑖𝑖 = 𝑓𝑓𝑖𝑖 = 𝑛𝑛𝑖𝑖𝑖
1−𝑓𝑓 𝑛𝑛 𝑖𝑖 𝑖𝑖𝑖
Vd 6: với π1 = 0,75, có 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜1 = 0,75: (1 − 0,75) = 3: k.năng “thành công” gấp 3 lần
k.năng “không thành công” với cùng đ/k tác động của biến giải thích.
Vd 7: Khi 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜2 = 1,5, có 𝜋𝜋2 = 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜2 /(1 + 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜2 ) = 0,6
�1 = 𝑛𝑛11 : 𝑛𝑛12 = 0,0174; 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜
Vd 8: Từ dữ liệu ở VD2, có: 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 �2 = 𝑛𝑛21 : 𝑛𝑛22 = 0,0095;
c.ĐN4: Tỷ lệ chênh (Odds ratio) của 2 hàng 1 và 2, ký hiệu là 𝜃𝜃, là tỷ số giữa tỷ lệ cược của
𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝟏𝟏 𝝅𝝅 𝟏𝟏−𝝅𝝅𝟐𝟐
“thành công” hàng 1 và tỷ lệ cược của “thành công” hàng 2: 𝜽𝜽 = = 𝝅𝝅𝟏𝟏
𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝟐𝟐 𝟐𝟐 𝟏𝟏−𝝅𝝅𝟏𝟏
Vậy odds ratio là tỷ số của 2 odds trên 2 dòng khác nhau, rủi ro tương đối là tỷ số của xs
“thành công” trên 2 dòng khác nhau.
d. Các tính chất của odds ratio
𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜1
∗ 𝛉𝛉 ≥ 𝟎𝟎; Khi X, Y độc lập thì π1 = π2, odds1 = odds2 và 𝜃𝜃 = = 1.
𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜
2
* Khi 1 < 𝛉𝛉 < ∞: khả năng “thành công” so với “thất bại” trong hàng 1 lớn trong khả năng
”thành công” so với khả năng “thất bại” trong hàng 2, nghĩa là khả năng ”thành công”
trong hàng số 1 sẽ nhiều hơn so với hàng số 2.
* Khi 0 < 𝛉𝛉 < 1: khả năng ”thành công” trong hàng 1 ít hơn hàng 2.
* 𝜃𝜃 càng xa 1,0: mức độ liên kết giữa X và Y càng mạnh theo một xu hướng nhất định. * 𝜃𝜃
càng gần 1,0: sự liên kết càng yếu và càng gần với tính độc lập. 𝜃𝜃 có thể đo mức độ liên kết
hay mức độ phụ thuộc của hai biến.
- Hai giá trị nghịch đảo của 𝜃𝜃 đại diện cho cùng một mức độ liên kết, nhưng theo 2 hướng
ngược nhau. Ví dụ 𝜃𝜃 = 0,25, tỷ lệ thành công ở hàng 1 bằng một phần tư tỷ lệ thành công ở
hàng 2. Khi 𝜃𝜃 = 4,0, tỷ lệ thành công của hàng 1 gấp 4 lần tỷ lệ thành công ở hàng 2.
- Khi thứ tự các hàng được đảo ngược hoặc thứ tự của các cột được đảo ngược, giá trị của
tỷ lệ chênh được lấy nghịch đảo của giá trị ban đầu.
- Odds ratio không thay đổi giá trị khi hoán đổi các cột và các hàng cho nhau, tức là odds
ratio không phân biệt giữa biến giải thích và biến đáp ứng. Ngược lại, rủi ro tương đối lại
đòi hỏi điều này, và giá trị của nó cũng phụ thuộc vào việc chúng ta áp dụng nó vào loại
phản ứng thứ nhất hay thứ hai.
𝜋𝜋 /𝜋𝜋 𝜋𝜋 .𝜋𝜋
e. Chú ý : - Khi 2 biến đều là biến đáp ứng, thì odds ratio được đ/n: 𝜃𝜃 = 𝜋𝜋11/𝜋𝜋12 = 𝜋𝜋11.𝜋𝜋22
21 22 12 21
- Trong thực tế, odds ratio được ước lượng bởi odds ratio mẫu 𝜃𝜃: ̂
� = 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝟏𝟏 = 𝒇𝒇𝟏𝟏 /(𝟏𝟏−𝒇𝒇𝟏𝟏 ) = 𝒏𝒏𝟏𝟏𝟏𝟏 .𝒏𝒏𝟐𝟐𝟐𝟐
𝜽𝜽 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐 𝟐𝟐 /(𝟏𝟏−𝒇𝒇 )
𝒇𝒇𝟐𝟐 𝟐𝟐 𝒏𝒏 .𝒏𝒏
𝟏𝟏𝟏𝟏 𝟐𝟐𝟐𝟐
�1 =
Vd 9: Từ bảng 2.8, n/c tác dụng của Asparin đ/v người bị nhồi máu cơ tim, có: 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜
𝑛𝑛11 : 𝑛𝑛12 = 189: 10845 = 0,0174: tỷ lệ giữa người bị nhồi máu cơ tim và không bị nhồi
máu cơ tim khi dùng giả dược là 1,74/100. Đ/v nhóm dùng Asparin thì tỷ lệ này là 0,0095
nghĩa là tỷ lệ giữa người bị và không bị nhồi máu cơ tim khi dùng Asparin là 0,95% .
𝜃𝜃̂ = 0,0174: 0,0095 = 1,832: tỷ lệ người bị nhồi máu cơ tim đ/v người dùng giả dược cao
hơn 83,2% so với nhóm dùng Asparin.
g. Suy diễn cho odds ratio và log của odds ratios. Mức 𝜃𝜃 = 1 là mức trung gian phân định
chiều hướng của sự liên kết, nhưng 𝜃𝜃̂ biến thiên từ 0 đế𝑛𝑛 + ∞, không đối xứng qua mức
này. Do sự mất cân đối này nên các v/đ suy diễn cho odds ratio sẽ thông qua log(𝜃𝜃), phép
lấy nghịch đảo của 𝜃𝜃 khi đó ứng với phép đ.xứng qua 0 của log(𝜃𝜃) .
Khi cỡ mẫu khá lớn, log(𝜃𝜃) ̂ xấp xỉ chuẩn với kỳ vọng log(𝜃𝜃) và độ lệch:
𝑆𝑆𝑆𝑆 𝑙𝑙𝑙𝑙𝑙𝑙 𝜃𝜃� = 𝑛𝑛11
−1 −1
+ 𝑛𝑛12 −1
+ 𝑛𝑛21 −1
+ 𝑛𝑛22 . KTC cho log(𝜃𝜃) là:
𝛼𝛼
𝑙𝑙𝑙𝑙𝑙𝑙 𝜃𝜃� − 𝑢𝑢 . 𝑆𝑆𝑆𝑆 𝑙𝑙𝑙𝑙𝑙𝑙 𝜃𝜃� ; 𝑙𝑙𝑙𝑙𝑙𝑙 𝜃𝜃� + 𝑢𝑢 𝛼𝛼/2 . 𝑆𝑆𝑆𝑆 𝑙𝑙𝑙𝑙𝑙𝑙 𝜃𝜃�
2
Vd 10 : Tìm KTC 95% cho odds ratio về “thành công”, từ bảng 2.8: log 𝜃𝜃̂ = log(1,82) =
0,605 và SE(log 𝜃𝜃̂ ) = (1/189 + 1/10.933 + 1/10.845 + 1/104)1/2 = 0,123. KTC 95% của
log(𝜃𝜃): 0,605 ± 1,96.0,123 ≡ (0,365 ; 0,846), nên KTC cho 𝜃𝜃 là: (e0,365 ; e0,846) = (1,44 ;
2,33), KTC này dự đoán rằng odds của MI nhóm dùng giả dược cao hơn ít nhất 44% so với
nhóm dùng aspirin.
* 𝜃𝜃̂ bằng 0 hoặc ∞ nếu có 𝑛𝑛𝑖𝑖𝑖𝑖 = 0, và nó không xác định nếu cả hai ô trong một hàng hoặc
cột là 0. Khi đó ước lượng cho 𝜃𝜃 cần sửa đổi một chút: 𝜽𝜽� = 𝒏𝒏𝟏𝟏𝟏𝟏 +𝟎𝟎,𝟓𝟓 𝒏𝒏𝟐𝟐𝟐𝟐 +𝟎𝟎,𝟓𝟓 (tăng thêm 0,5
𝒏𝒏 +𝟎𝟎,𝟓𝟓 𝒏𝒏 +𝟎𝟎,𝟓𝟓 𝟏𝟏𝟏𝟏 𝟐𝟐𝟐𝟐
cho mỗi ô). Điều này phù hợp hơn khi các tần số ô rất nhỏ hoặc bằng 0. Khi đó, trong SE sẽ
thay 𝑛𝑛𝑖𝑖𝑖𝑖 bởi 𝑛𝑛𝑖𝑖𝑖𝑖 + 0,5. Với VD2, 𝜃𝜃� = 1,828 ≈ 1,832, vì không có ô tần số nào quá nhỏ.
h. Quan hệ giữa Odds ratio và rủi ro tương đối . 𝜃𝜃̂ = 1,83 không có nghĩa là 𝑓𝑓1 gấp 1,83
𝑓𝑓1 𝑓𝑓2
lần 𝑓𝑓2 , mà có nghĩa là giá trị tỷ lệ cược 1−𝑓𝑓 bằng 1,83 lần giá trị tỷ lệ cược 1−𝑓𝑓 . Từ định
1 2
𝜋𝜋1 /1−𝜋𝜋1 1−𝜋𝜋2
nghĩa ta có : 𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 =
𝜋𝜋2 /1−𝜋𝜋2
= 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 ×
1−𝜋𝜋1
𝑓𝑓1 /1 − 𝑓𝑓1 1 − 𝑓𝑓2
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 = = 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 ×
𝑓𝑓2 /1 − 𝑓𝑓2 1 − 𝑓𝑓1
Khi tỷ lệ thành công gần bằng 0 cho cả hai nhóm, thì tỷ lệ chênh lệch và rủi ro xấp xỉ nhau.
Để minh họa sự xấp xỉ này xét dữ liệu trong VD2 . Đ/v mỗi nhóm, tỷ lệ mẫu của các trường
hợp MI gần bằng không (f1 = 189/11034 = 0,171; f2 = 104/11037 = 0,0094)
Như vậy 𝜃𝜃̂ =1,83 xấp xỉ với mức rủi ro tương đối mẫu 1,82 đạt được trong phần 2.2.3, và
tỷ lệ chênh lệch 1,83 cũng có nghĩa là 𝑓𝑓1 xấp xỉ 1,83 lần 𝑓𝑓2 . Trong trường hợp như vậy, khi
việc tính toán các rủi ro tương đối là không thể, có thể tính toán và sử dụng odds ratio để
xấp xỉ cho rủi ro tương đối.
5.4. Các kiểm định Chi – Bình phương về tính độc lập
5.4.1. Đặt bài toán. G.s các biến X, Y là định tính.
Qua điều tra, X có k thuộc tính (k dấu hiệu): X Y B1 ... Bj ... Bm 𝑛𝑛𝑖𝑖+
A1, A2,..., Ak; Y có m thuộc tính: B1, B2,..., Bm, A1 𝑛𝑛11 ... 𝑛𝑛1𝑗𝑗 ... 𝑛𝑛1𝑚𝑚 𝑛𝑛1+
nhận được bảng dữ liệu bên với 𝑛𝑛𝑖𝑖𝑖𝑖 là số lần ⋮ ⋮ ⋮ ⋮ ⋮
xuất hiện cặp 𝐴𝐴𝑖𝑖 , 𝐵𝐵𝑗𝑗 , và ∑𝑖𝑖,𝑗𝑗 𝑛𝑛𝑖𝑖𝑖𝑖 = 𝑛𝑛. Ai 𝑛𝑛𝑖𝑖𝑖 ... 𝑛𝑛𝑖𝑖𝑖𝑖 ... 𝑛𝑛𝑖𝑖𝑖𝑖 𝑛𝑛𝑖𝑖+
⋮ ⋮ ... ⋮ ... ⋮
Cần xác minh xem X và Y độc lập hay không.
Ak 𝑛𝑛𝑘𝑘𝑘 ... 𝑛𝑛𝑘𝑘𝑘𝑘 ... 𝑛𝑛𝑘𝑘𝑘𝑘 𝑛𝑛𝑘𝑘+
5.4.2. Các thống kê kiểm định (TK) 𝑛𝑛+𝑗𝑗 𝑛𝑛+1 𝑛𝑛+𝑗𝑗 𝑛𝑛+𝑚𝑚 N
a. Thống kê Pearson. Trên cơ sở giả thuyết H0 đúng, tức là X và Y độc lập nhau, do vậy:
𝑛𝑛𝑖𝑖𝑖𝑖 𝑛𝑛 𝑛𝑛+𝑗𝑗
𝑃𝑃 𝐴𝐴𝑖𝑖 , 𝐵𝐵𝑗𝑗 = 𝑃𝑃 𝐴𝐴𝑖𝑖 . 𝑃𝑃 𝐵𝐵𝑗𝑗 , ∀𝑖𝑖, 𝑗𝑗. Từ đó: 𝑓𝑓𝑖𝑖𝑖𝑖 = 𝑛𝑛 = 𝑓𝑓𝑖𝑖+ . 𝑓𝑓+𝑗𝑗 = 𝑛𝑛𝑖𝑖+ . 𝑛𝑛 , ∀𝑖𝑖, 𝑗𝑗
Karl Pearson đã đưa ra thống kê (Thống kê Pearrson):
𝑛𝑛𝑖𝑖𝑖𝑖 𝑛𝑛 𝑛𝑛+𝑗𝑗 2
− 𝑛𝑛𝑖𝑖+ . 𝑛𝑛 2
𝑛𝑛𝑖𝑖𝑖𝑖
2
𝜒𝜒 = 𝑛𝑛. ∑𝑘𝑘𝑖𝑖=1 ∑𝑚𝑚
𝑗𝑗=1
𝑛𝑛
𝑛𝑛𝑖𝑖+ 𝑛𝑛+𝑗𝑗 = 𝑛𝑛. 𝑘𝑘 𝑚𝑚
∑𝑖𝑖=1 ∑𝑗𝑗=1 −1
. 𝑛𝑛𝑖𝑖+ .𝑛𝑛+𝑗𝑗
𝑛𝑛 𝑛𝑛
* 𝜒𝜒 2 càng lớn, là bằng chứng mạnh để bác H0 . Khi n khá lớn thì 𝜒𝜒 2 có p.phối xấp xỉ Chi –
bình phương với bậc tự do 𝑑𝑑𝑑𝑑 = 𝑘𝑘 − 1 . (𝑚𝑚 − 1). Để tính 𝜒𝜒 2 , dùng phần mềm, hoặc lập
2
𝑛𝑛𝑖𝑖𝑖𝑖
bảng tính, mỗi ô tần số 𝑛𝑛𝑖𝑖𝑖𝑖 ghi thêm giá trị vào trong ngoặc (…) như sau:
𝑛𝑛𝑖𝑖+ .𝑛𝑛+𝑗𝑗
X Y B1 ... Bj ... Bm ∑
A1 𝑛𝑛11 (….) ... 𝑛𝑛1𝑗𝑗 (…) ... 𝑛𝑛1𝑚𝑚 (….) 𝑛𝑛1+
⋮ ⋮ ⋮ ⋮ ⋮
Ai 𝑛𝑛𝑖𝑖𝑖 (….) ... 𝑛𝑛𝑖𝑖𝑖𝑖 (…) ... 𝑛𝑛𝑖𝑖𝑖𝑖 (….) 𝑛𝑛𝑖𝑖+
⋮ ⋮ ... ⋮ ... ⋮ ⋮
Ak 𝑛𝑛𝑛𝑛𝑘𝑘𝑘 (….) ... 𝑛𝑛𝑘𝑘𝑘𝑘 (…) ... 𝑛𝑛𝑘𝑘𝑘𝑘 (….) 𝑛𝑛𝑘𝑘+
∑ 𝑛𝑛+1 ... 𝑛𝑛+𝑗𝑗 ... 𝑛𝑛+𝑚𝑚 N
Bảng tính cho thống kê Pearson

Khi đó: 𝜒𝜒 2 = 𝑛𝑛. 𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝑐𝑐𝑐𝑐𝑐 𝑠𝑠𝑠 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑐𝑐𝑐𝑐𝑐 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 − 1 , hoặc có thể 𝜒𝜒 2 được tính từ công
2
𝜇𝜇𝑖𝑖𝑖𝑖
𝑛𝑛𝑖𝑖𝑖𝑖 −�
thức: 𝜒𝜒 2 = ∑𝑖𝑖,𝑗𝑗 � 𝑖𝑖𝑖𝑖
, ở mỗi ô tần số 𝑛𝑛𝑖𝑖𝑖𝑖 mở ngoặc ghi thêm theo thứ tự là
𝜇𝜇
2
𝜇𝜇̂ 𝑖𝑖𝑖𝑖 = 𝑛𝑛𝑖𝑖+ . 𝑛𝑛+𝑗𝑗 : 𝑛𝑛, và 𝑛𝑛𝑖𝑖𝑖𝑖 − 𝜇𝜇̂ 𝑖𝑖𝑖𝑖 : 𝜇𝜇̂ 𝑖𝑖𝑖𝑖 Khi đó :
𝜒𝜒 2 = 𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝑐𝑐𝑐𝑐𝑐 𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑝𝑝𝑝𝑝𝑝𝑝 𝑡𝑡𝑡𝑡 ℎ𝑎𝑎𝑎𝑎 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛.

𝐻𝐻𝐻𝐻𝐻 𝑙𝑙𝑙 𝑡𝑡𝑡𝑡𝑡 đ𝑎𝑎 𝑘𝑘𝑘𝑘𝑘 𝑐𝑐𝑐𝑐𝑐 𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑠𝑠𝑠 𝑡𝑡𝑡𝑡𝑡𝑡 𝑚𝑚𝑚𝑚𝑚 𝐻𝐻
b. Thống kê tỷ số hợp lý. Xét tỷ số: Λ = 𝐻𝐻𝐻𝐻𝐻 𝑙𝑙𝑙 𝑡𝑡𝑡𝑡𝑡 đ𝑎𝑎 𝑘𝑘𝑘𝑘𝑘 𝑐𝑐𝑐𝑐𝑐 𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑠𝑠𝑠 𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘 𝑏𝑏𝑏 ℎạ𝑛𝑛 𝑐𝑐𝑐𝑐
0

* Λ ≪ 1 xa là bằng chứng mạnh bác H0. Thống kê tỷ số hợp lý: −2𝑙𝑙𝑙𝑙𝑙𝑙Λ . Với bảng hai
𝑛𝑛𝑖𝑖𝑖𝑖 𝑛𝑛𝑖𝑖+ .𝑛𝑛+𝑗𝑗
chiều, thống kê này x.định bởi: 𝐺𝐺 2 = 2 ∑ 𝑛𝑛𝑖𝑖𝑖𝑖 . 𝑙𝑙𝑙𝑙𝑙𝑙 � 𝑖𝑖𝑖𝑖
𝜇𝜇
(với 𝜇𝜇̂ 𝑖𝑖𝑖𝑖 = 𝑛𝑛. 𝑓𝑓𝑖𝑖+ . 𝑓𝑓+𝑗𝑗 = )
𝑛𝑛
𝐺𝐺 2 gọi là thống kê likelihood-ratio Chi - bình phương. Như 𝜒𝜒 2 , 𝐺𝐺 2 có giá trị nhỏ nhất là 0
khi tất cả 𝑛𝑛𝑖𝑖𝑖𝑖 = 𝜇𝜇̂ 𝑖𝑖𝑖𝑖 , 𝐺𝐺 2 càng lớn thì cung cấp bằng chứng mạnh hơn để bác H0. Mặc dù 𝜒𝜒 2
và 𝐺𝐺 2 cung cấp thống kê k.định riêng biệt, nhưng thường mang lại những k.luận tương tự.
Khi H0 là đúng và các tần số mẫu ở các ô lớn, 𝜒𝜒 2 và 𝐺𝐺 2 có phân phối xấp xỉ chi bình phương
với bậc tự do 𝑑𝑑𝑑𝑑 = 𝑘𝑘 − 1 . (𝑚𝑚 − 1), và các giá trị số của chúng là xấp xỉ. Mỗi thống kê
đều có những thuận lợi và bất lợi. Để tính 𝐺𝐺 2 , có thể dùng phần mềm, hoặc tính trực tiếp
bằng cách lập bảng như trên đối với 𝜒𝜒 2 .
5.4.3. Giải quyết bài toán. GT 𝐻𝐻0 : X, Y độc lập
- Dùng thống kê Pearson: Tiêu chuẩn bác 𝐻𝐻0 là:
𝝌𝝌𝟐𝟐 > 𝝌𝝌𝟐𝟐𝒌𝒌−𝟏𝟏 . 𝒎𝒎−𝟏𝟏 (𝜶𝜶) hoặc: 𝒑𝒑 − 𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗 = 𝑷𝑷𝑷𝑷𝑷𝑷𝑷𝑷 𝝌𝝌𝟐𝟐 < 𝜶𝜶
- Dùng thống kê Tỷ số hợp lý : Tiêu chuẩn bác 𝐻𝐻0 là:
𝑮𝑮𝟐𝟐 > 𝝌𝝌𝟐𝟐𝒌𝒌−𝟏𝟏 . 𝒎𝒎−𝟏𝟏 (𝜶𝜶) hoặc: 𝒑𝒑 − 𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗 = 𝑷𝑷𝑷𝑷𝑷𝑷𝑷𝑷 𝑮𝑮𝟐𝟐 < 𝜶𝜶
Vd 11: Cần xác minh sự ủng hộ của người dân
về một sắc thuế mới có phụ thuộc vào mức thu
nhập của họ hay không, điều tra 1000 công dân, Thu nhập Thái độ Ủng hộ Phản đối
có bảng dữ liệu bên. Thấp 182 154
Giải: Các biến: Y thái độ của công dân đ/v sắc thuế Trung bình 213 138
mới (ủng hộ, phản đối); X mức thu nhập của công Cao 203 110
dân (thấp, trung bình, cao). Y/c k.định Gt 𝐻𝐻0 : 𝑋𝑋, 𝑌𝑌 độ𝑐𝑐 𝑙𝑙𝑙𝑙𝑙; Đt 𝐻𝐻1 : 𝑋𝑋, 𝑌𝑌 𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘 độ𝑐𝑐 𝑙𝑙𝑙𝑙𝑙.
Tra bảng, có: 𝜒𝜒 2𝑘𝑘−1 . 𝑚𝑚−1 𝛼𝛼 = 𝜒𝜒 22−1 . 3−1 0,05 = 5,991. Lập bảng tính, nhận được:
𝜒𝜒 2 = 7,9 > 𝜒𝜒 2𝑘𝑘−1 . 𝑚𝑚−1 𝛼𝛼 = 5,991. Bác 𝐻𝐻0 với mức ý nghĩa 5%: sự ủng hộ của người
dân phụ thuộc vào mức thu nhập của họ.
2
-Dùng P – value: 𝑃𝑃 − 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 = 𝑃𝑃 𝜒𝜒22 ≥ 𝜒𝜒q/s = 7,9 < 𝑃𝑃 𝜒𝜒22 ≥ 7,378 = 0,025 < 0,05
đây cũng là bằng chứng để bác 𝐻𝐻0 .
Vd 12 : Từ dữ liệu VD2, cần xác minh 𝐻𝐻0 : Niềm tin Y độc lập với giới tính X.
Giải: T.chuẩn bác 𝐻𝐻0 : 𝑃𝑃 − 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 < 𝛼𝛼,
Test Statistics df Value Prob
Chạy k.định trên Eviews cho kết quả:
Pearson X2 1 0.162084 0.6872
- Nếu dùng thống kê Pearson: Likelihood Ratio G2 1 0.161995 0.6873
p-value = Prob(X2) = 0,6872 > 𝛼𝛼 = 0,05
- Nếu dùng thống kê tỷ số hợp lý: p-value = Prob(G2) = 0,6873 > 𝛼𝛼 = 0,05
và nhận được cùng một k.luận là nhận 𝐻𝐻0 : Niềm tin Y độc lập với giới tính X.
Vd 13(Bài tập). Có bảng dữ liệu bên về thái Số sinh viên
độ của s/v với việc chấp hành nội quy trường. Giới tính Chấp hành nội quy Vi phạm nội quy
Cần xác minh xem thái độ của sinh viên có Nam 400 40
độc lập với giới tính hay không. Nữ 200 2
Vd 14. Có dữ liệu khảo sát xã hội năm 1991 về 980 đảng viên của ba đảng: Dân chủ, Độc
lập, Cộng hòa. Cần xác minh có sự ảnh hưởng của giới tính đối với sự tham gia các đảng
phái này hay không. Các biến q/s ở đây là giới tính X (nữ, nam) và đảng phái Y.
Giải. Y/cầu kiểm định giả thuyết H0 : Đảng
Giới tính
X, Y độc lập. Dân Chủ Độc Lập Cộng Hòa Tổng
Chạy kiểm định trên Eviews, trong đó biến Nữ 279 73 225 577
Nam 165 47 191 403
Gender là giới tính (nam:=1, nữ:=0) và
Tổng 444 120 416 980
biến Party là đảng phái
(Democrat:= 0, Independent:= 1, Test Statistics df Value Prob
Pearson X2 2 7.009544 0.0301
Republican: = 2), nhận được bảng kết quả:
Likelihood Ratio G2 2 7.002594 0.0302
Theo đó, 𝜒𝜒 2 = 7,009544 > 𝜒𝜒22 0,05 = 5,991, có: 𝑝𝑝 − 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 = 0,0301 < 𝛼𝛼 = 0,05
𝐺𝐺 2 = 7,002594 > 𝜒𝜒22 0,05 = 5,991, có: 𝑝𝑝 − 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 = 0,0302 < 𝛼𝛼 = 0,05
Các kết quả trên đều bác bỏ giả thuyết H0 về tính độc lập và theo đó thì giới tính có ảnh
hưởng đến sự lựa chọn các đảng phái này.
5.4.4. Các nhận xét về kiểm định Chi – square (Tham khảo)
Các KĐ về tính độc lập của Chi – square chỉ đơn giản chỉ ra mức độ bằng chứng cho một
liên kết, không giúp trả lời tất cả các câu hỏi về tập dữ liệu, chẳng hạn khi k/q KĐ là chúng
không độc lập, thì xu hướng và mức độ của sự liên kết đó sẽ như thế nào ? Về dữ liệu, các
KĐ này y/c cỡ mẫu lớn. Các p.phối mẫu của 𝜒𝜒 2 và 𝐺𝐺 2 gần hơn với chi –square khi cỡ mẫu n
tăng, liên quan đến số ô (k.m). Hội tụ của 𝜒𝜒 2 về Chi – square nhanh hơn so với 𝐺𝐺 2 . Xấp xỉ
𝑛𝑛
chi – square là thô đối với 𝐺𝐺 2 khi 𝑘𝑘.𝑚𝑚 < 5. Khi k hoặc m lớn, xấp xỉ của 𝜒𝜒 2 được chấp nhận
cả khi một số tần số dự đoán bằng 1. 𝜒𝜒 2 và 𝐺𝐺 2 không thay đổi giá trị khi sắp lại các hàng
hoặc cột. Do đó các KĐ này xử lý cả hai : định tính cũng như danh nghĩa.
Khi bác H0 về tính độc lập trong bảng 𝑘𝑘 × 𝑚𝑚 nhờ t.kê để đánh giá mức độ liên kết, thường
𝟐𝟐
t.khảo t.kê Cramer : 𝑲𝑲 = 𝝌𝝌𝟐𝟐 : 𝒏𝒏. 𝒎𝒎𝒎𝒎𝒎𝒎 𝒌𝒌 − 𝟏𝟏, 𝒎𝒎 − 𝟏𝟏
𝐾𝐾 càng lớn thì 𝜒𝜒 2 càng lớn (càng cách xa 𝜒𝜒 2𝑘𝑘−1 𝑚𝑚−1 (𝛼𝛼)) càng có bằng chứng mạnh bác
H0, 𝜒𝜒 2 = 0 khi và chỉ khi K = 0. Do đó có thể t.khảo độ lớn của K đánh giá mức độ liên kết.
Xét ví dụ 14, với 𝜒𝜒 2 = 7,01, đã bác gt về tính độc lập giữa việc chọn đảng phái và giới tính.
Có : 𝐾𝐾 = 7,01: 980 × 1 𝟐𝟐 = 0,00005 khá bé, nên sự liên kết là có nhưng yếu.
5.4.5. Kiểm định tính độc lập cho mẫu thứ tự. Các t.kê KĐ dùng tính thứ tự thường thích
hợp hơn khi các hàng hoặc các cột được sắp xếp theo thứ tự.
a. Xu hướng tuyến tính trong liên kết. Khi dòng X và cột Y là thứ tự, liên kết "xu hướng" là
khá phổ biến. Đó là khi mức X tăng lên, các phản ứng của Y có xu hướng tăng (giảm) tới các
cấp độ cao (thấp) hơn. Có thể dùng một tham số để mô tả mối liên kết xu hướng thứ bậc
như vậy. Phân tích phổ biến nhất là cho điểm các mức độ định tính sau:
- Gán các số 𝑢𝑢1 ≤ ⋯ ≤ 𝑢𝑢𝑘𝑘 cho các hàng, và 𝑣𝑣1 ≤ ⋯ ≤ 𝑣𝑣𝑚𝑚 cho các cột.
- Điểm có cùng thứ tự như các cấp độ định tính và được cho là đơn điệu. Nguyên tắc gán
là: điểm số phản ánh k.cách giữa các loại, với khoảng cách lớn hơn giữa các loại được sắp
xếp xa nhau hơn. Khi đó bảng thống kê 𝑘𝑘 × 𝑚𝑚 có dạng:
Hệ số tương quan mẫu:
𝑋𝑋.𝑌𝑌−𝑋𝑋.𝑌𝑌 X Y 𝑣𝑣1 𝑣𝑣2 ⋯ 𝑣𝑣𝑚𝑚 𝑛𝑛𝑖𝑖+
𝑟𝑟 = 𝑟𝑟 𝑋𝑋, 𝑌𝑌 = 2 2
, trong đó :
𝑋𝑋 2 − 𝑋𝑋 . 𝑌𝑌 2 − 𝑌𝑌 𝑢𝑢1 𝑛𝑛11 𝑛𝑛12 ⋯ 𝑛𝑛1𝑚𝑚 𝑛𝑛1+
1 1 𝑢𝑢2 𝑛𝑛21 𝑛𝑛22 ⋯ 𝑛𝑛2𝑚𝑚 𝑛𝑛2+
𝑋𝑋 = � 𝑢𝑢𝑖𝑖 𝑛𝑛𝑖𝑖+ ; 𝑌𝑌 = � 𝑣𝑣𝑗𝑗 𝑛𝑛+𝑗𝑗 ; ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑛𝑛 𝑖𝑖 𝑛𝑛 𝑖𝑖,𝑗𝑗
𝑢𝑢𝑘𝑘 𝑛𝑛𝑘𝑘𝑘 𝑛𝑛𝑘𝑘𝑘 ⋯ 𝑛𝑛𝑘𝑘𝑘𝑘 𝑛𝑛𝑘𝑘+
1 1
𝑋𝑋. 𝑌𝑌 = � 𝑛𝑛𝑖𝑖𝑖𝑖 𝑢𝑢𝑖𝑖 𝑣𝑣𝑗𝑗 ; 𝑋𝑋 = � 𝑢𝑢𝑖𝑖2 𝑛𝑛𝑖𝑖+ ;
2 𝑛𝑛+𝑗𝑗 𝑛𝑛+1 𝑛𝑛+2 ⋯ 𝑛𝑛+𝑚𝑚 𝑛𝑛
𝑛𝑛 𝑖𝑖,𝑗𝑗 𝑛𝑛 𝑖𝑖
1
𝑌𝑌 2 = � 𝑣𝑣𝑗𝑗2 𝑛𝑛+𝑗𝑗
𝑛𝑛 𝑗𝑗
𝑟𝑟 bị chặn giữa -1 và +1. Sự độc lập thống kê (hay sự không tương quan) giữa các biến thể
hiện qua giá trị thực của nó bằng không. Dấu của 𝑟𝑟 biểu thị xu thế tương quan : Thuận,
nếu 𝑟𝑟 > 0, và nghịch, nếu 𝑟𝑟 < 0 ; 𝑟𝑟 càng lớn (càng bé) thì tqtt càng chặt (yếu). Có thể
tính r bởi các phần mềm. Khi các tần số ô lớn nên tính trực tiếp qua bảng tính như sau,
trong đó ô (i, j) được chia đôi để ghi thêm giá trị : 𝑛𝑛𝑖𝑖𝑖𝑖 𝑢𝑢𝑖𝑖 𝑣𝑣𝑗𝑗 (hoặc ghi trong ngoặc)
Các thống kê KĐ 𝐻𝐻0 : X và Y độc lập (thống kê) được cho bởi:
𝑀𝑀2 = (𝑛𝑛 − 1)𝑟𝑟 2 , 𝑀𝑀 = (𝑛𝑛 − 1)𝑟𝑟 2
X Y 𝑣𝑣1 𝑣𝑣2 ⋯ 𝑣𝑣𝐽𝐽 𝑛𝑛𝑖𝑖+ Kết quả trung gian
𝑢𝑢1 𝑛𝑛11 𝑛𝑛12 ⋯ 𝑛𝑛1𝐽𝐽 𝑛𝑛1+
𝑋𝑋
𝑢𝑢2 𝑛𝑛21 𝑛𝑛22 ⋯ 𝑛𝑛2𝐽𝐽 𝑛𝑛2+
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑋𝑋 2
𝑢𝑢𝐼𝐼 𝑛𝑛𝐼𝐼𝐼 𝑛𝑛𝐼𝐼𝐼 ⋯ 𝑛𝑛𝐼𝐼𝐼𝐼 𝑛𝑛𝐼𝐼+
𝑛𝑛+𝑗𝑗 𝑛𝑛+1 𝑛𝑛+2 ⋯ 𝑛𝑛+𝐽𝐽 𝑛𝑛
Kết quả trung gian 𝑌𝑌 𝑌𝑌 2 𝑋𝑋. 𝑌𝑌

𝑀𝑀2 , 𝑀𝑀 tăng lên khi 𝑟𝑟 2 và n tăng lên. Đ/v các mẫu lớn, 𝑀𝑀2 xấp xỉ phân phối Chi – square với
df = 1, 𝑀𝑀 xấp xỉ chuẩn . Các giá trị của 𝑀𝑀2 , 𝑀𝑀 càng lớn càng mâu thuẫn với tính độc lập
t.kê. Nếu dùng 𝑀𝑀2 để KĐ, thì tiêu chuẩn bác 𝑯𝑯𝟎𝟎 là: 𝑴𝑴𝟐𝟐 ≥ 𝝌𝝌𝟐𝟐𝟏𝟏 𝜶𝜶 (𝒉𝒉𝒉𝒉𝒉𝒉: 𝒑𝒑 − 𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗 < 𝜶𝜶)
𝑀𝑀2 không đổi nếu thay đổi các hàng với các cột hoặc cách cho điểm theo cùng một phép
co giãn, tịnh tiến cho các biến theo cùng một hướng.
Vd 15: Xem lại vd 11, cần K.định H0: sự ủng hộ của người dân về một sắc thuế mới không
phụ thuộc vào mức thu nhập của họ.
Giải: Y (thái độ) : gán 0: “phản đối”;1: “ủng hộ”; X : gán 0: “thấp”, 1: “trung bình”, 2: “cao”.
X Y 0 1 2 𝑛𝑛+𝑗𝑗 K/q trung gian
0 154 0 138 0 110 0 402 𝑌𝑌 = 0,598
1 182 0 213 213 203 406 598 𝑌𝑌 2 = 0,598
𝑛𝑛𝑖𝑖+ 336 351 313 n =1000 r = 0,0880
K/q trung gian 𝑋𝑋 = 0,977 𝑋𝑋 2 = 1,603 𝑋𝑋. 𝑌𝑌 = 0,619
Tiêu chuẩn bác H0: 𝑀𝑀2 ≥ 𝜒𝜒12 0,05 . Từ bảng tính: 𝑀𝑀2 = 7,736 ≥ 𝜒𝜒12 0,05 = 3,841
- Dùng kiểm định Cochran – Mantel - Haenszel, phần mềm R cho kết quả:
CMHtest(thaido, rscores = c(1, 0)) # row score
Cochran-Mantel-Haenszel Statistics
AltHypothesis Chisq Df Prob
cor Nonzero correlation 7.7403 1 0.0054002 # M-squared = 7.7403
Theo đó 𝑀𝑀 2 = 7,7403, P – value = Prob (M-squared) = 0,0054002 < 0,05
Ta bác H0, cho rằng : Thái độ của công dân đ/v sắc thuế mới phụ thuộc thu nhập của họ.
NX: Nếu dùng các thống kê Pearson hay tỷ số hợp lý, ta cũng đã có cùng kết luận như trên.
Vd 16 : (TK) (Rượu và dị tật trẻ sơ sinh). Mức tiêu Dị tật của trẻ Tỷ lệ (%) Số dư
Tổng
N/c việc uống rượu của mẹ và dị tật bẩm thụ rượu Không Có cộng
có dị tật điều
sinh của con. Sau 3 tháng đầu của thai kỳ, chỉnh
0 17066 48 17114 0,28 −0,18
phụ nữ trong mẫu đã trả lời câu hỏi về <1 14464 38 14502 0,26 −0,71
tiêu thụ rượu. Sau sinh, các q/s được ghi 1−2 788 5 793 0,63 1,84
nhận có hay không các dị tật cơ quan 3−5 126 1 127 0,79 1,06
≥6 37 1 38 2,63 2,71
sinh dục bẩm sinh. Lượng tiêu thụ rượu,
đo bằng số lượng t.bình của đồ uống mỗi ngày, với các loại được sắp là các mức tiêu thụ
rượu tương ứng với các khoảng có thứ tự từ thấp lên cao. Dị tật là biến danh nghĩa. Khi
một biến là danh nghĩa nhưng chỉ có hai loại, thống kê (như 𝑀𝑀 2 ) xử lý biến theo thứ tự vẫn
còn giá trị. Coi hình dạng dị thường là thứ tự, xử lý « không" là "thấp« (gán 0) và "có" là
“cao’’(gán 1). Bất kỳ lựa chọn nào của hai điểm đều có cùng giá trị 𝑀𝑀 2 . Y/c k.định g. t 𝐻𝐻0 :
Việc uống rượu của các bà mẹ mang thai không ảnh hưởng tới dị tật của trẻ sinh ra
Có sự chênh lệch quá cao giữa các tần số ô: có Test Statistics df Value Prob
những ô tần số rất nhỏ (1, 5, 37), có những ô tần Pearson X2 4 12.08205 0.0168
số cực lớn (14464, 17066). Vì thế, dù cỡ mẫu lớn Likelihood Ratio G2 4 6.201998 0.1846
Note: Expected value is less than 5 in 30.00% of
(n = 32574), p.phối mẫu của 𝜒𝜒 2 hoặc 𝐺𝐺 2 có thể cells (3 of 10).
không gần Chi – b.phương. Do đó với dữ liệu này:
df = 4, 𝐺𝐺 2 = 6,2 (P-value = 0,19) và 𝜒𝜒 2 = 12,1 (P = 0,02), chúng cung cấp những thông tin rối
loạn : Nếu dùng 𝜒𝜒 2 thì bác H0, nếu dùng 𝐺𝐺 2 thì nhận H0. Lý do: chúng đã bỏ qua thứ tự
(mức độ) của lượng tiêu thụ rượu.
Bảng dữ liệu liệt kê tỷ lệ các tr.hợp dị dạng ở mỗi mức tiêu thụ. Những tỷ lệ phần trăm cho
thấy xu hướng tăng. Hai yếu tố đầu tiên là tương tự và hai phần tiếp theo cũng giống nhau,
tuy nhiên, và 3% cuối cùng thay đổi đáng kể với việc thêm hoặc xóa một tr.hợp dị dạng.
Bảng này chỉ ra sdhc cho loại « có» : âm ở mức tiêu thụ thấp và dương ở mức tiêu thụ cao,
mặc dù hầu hết là nhỏ, và chúng cũng thay đổi đáng kể với mức thay đổi nhẹ trong dữ liệu.
Tỷ lệ phần trăm mẫu và sdhc đều cho thấy dị tật có xu hướng tăng khi mức tiêu thụ tăng.
T.kê 𝑀𝑀2 đòi hỏi điểm số cho mức độ tiêu thụ. Một cách hợp lý ta dùng các điểm số là điểm
giữa của các khoảng tiêu thụ: 𝑣𝑣1 = 0, 𝑣𝑣2 = 0,5, 𝑣𝑣3 = 1,5, 𝑣𝑣4 = 4, 𝑣𝑣5 = 7 (độ dài khoảng
cuối bằng khoảng kề).
Có thể tính r và 𝑀𝑀2 bằng phần mềm. T.quan mẫu giữa tiêu thụ rượu và dị dạng là r = 0,015,
và 𝑀𝑀 2 = 32573. 0,0152 = 7,3289 ; P-value = 0,01 là bằng chứng mạnh về tương quan khác
0. T.kê 𝑀𝑀 = 2,56 có P-value = .005 cũng cho thấy có sự ả.hưởng của việc uống rượu tới dị
tật của trẻ. Để thấy rõ quá trình tính, ta trình bày việc tính toán đó qua bảng tính, trong đó
biến X là mức tiêu thụ rượu của bà mẹ, được cho điểm như trên, còn biến Y là tình hình dị
tật ở trẻ sơ sinh, với hai loại “không” gán số 0 và “Có” gán số 1:
Y X 0 0,5 1,5 4 7 𝑛𝑛+𝑗𝑗 K/q trung gian
0 17066 0 14464 0 788 0 126 0 37 0 32481 𝑌𝑌 = 0,0029
1 48 0 38 19 5 7,5 1 4 1 7 93 𝑌𝑌 2 = 0,0029
𝑛𝑛𝑖𝑖+ 17114 14502 793 127 38 n = 32574 𝒓𝒓 = 𝟎𝟎, 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
K/q trung gian 𝑋𝑋 = 0,2829 𝑋𝑋 2 = 0,2856 𝑋𝑋. 𝑌𝑌 = 0,0012 𝑀𝑀2 = 𝑛𝑛 − 1 . 𝑟𝑟 2 = 7,3289

𝑀𝑀2 = 7,3289 > 𝜒𝜒12 0,05 = 3,841 (có 𝑃𝑃 − 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 = 𝑃𝑃 𝜒𝜒12 ≥ 7,3289 < 𝑃𝑃 𝜒𝜒12 ≥ 6,635 = 0,01)
Vậy ta bác 𝐻𝐻0 , cho rằng việc uống rượu của mẹ ảnh hưởng đến dị tật ở trẻ sơ sinh. Ngoài ra
r = 0,0156 > 0: số trẻ sơ sinh bị dị tật có xu hướng tăng cùng với mức tiêu thụ rượu .
b. Ưu điểm của kiểm định thứ bậc. Các t.kê 𝜒𝜒 2 và 𝐺𝐺 2 phát hiện mức độ bác hay nhận g.t
về tính độc lập mà không cho thấy xu thế và mức độ l.kết của 2 biến q/s khi bác g.t.
Khi các biến hàng và cột là thứ tự, t.kê 𝑀𝑀2 dựa trên sự đo lường t.quan của xu hướng
tuyến tính. Khi l.kết thực sự có xu hướng dương hoặc âm, k.đ thứ tự dùng 𝑀𝑀 2 có lợi thế
mạnh so với các k.đ 𝜒𝜒 2 hoặc 𝐺𝐺 2 . Từ 𝑀𝑀2 có p.phối xấp xỉ Chi - bình phương với t.bình là df =
1, thì một giá trị 𝑀𝑀2 tương đối lớn nằm xa hơn trong đuôi bên phải của nó so với giá trị
tương ứng của 𝜒𝜒 2 hoặc 𝐺𝐺 2 dựa trên df = (k – 1)(m – 1) ≥ 1. Việc rơi xa hơn ở đuôi tạo ra
một P-value nhỏ hơn và vì vậy việc bác 𝐻𝐻0 mạnh hơn.
Để phát hiện bất kỳ kiểu phụ thuộc nào, 𝜒𝜒 2 và 𝐺𝐺 2 mất đi hiệu lực l. quan đến dữ liệu t.kê
được thiết kế để phát hiện một kiểu p.thuộc đặc biệt nếu kiểu p.thuộc đó thực sự xảy ra.
Một ưu điểm khác của các kđ Chi – b.phương có df nhỏ l.quan đến độ chính xác của xấp xỉ
Chi – b. phương. Đ/v cỡ mẫu từ nhỏ đến t.bình, p.phối mẫu có xu hướng gần hơn với chi
b.phương khi df nhỏ hơn. Khi một số lượng các ô nhỏ, xấp xỉ chi-b.phương có thể sẽ kém
chính xác cho 𝜒𝜒 2 hoặc 𝐺𝐺 2 hơn là cho 𝑀𝑀2 .
c. Một số phân tích khi chọn điểm (Tham khảo)
Đ/v hầu hết các bộ dữ liệu, việc chọn điểm số ít a.hưởng đến k/q. Tuy nhiên, điều này có thể không xảy ra khi dữ liệu
quá chênh lệch, chẳng hạn như khi một số loại có nhiều q/s hơn nhiều so với các loại khác. Bảng 2.23 minh họa điều
này. Đ/v các điểm số có k.cách đều nhau (1, 2, 3, 4, 5), t.kê 𝑀𝑀2 = 1,83, cho k.luận yếu hơn nhiều (P-value = 0,18). Độ
lớn của r và 𝑀𝑀2 không thay đổi với sự chuyển đổi của các điểm giữ được k.cách tương đối giữa các loại. Vd, điểm
(1,2,3,4,5) có cùng mức độ t.quan như (0,1,2,3,4) hoặc (2, 4,6,8,10) hoặc (10,20,30,40, 50).
Cách tiếp cận sử dụng midrank thay thế cho việc chọn điểm và sử dụng dữ liệu để tự động tạo ra chúng. Cụ thể,
người ta chỉ định xếp hạng cho các đối tượng và dùng chúng như là điểm số của nhóm. Đối với tất cả các đối tượng
trong một thể loại, người ta chỉ định mức t.bình của các hạng sẽ áp dụng cho một bảng xếp hạng mẫu hoàn chỉnh từ
1 đến n. Đây được gọi là midranks. Ta minh họa bằng cách gán hạng cho mức độ tiêu thụ rượu ở Bảng 2.17 : 17114
đối tượng ở mức 0 cho mức tiêu dùng rượu chiếm từ 1 đến 17114. Chúng ta gán cho mỗi người trong số họ mức
t.bình của các cấp bậc này, tức là midrank (1 + 17114) / 2 = 8557,5 ; 14502 đối tượng ở mức < 1 đối với mức tiêu thụ
rượu chiếm từ 17115 cho đến 17114 + 14502 = 31616, với mức trung bình là (17115 + 31616) / 2 = 24365,5. Tương
tự, các midranks cho ba loại cuối cùng là 32013,0 ; 32473,0 và 32555,5. Các điểm này cho k/q 𝑀𝑀2 = 0,35 với k.luận
còn yếu hơn: (P = 0,55).
Giải thích: Các loại liền kề có tương đối ít q/s nhất thiết phải có midranks giống nhau. Vd, midranks (8557,5 ;
24365,5 ; 32013,0 ; 32473,0 ; 32555,5) cho Bảng 2.23 có midrank xấp xỉ nhau đ/v ba loại cuối cùng (tức là cào bằng
ba mức cuối), vì các loại này loại có số q/s ít hơn nhiều so với hai loại đầu. Hậu quả là lược đồ cho điểm này coi mức
độ tiêu thụ rượu 1-2 (loại 3) gần mức tiêu thụ ≥ 6 (loại 5) hơn nhiều so với mức tiêu thụ 0 (loại 1). Điều này có vẻ
không hợp lý. Sẽ tốt hơn nếu sử dụng đánh giá một người bằng cách chọn điểm số phản ánh k.cách giữa các loại. Khi
không chắc chắn về sự lựa chọn này, người ta thường thực hiện phân tích độ nhạy. Chọn hai hoặc ba lựa chọn "nhạy
cảm" và k.tra xem k/q có giống nhau không. Điểm bình đẳng về k.cách thường mang lại một sự hợp lý khi các nhãn
loại không đề cập đến bất kỳ lựa chọn rõ ràng nào, chẳng hạn như các loại : liberal (tự do), moderate (trung bình),
conservative (bảo thủ) cho triết học chính trị.
d. Kiểm định xu hướng cho các bảng 𝒌𝒌 × 𝟐𝟐 và 𝟐𝟐 × 𝒎𝒎
Bảng dạng này đơn giản cho việc tính 𝑀𝑀2 . Khi X (hay Y) chỉ có hai cấp độ thì gán cấp độ thứ
nhất: 0, cấp độ thứ hai: 1. G.sử X (dòng) là biến giải thích, Y (cột) là đáp ứng. Khi X là nhị
phân, có bảng 𝟐𝟐 × 𝒎𝒎. Bảng này xảy ra khi s.sánh 2 nhóm ứng với 2 thuộc tính của X.
Khi các cột (Y) có thứ tự với điểm số {vj}, t.kê 𝑀𝑀2 cho bảng 𝟐𝟐 × 𝒎𝒎 được hướng tới việc
phát hiện sự khác biệt giữa các t.bình hai hàng của các điểm trên Y. Trong KĐ về tính độc
lập sử dụng 𝑀𝑀2 , các P- value cho thấy sự khác biệt thực sự trong các t.bình hàng.
Khi dùng điểm midrank cho Y, Kđ với bảng 𝟐𝟐 × 𝒎𝒎 nhạy cảm với sự khác biệt về mức xếp
hạng t.bình của 2 hàng. K.định này gọi là KĐ Wilcoxon hoặc Mann-Whitney. T.kê phi tham
số trình bày KĐ này đ/v dữ liệu đáp ứng được xếp hạng đầy đủ, trong khi bảng 𝟐𝟐 × 𝒎𝒎 là
một t.hợp mở rộng trong đó tập hợp các đối tượng ở cùng mức độ Y được gắn và sử dụng
midranks. KĐ phi tham số (mẫu lớn) này dùng một t.kê chuẩn tắc Z. 𝑍𝑍 2 tương đương với
𝑀𝑀2 , khi sử dụng cho điểm tùy ý (chẳng hạn như 0, 1) cho các hàng và midranks cho các cột.
Vd 17: Có dữ liệu về chất lượng s.phẩm ở các ca
sản xuất ở bảng bên. Cần xác minh chất lượng sản Chất lượng Số sản phẩm
sản phẩm Loại 1 Loại 2 Loại 3
phẩm phụ thuộc vào ca sản xuất hay không.
Ca ngày 118 28 10
Giải: Y/c KĐ g.t H0 : X và Y độc lập nhau.
Ca đêm 81 15 9
Đ/v X, gán 0 cho ca đêm, 1 cho ca ngày. Đ/v Y sử
11+38 39+38+118
dụng điểm midrank : Loại 3 gán 5,5 ; loại 2 gán = 24,5; loại 1 gán: = 97,5.
2 2
Y X 97,5 24,5 5,5 𝒏𝒏𝒊𝒊+ K/q trung gian
1 118 11505 28 686 10 55 156 𝑌𝑌 = 0,5977
0 81 0 15 0 9 0 105 𝑌𝑌 2 = 0,5977
𝒏𝒏+𝒋𝒋 199 43 19 𝑛𝑛 = 261 𝑟𝑟 = −0,09943
K/q trung gian 𝑋𝑋 = 78,7759; 𝑋𝑋 2 = 7349,1542; 𝑋𝑋. 𝑌𝑌 = 46,9195 𝑴𝑴𝟐𝟐 = 𝒏𝒏 − 𝟏𝟏 𝒓𝒓𝟐𝟐 = 𝟎𝟎, 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎

𝑀𝑀2 = 0,0257 < 𝜒𝜒12 0,05 = 3,841, nên chưa có cơ sở bác H0 , tức là chưa có cơ sở để cho
rằng chất lượng sp phụ thuộc ca sản xuất.
- Chạy kiểm định (CMH statistics) trên phần mềm có k.quả:
Cochran-Mantel-Haenszel Statistics for x by loaisanpham
AltHypothesis Chisq Df Prob
cor Nonzero correlation 0.025707 1 0.87262
𝑀𝑀2 = 0.025704 < 𝜒𝜒12 0,05 = 3,841(ℎ𝑎𝑎𝑎𝑎 𝑃𝑃 − 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 = 0,87262 > 𝛼𝛼 = 0,05)
Kết quả này dẫn tới cùng kết luận như trên. Test Statistics df Value Prob
- Nếu dùng thống kê Pearson hay Likelihood Ratio, Pearson X2 2 0.932343 0.6274
Các thống kê 𝜒𝜒 2 hay G2 đều có p-value > 𝛼𝛼 = 0,05 Likelihood Ratio G2 2 0.934731 0.6267
Nếu thay vì cho điểm midrank đối với Y, ta gán điểm cách đều: điểm 0 cho loại 3, điểm 1
cho loại 2, điểm 2 cho loại 1, thì phần mềm (R) cho kết quả kiểm định:
Cochran-Mantel-Haenszel Statistics for x by loaisanpham
AltHypothesis Chisq Df Prob
cor Nonzero correlation 0.0075575 1 0.93072
trong đó: 𝑃𝑃 − 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 = 0,93072 > 𝛼𝛼 = 0,05). K/q này cũng chỉ ra: chưa có cơ sở để bác
giả thuyết về tính độc lập của chất lượng s.phẩm và ca s.xuất
5.5. Mở rộng cho bảng ngẫu nhiên nhiều chiều.
5.5.1. Bảng ba chiều. K/s ba biến (định lượng hay định tính): X, Y, Z trên cùng một cá thể
trong một quần thể. X có I mức: 𝐴𝐴1 , 𝐴𝐴2 , … , 𝐴𝐴𝐼𝐼 , Y có J mức: 𝐵𝐵1 , 𝐵𝐵2 , … , 𝐵𝐵𝐽𝐽 ; Z có K mức:
𝐶𝐶1 , 𝐶𝐶2 , … , 𝐶𝐶𝐾𝐾 . Với mỗi mức thể hiện của Z, cần p.tích mối l.hệ giữa X và Y định tính, bằng
cách n/c các mối q.hệ X-Y khi cố định một mức không đổi của Z. Biến Z được gọi là biến
điều khiển hay được kiểm soát. Với cỡ mẫu n, kí hiệu 𝑛𝑛𝑖𝑖𝑖𝑖𝑖𝑖 là số cá thể có các t.chuẩn ở
mức 𝐴𝐴𝑖𝑖 , 𝐵𝐵𝑗𝑗 , 𝐶𝐶𝑘𝑘 , 𝑖𝑖 = 1,2, … , 𝐼𝐼; 𝑗𝑗 = 1,2, … , 𝐽𝐽; 𝑘𝑘 = 1,2, … , 𝐾𝐾.
Khi đó mẫu được tr.bày bới 1 bảng 3 chiều sau gọi là Z X Y
bảng ngẫu nhiên ba chiều 𝐼𝐼 × 𝐽𝐽 × 𝐾𝐾. Ký hiệu 𝐵𝐵1 𝐵𝐵2 ⋯ 𝐵𝐵𝐽𝐽
, 𝐴𝐴1 𝑛𝑛111 𝑛𝑛121 ⋯ 𝑛𝑛1𝐽𝐽𝐽
𝐴𝐴2 𝑛𝑛211 𝑛𝑛221 ⋯ 𝑛𝑛2𝐽𝐽𝐽
� 𝑛𝑛𝑖𝑖𝑖𝑖𝑖𝑖 = � 𝑛𝑛+𝑗𝑗𝑗𝑗 = � 𝑛𝑛𝑖𝑖+𝑘𝑘 = � 𝑛𝑛𝑖𝑖𝑖𝑖+ = 𝑛𝑛 𝐶𝐶1
𝑖𝑖,𝑗𝑗,𝑘𝑘 𝑗𝑗,𝑘𝑘 𝑖𝑖,𝑘𝑘 𝑖𝑖,𝑗𝑗 ⋮ ⋮ ⋮ ⋮ ⋮
5.5.2. Các liên kết từng phần (lktp) và liên kết biên 𝐴𝐴𝐼𝐼 𝑛𝑛𝐼𝐼𝐼𝐼 𝑛𝑛𝐼𝐼𝐼𝐼 ⋯ 𝑛𝑛𝐼𝐼𝐼𝐼𝐼
- Với mỗi k = 1, 2,…, K, ta có K bảng 2 chiều 𝐼𝐼 × 𝐽𝐽, dạng : 𝐴𝐴1 𝑛𝑛112 𝑛𝑛122 ⋯ 𝑛𝑛1𝐽𝐽𝐽
X Y 𝐴𝐴2 𝑛𝑛212 𝑛𝑛222 ⋯ 𝑛𝑛2𝐽𝐽𝐽
𝐶𝐶2
𝐵𝐵1 𝐵𝐵2 𝐵𝐵𝐽𝐽 ⋯ ⋮ ⋮ ⋮ ⋮ ⋮
𝐴𝐴1 𝑛𝑛11𝑘𝑘 𝑛𝑛12𝑘𝑘 𝑛𝑛1𝐽𝐽𝐽𝐽 ⋯ 𝐴𝐴𝐼𝐼 𝑛𝑛𝐼𝐼𝐼𝐼 𝑛𝑛𝐼𝐼𝐼𝐼 ⋯ 𝑛𝑛𝐼𝐼𝐼𝐼𝐼
𝐴𝐴2 𝑛𝑛21𝑘𝑘 𝑛𝑛22𝑘𝑘 𝑛𝑛2𝐽𝐽𝐽𝐽 ⋯ ⋮ ⋮ ⋮ ⋮ ⋯ ⋮
⋮ ⋮ ⋮ ⋮ ⋮ 𝐴𝐴1 𝑛𝑛11𝐾𝐾 𝑛𝑛12𝐾𝐾 ⋯ 𝑛𝑛1𝐽𝐽𝐽𝐽
𝐴𝐴𝐼𝐼 𝑛𝑛𝐼𝐼𝐼𝐼𝐼 𝑛𝑛𝐼𝐼𝐼𝐼𝐼
𝑛𝑛𝐼𝐼𝐼𝐼𝐼𝐼 ⋯ 𝐴𝐴2 𝑛𝑛21𝐾𝐾 𝑛𝑛22𝐾𝐾 ⋯ 𝑛𝑛2𝐽𝐽𝐽𝐽
𝐶𝐶𝐾𝐾
Bảng liên kết từng phần ⋮ ⋮ ⋮ ⋮ ⋮
𝐴𝐴𝐼𝐼 𝑛𝑛𝐼𝐼𝐼𝐼𝐼 𝑛𝑛𝐼𝐼𝐼𝐼𝐼 ⋯ 𝑛𝑛𝐼𝐼𝐼𝐼𝐼𝐼
gọi là các bảng l.kết từng phần, là l.kết có đ/k của X-Y, Bảng ngẫu nhiên ba chiều
với đ/k Z ở mức k (𝑍𝑍 ≔ 𝐶𝐶𝑘𝑘 ). Bảng này có cỡ mẫu
𝑛𝑛++𝑘𝑘 = ∑𝑖𝑖,𝑗𝑗 𝑛𝑛𝑖𝑖𝑖𝑖𝑖𝑖 . Tính độc lập của X và Y trong bảng này Y
X
𝐵𝐵1 𝐵𝐵2 ⋯ 𝐵𝐵𝐽𝐽
gọi là độc lập có đ/k.
𝐴𝐴1 𝑛𝑛11+ 𝑛𝑛12+ ⋯ 𝑛𝑛1𝐽𝐽+
- Bảng 2 chiều 𝐼𝐼 × 𝐽𝐽 có bằng cách cộng tương ứng các tần số
𝐴𝐴 𝑛𝑛21+ 𝑛𝑛22+ ⋯ 𝑛𝑛2𝐽𝐽+
ô trong các bảng lktp, gọi là bảng l.kết biên. Bảng này bỏ qua ⋮2 ⋮ ⋮ ⋮ ⋮
Z, nó không chứa t.tin về Z. Đó là bảng l.quan giữa X và Y, 𝐴𝐴𝐼𝐼 𝑛𝑛𝐼𝐼𝐼+ 𝑛𝑛𝐼𝐼𝐼+ ⋯ 𝑛𝑛𝐼𝐼𝐼𝐼+
không l.quan đến Z.
Bảng liên kết biên
Bảng 3 chiều 2 × 2 × 2 nói riêng và trường hợp Y là đáp ứng nhị phân được chú ý nhiều.
VD 18. K/sát sự hài lòng (có, không) của khách về chất lượng món ăn và đánh giá sự phù
hợp (có, không) của họ về giá phục vụ đ/v một nhà hàng, có k/q: Với 500 khách nữ: trong
số 350 hài lòng về chất lượng, có 200 cho giá phục vụ phù hợp và trong số 150 không hài
lòng chất lượng, có 50 cho rằng giá không phù hợp. Với 300 khách nam: trong 260 hài lòng
về chất lượng thì 25 cho rằng giá không phù hợp và trong 40 khách không hài lòng về chất
lượng có 30 cho rằng giá phù hợp. Hãy trình bày k/q k.sát qua một bảng ngẫu nhiên.
Giải: Ở mỗi khách hàng, có ba biến được khảo sát: Y: sự hài lòng về chất lượng món ăn
(có/không), X: sự phù hợp giá cả (có/không), Z: giới tính (nam/nữ). Dữ liệu khảo sát được
trình bày bởi bảng ba chiều 2 × 2 × 2 sau cùng với các bảng biên và lktp:
Z X (giá phù Y(Sự hài lòng) Y(Sự hài lòng) Tỷ lệ
X (giá phù hợp)
(G.tính) hợp) Có Không Có Không hài lòng
Có 235 30 Có 435 130 0,7699
Nam
Không 25 10 Không 175 60 0,7447
Có 200 100 Tỷ lệ phù hợp 0,7131 0,6842
Nữ Bảng liên kết X-Y: liên kết biên
Không 150 50
Bảng ngẫu nhiên 3 chiều 2 × 2 × 2 (bỏ qua tác động của giới tính)

Y(Sự hài lòng) Tỷ lệ Y(Sự hài lòng) Tỷ lệ


X (giá phù hợp) X (giá phù hợp)
Có Không hài lòng Có Không hài lòng
Có 235 30 0,8868 Có 200 100 0,6667
Không 25 10 0,7143 Không 150 50 0,7500
Tỷ lệ phù hợp 0,9038 0,7500 Tỷ lệ phù hợp 0,5714 0,6667
Bảng liên kết X-Y cho nam (lktp) Bảng liên kết X-Y cho nữ (lktp)
- Nếu bỏ qua g.tính thì : dù chấp nhận hay không về giá dịch vụ, tỷ lệ hài lòng về chất lượng
là xấp xỉ nhau (76,99% và 74,47%) ; tỷ lệ chấp nhận giá trong số khách hài lòng về chất
lượng (71,31%), cao hơn tỉ lệ chấp nhận giá trong số khách không hài lòng về chất lượng
(68,42%). Nếu để ý đến g.tính thì trong số khách nữ thì tương quan nói trên bị đảo ngược.
Điều đó cho thấy yếu tố giới tính đã chi phối việc đánh giá của khách hàng.
5.5.3 Odds ratio có đ/k và Odds Ratio cận biên. Xét bảng 2 × 2 × 𝐾𝐾,
(K là số mức của biến đ.khiển Z). Để mô tả l.kết cận biên và lktp ta dùng odds ratio. Gọi
{𝑛𝑛𝑖𝑖𝑖𝑖𝑖𝑖 } là tần số q/s được và 𝜇𝜇𝑖𝑖𝑖𝑖𝑖𝑖 là tần số kỳ vọng. Khi đó: Ở mức k của Z, tỷ số:
𝝁𝝁 .𝝁𝝁
𝜽𝜽𝑿𝑿𝑿𝑿(𝒌𝒌) = 𝟏𝟏𝟏𝟏𝟏𝟏 𝟐𝟐𝟐𝟐𝟐𝟐 mô tả l.kết X-Y có đ/k, được gọi là tỷ lệ chênh (odds ratio) của l.kết X-Y
𝝁𝝁
𝟏𝟏𝟏𝟏𝟏𝟏 .𝝁𝝁
𝟐𝟐𝟐𝟐𝟐𝟐
với đ/k mức k của Z. Đây là odds rtio bình thường được tính cho bốn tần số kỳ vọng trong
n .n
bảng lktp thứ k. 𝜽𝜽𝑿𝑿𝑿𝑿(𝒌𝒌) có ước lượng : 𝜃𝜃̂𝑋𝑋𝑋𝑋(𝑘𝑘) = n𝟏𝟏𝟏𝟏𝟏𝟏 .n𝟐𝟐𝟐𝟐𝟐𝟐 . Bảng cận biên X-Y có tần số kỳ
𝟏𝟏𝟏𝟏𝟏𝟏 𝟐𝟐𝟐𝟐𝟐𝟐
𝜇𝜇11+ .𝜇𝜇22+ n .n
vọng {𝜇𝜇𝑖𝑖𝑖𝑖+ = ∑𝑘𝑘 𝜇𝜇𝑖𝑖𝑖𝑖𝑖𝑖 }, odds ratio biên: 𝜃𝜃𝑋𝑋𝑋𝑋 = có ước lượng: 𝜃𝜃̂𝑋𝑋𝑋𝑋 = n11+ .n22+.
𝜇𝜇12+ .𝜇𝜇21+ 12+ 21+
̂ ̂ ̂
Với VD 18: 𝜃𝜃𝑋𝑋𝑋𝑋 1 = 3,1333; 𝜃𝜃𝑋𝑋𝑋𝑋 2 = 0,6667; 𝜃𝜃𝑋𝑋𝑋𝑋 = 1,1473
- Nếu bỏ qua g.tính thì sự hài lòng đ/v ch.lượng và sự phù hợp về giá là ít có ả.hưởng nhau
(𝜃𝜃̂𝑋𝑋𝑋𝑋 = 1,1473 gần 1). Nếu xét đến g.tính thì đ/v nam,sự hài lòng về chất lượng và sự phù
hợp về giá có ả.hưởng nhau nhiều: 𝜃𝜃̂𝑋𝑋𝑋𝑋(1) = 3,1333 cho thấy tỷ lệ hài lòng với chất lượng
trong số khách chấp nhận sự phù hợp về giá gấp 3,1333 lần trong số khách cho rằng giá là
không phù hợp. Đ/v nữ thì sự hài lòng về chất lượng và sự phù hợp về giá cả ít ả.hưởng
nhau hơn: 𝜃𝜃̂𝑋𝑋𝑋𝑋(2) = 0,6667 (tỷ lệ hài lòng với chất lượng trong số khách chấp nhận sự phù
hợp về giá chỉ bằng 66,67% trong số khách cho rằng giá không phù hợp. Điều đó cho thấy
một khi đã ngon miệng thì nam dễ chấp nhận giá hơn nữ.
5.5.4 Độc lập cận biên và độc lập có điều kiện
Xét q.hệ thực giữa X và Y, khi k.soát Z. Nếu X và Y là độc lập trong mỗi lktp thì X và Y được
cho là độc lập có đ/k, khi k.soát Z. Tất cả các odds ratio đ/k giữa X và Y khi đó bằng 1. Sự
độc lập có đ/k của X và Y, khi đã cho Z, không suy ra được sự độc lập biên của X và Y. Tức là,
khi odds ratio giữa X và Y bằng 1 tại mỗi mức Z, odds ratio biên có thể khác 1.
Vd 19. Có dữ liệu k/s q/hệ giữa đáp ứng Y Phòng P.pháp Kết quả
(thành công, thất bại) của bệnh nhân điều khám điều trị Thành công Thất bại
trị bằng loại thuốc X (A hoặc B) và ở phòng 1 A 18 12
khám Z (1 hoặc 2). Có: B 12 8
18 × 8 2 A 2 8
𝜃𝜃̂ 𝑋𝑋𝑋𝑋 1 = = 1,0;
12 × 12 B 8 32
2×32
𝜃𝜃̂ 𝑋𝑋𝑋𝑋 2 = = 1,0. Cho thấy khi đã Tổng A 20 20
8×8
x.định p.khám, đáp ứng và điều trị là độc B 20 40
lập nhau (độc lập có đ/k). Từ bảng liên kết cận biên (loại yếu tố phòng khám), tỷ số chênh
20×40
lệch cho bảng cận biên là: 𝜃𝜃̂𝑋𝑋𝑋𝑋 = 20×20 = 2,0, cho thấy các biến không độc lập biên. Vấn
đề là: Tại sao odds của thành công của điều trị A tăng gấp đôi so với điều trị B khi chúng ta
bỏ qua phòng khám? Để tìm hiểu vấn đề này, ta lần lượt thay đổi biến kiểm soát sang Y và
X, khi đó các odds ratio X-Z và Y-Z có điều kiện sẽ cung cấp các bằng chứng cần thiết.
𝜃𝜃̂𝑋𝑋𝑋𝑋(1) = 𝜃𝜃̂𝑌𝑌𝑌𝑌(1) = 18.8 : 12.2 = 𝜃𝜃̂ 𝑋𝑋𝑋𝑋 2 = 𝜃𝜃̂ 𝑌𝑌𝑌𝑌 2 = 12.32 : (8.8) = 6
Odds đ/k (khi đã cho đáp ứng) của điều trị A ở p.k 1 đạt cao hơn 6 lần so với p.k 2, và odds
đ/k (khi đã cho điều trị) của thành công tại p.k 1 cao hơn 6 lần tại p.k 2. P.k 1 có xu hướng
s.dụng điều trị A thường xuyên hơn, và p.k 1 cũng có xu hướng có nhiều thành công hơn.
Do đó, nếu chỉ n/c l.kết biên X-Y, sẽ dẫn tới k.luận sai rằng thành công là có nhiều khả năng
với điều trị A hơn với điều trị B. Các đ.tượng trong một p.khám có nhiều khả năng đồng
nhất hơn so với mẫu tổng thể và đáp ứng độc lập với điều trị tại mỗi p.khám.
5.5.5 Liên kết thuần nhất (lktn). Bảng 2 × 2 × 𝐾𝐾 có mối liên kết X-Y t.nhất nếu:
𝜃𝜃𝑋𝑋𝑋𝑋(1) = 𝜃𝜃𝑋𝑋𝑋𝑋(2) = ⋯ = 𝜃𝜃𝑋𝑋𝑋𝑋(𝐾𝐾)
Tức là ả.hưởng của X trên Y là như nhau ở mọi mức của Z. Sự độc lập có đ/k của X và Y là
tr.hợp riêng, trong đó mỗi odds ratio đ/k bằng 1,0.
Chú ý: Trong thực tế điều tra, ta thay đ/k (2.6.3) bởi đ/k: 𝜃𝜃̂𝑋𝑋𝑋𝑋(1) = 𝜃𝜃̂𝑋𝑋𝑋𝑋(2) = ⋯ = 𝜃𝜃̂𝑋𝑋𝑋𝑋(𝐾𝐾)
Khi odds ratios đ/k X-Y giống hệt nhau ở mỗi mức Z, thì các l.k khác có cùng t.chất. Ví dụ:
odds ratio đ/k giữa hai mức của X và hai mức của Z là giống nhau ở mỗi mức Y. Sự lktn có
tính đ.xứng, áp dụng cho bất kỳ cặp các biến được xem qua các mức độ của biến thứ ba.
Khi đó, không có tương tác giữa 2 biến trong ả.hưởng của chúng đ/v biến thứ ba.
Khi lktn không tồn tại, odds ratio đ/k cho bất kỳ cặp biến nào sẽ thay đổi theo các mức của
biến thứ ba. Chẳng hạn: trong Vd18 không có mối lktn X-Y, trong vd19 có mối lktn X-Y.
5.5.6. Giới thiệu bảng ngẫu nhiên m chiều. K/s tương quan của m tiêu chí: 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑚𝑚
trên mỗi cá thể của một tổng thể, trong đó tiêu chí 𝑋𝑋𝑘𝑘 có 𝐼𝐼𝑘𝑘 dấu hiệu, k = 1, 2,…, m. Bảng
dữ liệu đ.tra về tần số của mỗi tổ hợp các mức dấu hiệu của m tiêu chí này gọi là một bảng
ngẫu nhiên m chiều 𝐼𝐼1 × 𝐼𝐼2 × ⋯ × 𝐼𝐼𝑚𝑚
Vd 20. Bảng dữ liệu sau là một bảng 5 chiều 2 × 2 × 2 × 2 × 2, trong đó trên mỗi học sinh
(đối tượng đ.tra), người ta k/s 5 tiêu chuẩn là 5 biến nhị phân : Alcohol (A), Cigarette (C),
Marijuana (M), Gender (G), Race (R). Với biến điều khiển là Race.
Chủng tộc: Da trắng Da mầu
Giới tính: Nữ Nam Nữ Nam
Cần sa
Rượu Thuốc
Có Không Có Không Có Không Có Không
Có Có 405 268 453 228 23 23 30 19
Không 13 218 28 201 2 19 1 18
Không Có 1 17 1 17 0 1 1 8
Không 1 117 1 133 0 12 0 17
Dữ liệu về (A), (C), (M) của học sinh theo chủng tộc (R) và giới tính (G)

Bảng này 2 có bảng lktp (mỗi bảng là một bảng ngẫu nhiên 4 chiều 2 × 2 × 2 × 2):
Giới tính : Nữ Nam Giới tính: Nữ Nam
Thuốc Cần sa Thuốc Cần sa
Rượu Rượu
lá Có Không Có Không lá Có Không Có Không
Có Có 405 268 453 228 Có Có 23 23 30 19
Không 13 218 28 201 Không 2 19 1 18
Không Có 1 17 1 17 Không Có 0 1 1 8
Có 1 117 1 133 Có 0 12 0 17
Bảng Liên kết A-C-M-G khi Race:=White Bảng Liên kết A-C-M-G khi Race:=Other
Bảng liên kết biên: Giới tính: Nữ Nam
(bỏ qua yếu tố chủng tộc) Cần sa
Rượu Thuốc lá
Có Không Có Không
Có Có 428 291 483 247
Không 15 237 29 219
Không Có 1 18 2 25
Có 1 129 1 150
Bảng Liên kết A-C-M-G khi bỏ qua yếu tố chủng tộc.
Chú ý: Bảng dữ liệu 5 chiều trên có thể trình bày lại một cách khác như sau:
Da trắng Da mầu
Giới tính Rượu Thuốc lá Cần sa Giới tính Rượu Thuốc lá Cần sa
Có Có: 405 Có Có: 23
Có ----- Không: 268 Có ----- Không: 23
Không Có: 13 Không Có: 2
Không: 218 Không: 19
Nữ --------- --------- ----------- Nữ --------- --------- -----------
Có Có: 1 Có Có: 0
Không --------- Không: 17 Không --------- Không: 1
Không Có: 1 Không Có: 0
Không: 117 Không: 12
----------- ---------- --------- ----------- ----------- ---------- --------- -----------
Có Có: 453 Có Có: 30
Có --------- Không: 228 Có --------- Không: 19
Không Có: 28 Không Có: 1
---------- --------- Không: 201 ---------- --------- Không: 18
Có Có: 1 Có Có: 1
Nam Không --------- Không: 17 Nam Không --------- Không: 8
Không Có: 1 Không Có: 0
Không: 133 Không: 17
5.6. Hướng dẫn chạy kiểm định về tính độc lập trên phần mềm

You might also like