You are on page 1of 7

Case C-C (Trường hợp 2 biến

phân loại)
● Hai biến phân loại
● Bảng dự phòng
● Tìm phần trăm có điều kiện (Hàng và Cột)
● Tóm tắt
CO-4:  Phân biệt giữa các thang đo lường khác nhau, chọn các phương pháp thống kê mô
tả và suy luận thích hợp dựa trên những điểm khác biệt đó và giải thích kết quả.
LO 4.20:  Phân loại một tình huống phân tích dữ liệu liên quan đến hai biến theo “role-
type classification.”
(phân loại kiểu vai trò).
LO 4.21:  Đối với tình huống phân tích dữ liệu liên quan đến hai biến, hãy xác định
(những) hình đồ họa và / hoặc (các) số đo thích hợp sẽ được sử dụng để tóm tắt dữ liệu.

Hai biến phân loại


Các bạn hãy nhớ lại bảng phân loại kiểu vai trò để tạo khung cho cuộc thảo luận về mối
quan hệ giữa hai biến:

Chúng ta đã hoàn thành trường hợp C → Q, và bây giờ, chúng ta sẽ chuyển sang trường
hợp C → C, chúng ta sẽ xem xét mối quan hệ giữa hai biến phân loại.

Trong khóa học này, (chúng ta đã thảo luận về sự phân phối của một biến phân loại duy
nhất), chúng ta đã xem xét dữ liệu thu được từ một mẫu ngẫu nhiên gồm 1.200 sinh viên
đại học Hoa Kỳ, họ được hỏi về cơ thể của mình (thiếu cân, thừa cân hoặc cân đối). Với
ví dụ này, chúng ta sẽ trả lời câu hỏi sau:
Nếu chúng ta tách mẫu 1.200 sinh viên đại học Hoa Kỳ theo giới tính và xem xét nam và
nữ riêng biệt, liệu chúng ta có tìm thấy sự phân bổ tương tự giữa các danh mục về cơ thể
không? Cụ thể hơn, liệu có phải cả đàn ông và phụ nữ đều nghĩ rằng cân nặng của họ là
cân đối không? Trong số những sinh viên không nghĩ rằng cân nặng của mình là cân đối,
liệu giữa nam và nữ có sự khác biệt xét về cảm nhận về cơ thể hay không?
Để trả lời những câu hỏi này, chúng ta phải xem xét mối quan hệ giữa hai biến phân
loại, giới tính và cơ thể. Bởi vì chúng ta cần trả lời câu hỏi là liệu giới tính có ảnh hưởng
đến cảm nhận về cơ thể hay không,
● Biến giải thích là giới tính và
● Biến phản hồi là cơ thể.

Khi chúng ta thêm giới tính của mỗi sinh viên thì dữ liệu sẽ trông như thế này:

Một lần nữa, dữ liệu thô là một danh sách dài gồm 1.200 giới tính và câu trả lời, ở dạng
này thì dữ liệu không hữu ích cho lắm.

Bảng dự phòng
LO 4.22: 

Xác định và giải thích quy trình tạo bảng dự phòng (bảng hai chiều).

Để tìm hiểu xem cơ thể có liên quan như thế nào đến giới tính, chúng ta cần bảng hiển thị
chứa nhiều thông tin để tóm tắt dữ liệu. Để tóm tắt mối quan hệ giữa hai biến phân loại,
chúng ta tạo một bảng hiển thị được gọi là bảng hai chiều hoặc bảng dự phòng.

Dưới đây là bảng hai chiều cho ví dụ của chúng ta:


Trong bảng, các hàng là các giới tính và các cột là câu trả lời có thể có liên quan đến cơ
thể. Tại mỗi giao điểm giữa hàng và cột là số lượng xuất hiện của kết hợp giữa giới tính
và cơ thể trong dữ liệu. Chúng ta tính tổng các hàng và cột để điền vào hai cột Tổng.

Hoàn thành các hoạt động liên quan đến dữ liệu này.

Lưu ý:

Lưu ý rằng, từ cách xây dựng bảng hai chiều, hàng Tổng hoặc cột Tổng là bản tóm tắt
của một trong hai biến phân loại, không quan tâm đến biến còn lại. Trong ví dụ của
chúng ta thì:

● Hàng Tổng là tóm tắt của biến phân loại Cơ thể:


● Cột Tổng là tóm tắt về giới tính của biến phân loại: (Số lượng ở đây vẫn giống
như khi chúng ta xem xét biến phân loại cơ thể và không xem xét giới tính.)

Tìm phần trăm có điều kiện (Hàng và Cột)


LO 4.23:  Với một bảng dự phòng (bảng hai chiều), hãy diễn giải thông tin mà bảng này
thể hiện về mối liên hệ giữa hai biến phân loại bằng cách tính toán và so sánh tỷ lệ phần
trăm có điều kiện.
Cho đến nay, chúng ta đã tổ chức dữ liệu thô trong một bảng hiển thị nhiều thông tin hơn
– chính là bảng hai chiều:

Tuy nhiên, các bạn cần nhớ rằng mục tiêu chính của chúng ta là tìm hiểu xem cơ thể có
liên quan như thế nào đến giới tính. Tìm hiểu mối quan hệ giữa hai biến phân loại (trong
trường hợp này là cơ thể và giới tính) để so sánh các phân phối của biến phản hồi (trong
trường hợp này là cơ thể) trên các giá trị khác nhau của biến giải thích (trong trường hợp
này là nam và nữ):
Chỉ so sánh số lượng thô thì chẳng có nghĩa lý gì, bởi vì tổng số nữ nhiều hơn nam. Vì
vậy, ví dụ, khi chúng ta nói “có 560 nữ và chỉ 295 nam phản hồi ‘cân đối’”, vì tổng số nữ
và nam khác nhau, ở đây, 560 nữ trên tổng số 760, và 295 nam trên tổng số 440.

Chúng ta cần bổ sung vào bảng hai chiều, thêm một số thước đo số để so sánh các phân
phối. Chỉ cần chuyển đổi số đếm thành phần trăm trong (hoặc giới hạn ở) từng giá
trị của biến giải thích riêng biệt thì chúng ta đã xác định được những thước đo này.

Trong ví dụ này: Chúng ta xem xét từng giới tính riêng biệt và chuyển đổi số lượng thành
phần trăm trong giới tính đó. Hãy bắt đầu với giới tính nữ:

Lưu ý rằng, mỗi số đếm được chuyển đổi thành phần trăm bằng cách chia cho tổng số nữ,
760. Các số đo này được gọi là phần trăm có điều kiện, vì chúng ta tính chúng bằng
cách "điều chỉnh" trên một trong các giới tính.

Bây giờ, hãy hoàn thành các hoạt động sau để tính toán các phần trăm trong các hàng cho
nam.

Lưu ý:
● Trong ví dụ này, chúng ta đã tổ chức dữ liệu với biến giải thích giới tính trong các
hàng và biến phản hồi cơ thể trong các cột; do đó, phần trăm có điều kiện của
chúng tôi là những phần trăm trong các hàng, được tính toán trong mỗi hàng riêng
biệt. Tương tự, nếu biến giải thích nằm trong các cột và biến phản hồi nằm ở các
hàng, phần trăm có điều kiện của chúng ta sẽ là phần trăm trong các cột, được
tính toán trong mỗi cột riêng biệt. Ví dụ: hãy xem phần “Did I Get This?” bên
dưới.
● Một cách khác để trực quan hóa phần trăm có điều kiện mà không dùng bảng, là
dùng biểu đồ thanh kép. Đây là một cách trình bày khá phổ biến trên các tờ báo.
Bây giờ, chúng ta đã tóm tắt mối quan hệ giữa các biến phân loại giới tính và cơ thể, hãy
diễn giải kết quả trong ngữ cảnh của các câu hỏi mà chúng ta đã đặt ra.

You might also like