You are on page 1of 25

📒

Thống kê Khoa học Xã hội


Bài 1: TỔNG QUAN VỀ THỐNG KÊ CHO KHXH
Giới thiệu
Thống kê (statistics) là gì?

Là phương thức và nguyên tắc thu thập và xử lý thông tin nhằm giúp con người đưa ra quyết định (decision
making) khi họ phải đối diện với tính không chắc chắn của sự kiện (uncertainty of fact).

Cũng được sử dụng như số liệu tổng hợp, là kết quả của một quá trình nghiên cứu thống kê, đối với một tập
hợp dữ liệu

Ví dụ: thống kê việc làm, thống kê bệnh nhân F0, thống kê doanh số, … tình hình lao
động việc làm của địa phương:
Có bao nhiêu người trong độ tuổi lao động?
Trong số những người trong độ tuổi lao động bao nhiêu người thất nghiệp?

Có 3 quan tâm chính:

Thu thập dữ liệu (data entry)

Quan tâm đến phương pháp (định lượng) và công cụ thu thập dữ liệu (bảng hỏi, quan sát tần suất xuất
hiện)

Độ lớn cần thiết của dữ liệu thu thập (có mang tính tin cậy để quyết định chủ thể nghiên cứu không?).
Dung lượng (n) là số lượng khảo sát ( n ≥ 30 đối với biến số thống kê).

Ví dụ: Khảo sát 10 sinh viên → n=10

Xử lý dữ liệu thu thập (data processing)

Phương pháp xử lý dữ liệu thu thập (thống kê mô tả hay thống kê suy diễn) → tóm tắt dữ liệu hiệu quả
nhất.

Thuyết minh dữ liệu (data interpreting)

Cách thức thuyết minh dữ liệu đã được xử lí

Thống kê có 2 lĩnh vực:

Thống kê mô tả: phương pháp tóm tắt, mô tả tập hợp dữ liệu

Thống kê suy diễn: bao gồm các phương pháp như ước lượng, kiểm định, phân tích, dự đoán

Thống kê Khoa học Xã hội 1


4 phương pháp thống kê:

Thu thập và xử lý: số liệu có sự hỗn độn

Điều tra chọn mẫu: nghiên cứu một bộ phận của tổng thể để có thể suy luận cho tổng thể một hoặc các hiện
tượng tổng quát mà vẫn đảm bảo độ tin cậy cho phép.

Nghiên cứu mối liên hệ giữa các hiện tượng: phương pháp thống kê này hướng tới những mối liên hệ của
các hiện tượng với nhau.

Dự đoán: phương pháp cần thiết và quan trọng trong hoạt động thống kê. Từ các phương pháp trên thu thập
được các đặc trưng, số liệu, … có thể đưa ra những dự đoán.

Thống kê ứng dụng trong KHXH


Thống kê được ứng dụng trong nhiều lĩnh vực: kỹ thuật, sinh học, kinh tế, xã hội, …

Trong KHXH: ứng dụng cho tất cả các ngành KHXH

Thống kê mô tả và thống kê suy diễn → thống kế ứng dụng

Vai trò: là công cụ cơ bản quan trọng trong việc nhận thức tình hình và hỗ trợ quyết định. Thống kê được dùng để
nhận ra và hiểu các biến thiên có hệ thống khi đo lường các hiện tượng xã hội → để tóm tắt dữ liệu và đưa ra
quyết định dựa trên dữ liệu.

⇒ Thống kê là cơ sở nhận thức hiện tượng nghiên cứu một cách khoa học. Thông tin thống kê là căn cứ quan
trọng để lập kế hoạch và đưa ra quyết định/hoạch định.

Vai trò của máy tính trong thống kê


Phần mềm ứng dụng SPSS: Statistical Package for the Social Sciences

Một công cụ hữu hiệu để phân tích dữ liệu

Được dùng phổ biến bởi các nhà KHXH

Tương đối dễ sử dụng

Đòi hỏi sự thành thạo một số sự kiến thức về phương pháp nghiên cứu.

Khái quát hóa quá trình nghiên cứu thống kê


1. Xác định vấn đề, đối tượng, mục tiêu và nội dung nghiên cứu

2. Xây dựng hệ thống khái niệm, các chỉ tiêu thống kê

3. Thu thập dữ liệu

4. Xử lý dữ liệu

5. Phân tích và giải thích kết quả

6. Viết báo cáo - trình bày kết quả nghiên cứu

Thiết kế đề cương nghiên cứu (research proposal design) → thu thập dữ liệu (data
collection) → nhập dữ liệu (data entry) → xử lý dữ liệu (data processing) → thuyết minh
dữ liệu (data interpreting)

Một số khái niệm dùng trong nghiên cứu thống kê


Dữ liệu (data) là gì?

Là tập hợp các thông tin ghi nhận được hay các giá trị quan sát được về một hiện tượng/vấn đề nào đó

Thông tin/Vấn đề quan tâm → Biến số (Variable)

Nội dung của thông tin → Giá trị (Value)

Thống kê Khoa học Xã hội 2


Giá trị quan sát riêng lẻ được gọi là một điểm dữ liệu (data point).

Ví dụ: Thu thập của một hộ tại địa phương X

6 loại hình dữ liệu (Types of data)

Dữ liệu dạng số (Numeric data)

Tuổi: 20
Quy mô gia đình/số thành viên trong gia đình: 6 người
Thu thập trung bình/tháng/người/hộ: 3.000.000 VNĐ

Dữ liệu dạng chữ (Non-numeric data)

Một trong những nguyên nhân tăng cân của sinh viên là do uống trà sữa thường
xuyên.
Uống trà sữa thường xuyên gây tăng cân, béo phì, tiểu đường

Dữ liệu thứ cấp (Secondary data)

Được xử lý bằng phương pháp thống kế và đã được công bố, bao gồm: số liệu thống kê, báo cáo, bài viết
trên các tạp chí, chuyên đề, đề tài nghiên cứu, luận văn, luận án tốt nghiệp.

Nguồn cung: Cục thống kê, cơ quan chức năng (Bộ, Sở, Phòng), Viện, Trung tâm nghiên cứu, Trường đại
học, …

Dữ liệu sơ cấp (Primary data)

Bằng phương pháp thống kê và chưa được công bố

Nguồn cung: bảng câu hỏi, phỏng vấn sâu, thảo luận nhóm, quan trắc/đo đạc môi trường, …

Dữ liệu định tính (Qualitative data): mô tả tính chất của đối tượng (đẹp, xấu, cao, thấp, béo, gầy, …)

Dữ liệu định lượng (Quantitative data): mô tả đặc điểm đối tượng bằng các con số, gồm 2 loại:

Dữ liệu liên tục (Continuous data): có các giá trị bất kỳ trong một khoảng xác định, hay nhận được bất kỳ
giá trị nào giữa giá trị nhỏ nhất và lớn nhất của nó.

Ví dụ: nhiệt độ, chiều dài, độ cao, trọng lượng là dữ liệu liên tục → vì có thể nhận đc
bất cứ giá trị nào mà chúng ta đo được.

Dữ liệu rời rạc (Discrete data): có các giá trị chắc chắn, rời rạc và có thể đếm được.

Ví dụ: ly nước là dữ liệu rời vì chỉ có thể đếm từng ly (không thể có 1.5 hay 2.5 ly
nước); con người là dữ liệu rời rạc. Tập hợp các số đếm là dữ liệu rời

Thông tin

Là kết quả của việc xử lý, sắp xếp và tổ chức dữ liệu → có thêm những hiểu biết về vấn đề được nghiên cứu.

Là nội dung của dữ liệu thu thập được.

Biến/Biến số (Variable)

Là tập hợp các đặc trưng và giá trị được dùng để chỉ một khái niệm khác. → Biến số là những vấn đề, thông
tin được quan tâm.

Ví dụ: giới tính, loại hình gia đình, trình độ học vấn, …

Thống kê Khoa học Xã hội 3


Giá trị là nội dung thông tin của biến số.

Định đề (Proposition)

Là một phát biểu về mối liên hệ giữa các khái niệm có thể là biến số.

Ví dụ: Hút thuốc lá (khái niệm) dẫn đến bệnh ung thư phổi (khái niệm); quan hệ tình dục
không an toàn dẫn đến nguy cơ nhiễm HIV/AIDS

Biến độc lập (Independent Variable):


Là biến được dùng để giải thích cho nguyên nhân của một hiện tượng.

Biến phụ thuộc (Dependent Variable):


Là biến kết quả, nó chịu sự chi phối của biến nguyên nhân.

Ví dụ: Trình độ học vấn cao (biến độc lập) → thu nhập cao (biến phụ thuộc)

Thao tác hóa (Operationalization)

Là một phương pháp để quan sát và ghi nhận những khía cạnh của một cá nhân, khách thể, hay một sự kiện
có liên quan để tiến hành kiểm định giả thuyết.

Thao tác hóa là một phương pháp để quan sát và ghi nhận những khía cạnh của một cá nhân, khách thể, hay
một sự kiện có liên quan để tiến hành kiểm định giả thuyết

Thang đo lường ( Measurement)


Là cách thức gán những con số hay giá trị cho các quan sát theo một quy tắc nhất định.

Ví dụ: Thu nhập ( 1 triệu, 2 triệu, 3 triệu, 4 triệu,...)

Thang đo dữ liệu (Data level Measurement)

Dữ liệu biểu danh/định danh (Nominal)

Dữ liệu thứ tự (Ordinal)

Dữ liệu khoảng cách (Interval)

Dữ liệu tỉ lệ (Ratio)

Bài 2: BIẾN SỐ & THANG ĐO


Biến số (Variable)
2 loại:

Biến định tính (Qualitative variable): những đặc trưng phân biệt dựa trên sự khác biệt về đặc tính, chứ không
phải số lượng hoặc độ lớn.

Biến định lượng (Quantitative variable): các giá trị của biến cho thấy sự khác biệt về độ lớn hay số lượng
giữa chúng

Thang đo
2 loại tương ứng với 2 loại biến định tính và định lượng:

Thang đo biến phạm trù (bao gồm thang đo danh nghĩa và thang đo thứ tự)

Thang đo biến số số (bao gồm thang đo khoảng cách và thang đo tỉ lệ)

Thống kê Khoa học Xã hội 4


Các loại thang đo sử dụng nhằm lượng hóa hiện tượng nghiên cứu, theo tính chất của việc đo lường mà thống kê
phải tiến hành đo lường bằng các loại thang đo phù hợp.

Thang đo danh nghĩa (Nominal Scale)

Dùng cho các đặc điểm thuộc tính

Một biến được xác định bởi thang đo danh nghĩa bao gồm hệ thống các chỉ báo khác nhau biểu thị thuộc tính
hay tính chất của biến đó.

Các chỉ báo có tính chất ngang nhau, không theo thứ tự nào.

Một thang đo có ít nhất 2 chỉ báo trở lên.

Ví dụ: giới tính: 1. nam; 2. nữ; 3. khác → biến số định tính

Thang đo thứ tự (Ordinal Scale)

Là thang đo danh nghĩa nhưng các chỉ báo hay các phương án trả lời được sắp xếp theo trật tự nhất định.

Giữa các chỉ báo này có quan hệ thứ bậc hơn kém, nhưng thường thì mức độ hơn kém giữa chúng không xác
định được (không đo được khoảng cách giữa chúng).

⇒ Thang đo thứ bậc thường dùng cho các đặc điểm thuộc tính và đôi khi cũng áp dụng được cho các đặc
điểm số lượng.

Ví dụ: Thu nhập trung bình hàng tháng/cá nhân: 1. dưới 500k; 2. từ 500k đến dưới 1tr;
3. từ 1tr đến dưới 2tr; 4. từ 2tr đến dưới 3tr → trật tự thấp đến cao

Ví dụ: Học vấn: 1. Mù chữ; 2. Cấp 1; 3. Cấp 2; 4. Cấp 3; 5. Đại học → trật tự dưới lên
trên

Thang đo Likert:

Là một dạng của thang đo thứ tự, nhưng có thể chuyển hóa sang thang đo khoảng cách.

Số giá trị là số lẻ (3, 5, 7, 9 …).

Các mã số của giá trị biểu thị một thứ tự xếp hạng cho biết thứ tự chất lượng hoặc số lượng (cao hơn hay
thấp hơn, tốt hơn hay kém hơn …), nhưng không cho biết thông tin số lượng hoặc chất lượng của chúng.

Ví dụ: Mức sống: 1. nghèo; 2. trung bình; 3. khá giả → nếu gán giá trị vào và tính giá trị
trung bình → so sánh

Thang đo khoảng cách (Interval Scale)

Có đầy đủ tính chất của một thang đo danh nghĩa và thứ bậc, nhưng khoảng cách giữa các chỉ số được xác
định một cách cụ thể và đều nhau. (phân biệt 2 trạng thái)

Thông thường, biến số với các giá trị là một dãy các chữ số liên tục và đều đặn từ 1 đến 5, 1 đến 7 hay từ 1
đến 10. Như vậy, thang đo là thang đo thứ bậc có khoảng cách đều nhau được xác định rõ ràng. (nhưng nếu
gán cho giá trị → thành thang đo khoảng cách)

Ví dụ: Những người có học vấn cao sẽ có thu nhập cao. Đồng ý không? 1. rất không; 2.
không; 3. không ý kiến; 4. đồng ý; 5, rất đồng ý

Đối với loại thang đo này ta có thể sử dụng một số các phép tính toán học như trung bình, tính độ lệch.

Điểm “không” của thang đo này là tùy ý → các biến số mà các giá trị không có điểm 0 tuyệt đối, giá trị 0 chỉ là
quy ước, giá trị 0 không có ý nghĩa thật sự.

Thống kê Khoa học Xã hội 5


Ví dụ: thang đo nhiệt độ

Ví dụ: Trong thang đo nhiệt độ Celsius, 0 độ C không phải là “không có nhiệt độ” mà là
tại nhiệt độ đó, nước từ thể rắn chuyển sang thể lỏng” và có thể xuống thấp hơn 0 độ.
Size quần áo không có giá trị 0 thật sự vì không có size quần nào bằng 0.

Với dữ liệu khoảng cách, có thể thực hiện phép cộng và trừ, tuy nhiên phép nhân và chia không phù hợp (vì
không phù hợp cho việc so sánh) [không thể nói hôm nay lạnh gấp đôi ngày hôm qua]

Ví dụ: Không có ý nghĩa toán học nào tuyên bố rằng 80 độ F nóng gấp đôi 40 độ F

⇒ Thang đo khoảng cách thường dùng cho các đặc điểm số lượng và đôi khi cũng áp dụng cho các đặc
điểm thuộc tính.

Thang đo tỉ lệ (Ratio Scale)

Dùng cho đặc tính số lượng

Có đầy đủ các đặc tính của thang đo khoảng cách → có thể áp dụng các phép tính cộng trừ và nhiều phép
tính khác.

Ví dụ:

Số năm lớp họp cao nhất: 0(không đi học); 1(lớp 1); 2(lớp 2); 15(Tiến sĩ).

Thu nhập trung bình hộ gia đình/ tháng: 10tr; 20tr; 30tr; …

Số học sinh ngày vắng mặt/ buổi: 1, 2, 3, 4, …

Sự khác nhau giữa thang đo khoảng cách và tỉ lệ thường bị lẫn lộn giữa 2 điểm sau:
Điểm 0 trong thang đo tỷ lệ là một trị số thật.

Trong khoảng, sự so sánh về mặt tỷ lệ giữa các giá trị thu nhập không có ý nghĩa.

Ví dụ: đối với thu nhập, chắc chắn là có thể kiếm được 0$ 1 năm hoặc có 0$ trong tài
khoản ngân hàng và điều này biểu thị sự vắng mặt của tiền.

Thích hợp để nhân và chia cũng như cộng và trừ

Ví dụ: một người có 100$ thì là gấp đôi số tiền người 50$ hoặc người 30 tuổi gấp 3 lần tuổi
người 10 tuổi.

Có thể chuyển đổi sang thang đo thứ tự.

Thực hành

💡 Keywords:
”Vài lần”, không biết chính xác số lần → Thang đo Thứ bậc
Câu hỏi mở, có khoảng trống, không gán được giá trị → Thang đo tỉ lệ
“Nhận định”, riêng lẻ, không có thứ bậc → định tính - danh nghĩa
“Đánh giá mức độ” → định lượng - khoảng cách
Thang đo 10 → Thang đo khoảng cách

Thống kê Khoa học Xã hội 6


Bài 3: CHỌN MẪU
Tổng quan chọn mẫu
Mục tiêu chọn mẫu:
Phải phản ánh chính xác những đặc điểm của nhóm dân số lớn hơn → có vậy mới có thể khái quát hóa về dân số
nghiên cứu.

Lý do chọn mẫu:

Thông tin thu thập sẽ chính xác hơn, cặn kẽ hơn khi tiến hành nghiên cứu trên một mẫu thay vì toàn bộ dân
số.

Khả năng sai sót trong điều tra chọn mẫu sẽ thấp hơn khi điều tra trên một tổng thể. Hơn nữa, có khả năng
tập trung được một nhóm chuyên gia có trình độ tham gia vào cuộc nghiên cứu.

Sẽ không gặp khó khăn nhiều khi tiến hành nghiên cứu với các nhóm dân cư có tính biến động cao.

Nhanh hơn, kinh tế hơn.

Một số khái niệm:

Tổng thể thống kê (population): là tập hợp các đơn vị thuộc hiện tượng nghiên cứu, cần quan sát, thu thập
và phân tích theo một số đặc trưng nào đó.

Đơn vị tổng thể: là các đơn vị tạo thành tổng thể

Mẫu (sample): là một số đơn vị được chọn từ tổng thể

Mẫu đại diện (representative sample): được chọn từ tổng thể mang tất cả đặc trưng của tổng thể. được sử
dụng để suy ra cho tổng thể

Khung mẫu (sampling frame): là danh sách các đơn vị của tổng thể cần nghiên cứu, cần thu thập dữ liệu. có
thể được gọi là khung lấy mẫu. Được sắp xếp theo một trật tự nào đó (a, b, c …) được gán cho thứ tự từ thứ
nhất đến cuối cùng.

Mẫu xác suất (Probability Sampling)


Ngẫu nhiên đơn giản

Là quy trình lấy mẫu trong đó mỗi đơn vị của tổng thể được chọn ngẫu nhiên theo nguyên tắc cơ bản được
chọn ngang nhau giữa các đơn vị trong tổng thể.

Có nhiều cách để chọn ra danh sách mẫu:

Từ khung mẫu và số thứ tự từng đơn vị → thực hiện lấy mẫu ra bằng nhiều cách: bốc thăm ngẫu nhiên
hay chọn ngẫu nhiên các số.

Ngẫu nhiên hệ thống

Là cách chỉ cần chọn ra một con số ngẫu nhiên là có thể xác định được tất cả các đơn vị mẫu cần lấy ra từ
danh sách chọn mẫu (thay vì chọn ra n số ngẫu nhiên ứng với n đơn vị mẫu cần lấy)

💡 Quy trình gồm các bước:

Khung mẫu đã được đánh số thứ tự cho các đơn vị trong danh sách, tổng số đơn vị trong danh
sách là N .

Xác định cỡ mẫu muốn lấy, ví dụ n quan sát

Chia N đơn vị tổng thể thành k nhóm theo công thức:


N
k= n
với k là khoảng cách chọn mẫu

Thống kê Khoa học Xã hội 7


Như vậy, chọn mẫu hệ thống là phương pháp chọn mẫu trong đó các đơn vị mẫu được chọn cách nhau một
khoảng là k đơn vị

Ví dụ: tổng 12 người -> N =12. Muốn chọn 4 người -> n=4 => k =3 -> cứ 3 người thì sẽ
có người được chọn

Có hai trường hợp:

Lấy mẫu theo đường thẳng (Linear systematic sampling): khi k là số nguyên (N chia chẵn cho n)

N =62; n=10
k = Nn = 6,2 → k =6
Chọn một số ngẫu nhiên từ 1 đến 6:
Nếu số ngẫu nhiên được chọn là 1, các đơn vị được lấy ra sẽ là 1, 7, 13, 19, …, 61
(chọn được 11 đơn vị)
Nếu số ngẫu nhiên được chọn là 6, các đơn vị được lấy ra sẽ là 6, 12, 18, 24, …,
(chọn được 10 đơn vị)

N =66; n=10
→ k =7
Chọn một số ngẫu nhiên từ 1 đến 7:
Nếu số ngẫu nhiên được chọn là 2, các đơn vị sẽ là 2, 9, 16, …
Nếu số ngẫu nhiên được chọn là 7, các đơn vị sẽ là 7, 14, 21, …

Lấy mẫu ngẫu nhiên quay vòng (Circular systematic sampling): khi k là số thập phân (N không chia
chẵn cho n).

Khi tổng thể N không chia chẵn cho n mẫu thì các đơn vị không có cùng 1 xác suất chọn ra như
nhau và khi dùng kết quả trung bình mẫu để ước lượng trung bình tổng thể thì rất có khả năng bị lệch
→ Chọn mẫu hệ thống quay vòng.

Giả sử cần chọn ra n đơn vị từ tổng thể N , trình tự các bước như sau:

Tính khoảng cách chọn mẫu: k =N


Chọn một số ngẫu nhiên từ 1 đến N , đơn vị mẫu đầu tiên có số thứ tự với số đã được chọn ra.

Các đơn vị tiếp theo cách đơn vị mẫu đầu tiên một khoảng 1k , 2k , 3k …

Nếu hết danh sách đơn vị của N nhưng chưa đủ n đơn vị mẫu, ta quay lại từ đầu danh sách với
quy ước: N + 1 tương đương với đơn vị thứ nhất, N + 2 tương đương với đơn vị thứ 2 trong
danh sách.

N =13; n=4
k =3
Chọn một số ngẫu nhiên từ 1 đến 13:
Nếu số ngẫu nhiên được chọn là 6 → 6, 9, 12 và ([12+3]-13)=2

Cách tính: Khi số thứ tự chọn mẫu lớn hơn N thì:


Vị trí chọn mẫu = Số thứ tự chọn mẫu - N

Mẫu Phân tầng (Stratified sampling)

Khi đã biết thông tin về tổng thể dân số trước khi chọn mẫu.

Thống kê Khoa học Xã hội 8


Để bắt đầu, tất cả những phần tử của dân số sẽ được phân biệt theo những đặc tính của chúng, và được xếp
vào từng tầng khác nhau. Tiếp theo, các phần tử sẽ được chọn ngẫu nhiên theo các phân tầng đó.

Ví dụ: Một trường Đại học có 3/4 nữ và 1/4 nam, như vậy mẫu được chọn cũng sẽ có tỉ
lệ tương tự như thế.

Ví dụ: Một trường Đại học có 10.000 sinh viên vs 2 cấp đào tạo là Cử nhân và Cao học;
2 hệ đào tạo Chính quy và Vừa học vừa làm. (Mỗi cấp và hệ đào tạo được coi là một
tầng). Để khảo sát mức độ hài lòng của sinh viên về chất lượng đào tạo, số đơn vị dự
định lấy khảo sát là 500 sinh viên (5% của tổng thể), nếu ohaan bố mẫu vào từng tầng
theo tỷ lệ thì kết quả như trong bảng sau:

Cấp đào tạo/Hệ đào tạo Số lượng SV %SV Số lượng SV lấy ra từng tầng

Cử nhân (Hệ chính quy) 4.500 45% 225

Cử nhân (Hê Vừa học vừa làm) 2.500 25% 125

Cao học 3.000 30% 150

Tổng 10.000 100% 500

Mẫu cụm (Cluster sampling)

Khi không có một khung mẫu lớn cụ thể.

Khác với chọn mẫu phân tầng, các “tầng” là các nhóm đồng nhất được chọn ra theo những đặc trưng cá nhân
như giới tính, trình độ học vấn, tôn giáo, …, “cụm” là sự liên kết của các nhóm không đồng nhất.

Do đó, “cụm” thường được chọn theo các yếu tố sau: vị trí địa lý, các tổ chức, đơn vị xã hội, các cụm dân cư
… sau khi có danh sách các cụm, tiến hành chọn ngẫu nhiên để xác định các cụm đại diện, sau đó chọn ngẫu
nhiên các phần tử trong mỗi cụm để lập danh sách mẫu nghiên cứu. → Lấy mẫu nhiều giai đoạn.

Nội thành Thành phố HCM > Quận > Phường > Khu phố/tổ dân phố > Khối nhà

Phi mẫu xác suất (Non-Probability sampling)


Trong thực tế, nhiều khi chúng ta không đủ thời gian, thông tin và chi phí để thực hiện lấy mẫu xác suất (mẫu
ngẫu nhiên) → lấy mẫu phi xác suất

Không đại diện để ước lượng cho toàn bộ tổng thể, nhưng được chấp nhận trong nghiên cứu khám phá và trong
kiểm định giả thuyết.

Các phương pháp:

Lấy mẫu thuận tiện (Convenient sampling):

Được dùng khi muốn có một ước lượng sơ bộ về kết quả bảng câu hỏi (thông tin dữ liệu) quan tâm mà
không muốn mất thời gian và chi phí.

Cần suy nghĩ kỹ về thời gian, địa điểm hay hoàn cảnh mà ta sẽ gặp đối tượng và thu thập dữ liệu ở đó
(không tùy tiện, ngẫu hứng).

Quan niệm về hạnh phúc của sinh viên ĐHQG TP.HCM hiện nay.
Mức độ hài lòng của khách du lịch về môi trường điểm đến tại Thành phố Vũng Tàu

Lấy mẫu định mức (Quota sampling): Tương tự lấy mẫu xác suất phân tầng (Phân chia tổng thể thành các
tầng lớp con-tổng thể con). Điểm khác biệt cơ bản là trong từng tổng thể con, người phỏng vấn được chọn
mẫu tại hiện trường theo cách thuận tiện hay phán đoán, trong khi mẫu phân tầng chọn ra theo xác suất.

Lấy 400 người dân tại thành phố, người nghiên cứu có thể quyết định

Thống kê Khoa học Xã hội 9


Lấy mẫu phán đoán (Judgement sampling): Bạn chính là người quyết định sự thích hợp các đối tượng để
mời họ tham gia khảo sát, do đó tính đại diện của mẫu khảo sát thực tế sẽ phụ thuộc vào kiến thức và kinh
nghiệm của người nghiên cứu điều tra và còn phụ thuộc cả vào những người thu thập dữ liệu trực tiếp.

Quy mô mẫu bao nhiêu là đại diện cho tổng thể?


Cách thức lựa chọn quy mô/kích cỡ mẫu theo công thức Slovin (1960):

💡 n= N
1+N ∗e 2
Trong đó:

n = quy mô/kích cỡ mẫu


N = tổng thể/quy mô dân số
e = mức sai số mong muốn (tính bằng tỷ lệ %)

N = 2500, sai số tiêu chuẩn ±5%


2500
n= N
1+N ∗e2
= 1+2500∗(0.05)2
= 345

N = 50000, sai số ±4%


50000
n= N
1+N ∗e2
= 1+50000∗(0.04)2
= 617

Bảng: Cỡ mẫu với sai số cho phép (Dấu * cho thấy là giả định về phần bố bình thường thấp, do đó không thể áp dụng
công thức tính n trong các trường hợp trên)

N ±1 % ±2 % ±3 % ±4 % ±5 % ±10 %
500 * * * * 222 83

1500 * * 638 441 316 94

2500 * 1250 769 500 345 96

3000 * 1364 811 517 353 97

4000 * 1538 870 541 364 98

5000 * 1667 909 556 370 98

6000 * 1765 938 566 375 98

7000 * 1842 959 574 378 99

8000 * 1905 976 580 381 99

9000 * 1957 989 584 383 99

10000 5000 2000 1000 588 385 99

50000 8333 2381 1087 617 397 100

Trong trường hợp KHÔNG BIẾT TRƯỚC QUY MÔ CỦA KHỐI DÂN CƯ → rất khó chọn mẫu xác suất.

Trong trường hợp này, người ta thường dùng ước lượng kích cỡ mẫu, sau đó tùy theo mà chọn tỷ lệ(1%, 2%, 5%
hay 10% của tổng thể)

Để đảm bảo cho phép thực hiện các tính toán thống kê thì dung lượng mẫu tối thiểu phải là 30 đơn vị mới đảm
bảo yêu cầu nếu muốn thực hiện các phân tổ để nghiên cứu riêng biệt.

Đương nhiên, nếu không nằm được quy mô dân số sẽ không kiểm soát được mức sai số mẫu.

Một số lưu ý về quy mô mẫu:

Thống kê Khoa học Xã hội 10


Không có giải pháp vạn năng về dung lượng cần thiết của mẫu. Song về mặt nguyên tắc, dung lượng của
mẫu phụ thuộc vào:

Độ tin cậy, chính xác của kết quả.

Số lượng biến số cùng phân tích.

Mức độ có trong tập tổng quát (Nếu tập tổng quát có nhiều dấu hiệu, dung lượng của mẫu sẽ tăng lên và
ngược lại, mẫu sẽ nhỏ nếu tập hợp tổng quát thuần nhất về mặt dấu hiệu).

Mức độ chính xác cần thiết của kết quả trong mẫu.

Bên cạnh đó, khả năng tài chính và nguồn lực là yếu tố rất quan trọng để xác định cỡ mẫu tối đa mà nhà
nghiên cứu có thể sử dụng được.

Trong thống kê có quan niệm: Kích thước tối thiểu của mẫu không được nhỏ hơn 30 đơn vị nghiên cứu. → Về
nguyên tắc: mẫu càng lớn thì sai số đại diện càng nhỏ.

Thông thường mức sai số 5% là hợp lý → nếu sai số càng nhỏ thì quy mô càng lớn → không thể làm nổi →
tùy vào khả năng người nghiên cứu đến đâu thì người ta sẽ chọn mức sai số phù hợp. Nếu sai số càng lớn thì
cỡ mẫu càng nhỏ → tính đại diện yếu.

Bài 4: THỐNG KÊ MÔ TẢ (Descriptive Statistics)


Là phương pháp liên quan đến việc tổ chức, tổng hợp và trình bày số liệu thu thập được từ mẫu nghiên cứu hoặc
tổng thể.

Ví dụ:
Dữ liệu thô: Thích loại nước ngọt (1= Pepsi; 2= Coca Cola; 3= Các loại nước ngọt khác)
333333323331333331323313333331
4 người thích Pepsi
2 người thích Coca
24 người thích còn lại

Một trong những lý do chính sử dụng phương pháp thống kê là để tổng hợp

Mô tả dưới dạng bảng


Bảng phân phối tần suất:
Trình bày số lần xuất hiện của một hay nhiều giá trị được quan sát trong mẫu hoặc tổng thể.

Các kiểu bảng phân phối tần suất:

Thô (Raw)

Liên hệ (Relative): tỉ lệ (Proportion) và phần trăm (Percent)

Lũy tiến (Cumulative)

Phân phối tần suất:

Một số ký hiệu:

💡 n = tổng số mẫu quan sát


X = biến
i = giá trị (thành phần) của biến X
fi = tần suất quan sát của giá trị i

Các thành phần (giá trị) của biến phải:

Thống kê Khoa học Xã hội 11


Loại trừ lẫn nhau

Bao phủ hết các trả lời

Bảng phân phối tần suất nên bao gồm:

Tiêu đề mô tả nội dung của bảng

Tên biến

Nhãn giá trị cho các thành phần biến

Tổng các quan sát của mẫu

Khai báo nguồn dữ liệu

Bảng phân phối tần suất thô

Loại nước ngọt thích Số đếm được (Totally) Tần suất (Frequency)

1. Coca 4 4

2. Pepsi 2 2

3. Khác 24 24

Tổng (n) 30 30

Bảng phân phối tần suất liên hệ

Tần suất tỷ lệ:

💡 pi =
fi
n 💡 ∑ pi = 1

Tần suất phần trăm:

💡 %i = fi
n
∗ 100 💡 ∑ i%= 100

💡 Trong đó:

n = tổng số mẫu quan sát


i = giá trị (thành phần của biến)
fi = tần suất quan sát của giá trị i

Tần suất fi
Loại nước ngọt thích Tỉ lệ pi (Proportion) Phần trăm %i (Percent)
(Frenquency)

1. Coca 4 0,133 13,3

2. Pepsi 2 0,067 6,7

3. Khác 24 0,80 80,0

Tổng 30 1,0 100,0

Bảng phân phối tần suất lũy tiến

Tần suất fi
Loại nước ngọt thích Phần trăm %i (Percent) % lũy tiến (Cumulative)
(Frenquency)
1. Coca 4 13,3 13,3

2. Pepsi 2 6,7 20,0

Thống kê Khoa học Xã hội 12


Tần suất fi
Loại nước ngọt thích Phần trăm %i (Percent) % lũy tiến (Cumulative)
(Frenquency)

3. Khác 24 80,0 100,0

Tổng 30 100,0

Mô tả dưới dạng biểu đồ


Biểu đồ phương pháp tần suất (Histogram)

Cho thấy tần suất xuất hiện của mỗi giá trị khác nhau trong một tập dữ liệu → cho thấy sự biến động của tập
dữ liệu và dựa vào hình dạng biểu đồ có thể đưa ra kết luận về tình trạng của dữ liệu.

Cần có tên biểu đồ, nguồn, tên giá trị, đơn vị

Biểu đồ tròn

Tần số của mỗi nhóm tương ứng với một phần diện tích hình tròn. Người ta dùng tần số phần trăm để biểu diễn
trên biểu đồ tròn.

Mô tả độ tập trung biến (Central Tendency)


Yếu vị (Mode)

Giá trị xuất hiện nhiều lần nhất trong một tập dữ liệu

Có thể sử dụng trong một thang đo.

Ví dụ 1: n=30 (1: 7up; 2:Pepsi; 3: Coca Cola; 4: Khác)


233322233233223
233233442343223
2: 12 lần
3: 15 lần
4: 3 lần
Yếu vị là 3

Trung vị (Median)

Giá trị đứng giữa trong tập một dữ liệu

Giá trị này chia tập quan sát làm hai phần đều nhau, 50% số quan sát của tập dữ liệu có giá trị bé hơn giá trị
trung vị và 50% lớn hơn giá trị trung vị.

Muốn xác định giá trị trung vị của một tập dữ liệu, các quan sát trong tập dữ liệu này trước tiên phải được sắp
xếp theo trật tự (từ nhỏ đến lớn hay ngược lại)

Không tính toán giá trị trung vị cho biến có thang đo danh nghĩa

💡 Công thức:

Median x =
(n+1)
2
(n+1)
Nếu n là số lẻ → giá trị trung vị nằm ở vị trí thứ 2
trong tập dữ liệu

Nếu n là số chẵn → giá trị trung vị là giá trị trung bình cộng của 2 quan sát nằm ở vị trí chính giữa
tập dữ liệu.

(8+1)/2 = 4.5 → giá trị trung vị rơi vào giữa giá trị quan sát thứ 4 và quan sát thứ 5 trong
tập dữ liệu.

Thống kê Khoa học Xã hội 13


Ví dụ:
63 68 70 78 70 67 57 60 69 74 59 65 55 70 72 69 70 65
65 74 69 65 63 59 75 68 68 65 65 72

1. Sắp xếp thứ tự tập dữ liệu:


55 57 59 59 60 63 63 65 65 65 65 65 65 67 68 68 68
69 69 69 70 70 70 70 72 72 74 74 75 78

2. Xác định vị trí Trung vị


(n+1) (30+1)
x= = = 15.5
⇒ Giá trị Trung vị nằm ở vị trí thứ 15 (68) và thứ 16 (68) trong tập dữ liệu đã được
2 2

sắp xếp.
(68+68)
Giá trị Trung vị = 2
= 68
Đối với thang đo thứ bậc → sử dụng bảng phân phối tần suất lũy tiến để xác định giá trị trung vị.

Giá trị trung vị chính là giá trị có phần trăm lũy tiến lớn hơn và gần kề tỉ lệ 50%

Trung bình cộng (Mean)

Được tính bằng cách cộng tất cả các giá trị của mỗi quan sát trong tập dữ liệu rồi chia cho tổng số quan sát

💡 Công thức:
X=
∑ xi
n
X : Giá trị trung bình
xi : Giá trị quan sát thứ i
n: tổng số mẫu quan sát

Ví dụ:
(2+5+8)
1. Trung bình của 2, 5 và 8 là 5 vì 3
=5
(1+3+2+8)
2. Trung bình của 1, 3, 2 và 8 là 3.5 vì 4 = 3.5
Tính giá trị trung bình cho biến có thang đo thứ bậc:

💡 Công thức:
X = ∑ fi ×
mi
n

Bảng 5.2: Phân bố tần suất điểm trung bình chung năm học của sinh viên lớp Thống kê Xã hội

ĐTB chung fi mi fm %c

51 - 55 1 53 53 3.3

56 - 60 2 58 116 10.0

61 - 65 8 63 504 36.7

66 - 70 12 68 816 76.7

71 - 75 5 73 365 93.3

76 - 80 2 78 156 100.0

Thống kê Khoa học Xã hội 14


ĐTB chung fi mi fm %c

Tổng 30

Nguồn: Khảo sát lớp học Thống kê 04, tháng 11, năm 2007

(53×1)+(58×2)+(63×8)+(68×12)+(73×5)+(78×2)
X= 30
= 67

Mô tả độ phân tán biến (Dispersed Tendency)


Giá trị lớn nhất (Max)

Là giá trị có điểm số cao nhất trong tập dữ liệu

Giá trị nhỏ nhất (Min)

Là giá trị có điểm số thấp nhất trong tập dữ liệu

Cách độ (Range)

Là một trong những cách dễ nhất để mô tả mức độ biến thiên

Là sự cách biệt hay khoảng cách giữa giá trị quan sát lớn nhất và giá trị quan sát nhỏ nhất.

💡 Công thức:

R = xmax − xmin

Đại lượng cách độ (R) bị ảnh hưởng rất nhiều bởi các giá trị ngoại lệ → đại lượng đo lường độ phân tán
yếu nhất và ít được sử dụng.

Bảng 4: Khoảng cách đi từ nhà đến trường của sinh viên

Sinh viên Khoảng cách (km) Sinh viên Khoảng cách (km)

1 2 9 11

2 4 10 13

3 4 11 13

4 4 12 14

5 5 13 15

6 7 14 19

7 9 15 20

8 10

R = xmax − xmin = 20 − 2 = 18km


Phương sai (Variance)

Là phép đo mức chênh lệch giữa các số liệu trong một tập dữ liệu trong thống kê. Nó đo khoảng cách giữa
mỗi số liệu với nhau và đến giá trị trung bình của tập dữ liệu.

Để do lường độ biến thiên của một tập dữ liệu là sử dụng giá trị trung bình cộng như là một điểm để so sánh
với từng giá trị quan sát.

Cách đơn giản nhất để tính đại lượng này là lấy giá trị của từng quan sát trừ đi giá trị trung bình cộng
của tất cả các quan sát này, sau đó cộng tất cả kết quả lại thành độ lệch trung bình (mean deviations).

💡 ∑(x − X ) = mean deviations

Thống kê Khoa học Xã hội 15


Bảng 4: Khoảng cách đi từ nhà đến trường của sinh viên

Sinh viên Khoảng cách (km) Sinh viên Khoảng cách (km)

1 2 9 11

2 4 10 13

3 4 11 13

4 4 12 14

5 5 13 15

6 7 14 19

7 9 15 20

8 10
2+4+4+4+5+7+9+10+11+13+13+14+15+19+20
X= 15
= 10
Vấn đề đặt ra đối với phương pháp này là tổng các độ lệch của dữ liệu luôn bằng 0

Trong khi đó, giá trị 0 thì không có ý nghĩa trong việc đo lường độ phân tán

⇒ Để khắc phục vấn đề này, các giá trị lệch giữa giá trị quan sát và giá trị trung bình sẽ được bình phương (làm
cách này, những giá trị âm sẽ không còn nữa) → sau đó cộng tất cả các giá trị bình phương này lại.

Phương sai là giá trị đo lường độ biến thiên (của các quan sát) xung quanh giá trị trung bình. Được tính bằng
các lấy tổng các biến thiên giữa từng quan sát với giá trị trung bình đã được bình phương chia cho tổng số
quan sát.

💡 Phương sai tổng thể (Population


Variance)
💡 Phương sai mẫu (Sample Variance)

∑ (x− X )2
S2 = (n−1)
∑ (x− X )2
σ2 = n

2 2
(x − X ) (x − X ) (x − X ) (x − X )
2 − 10 = −8 64 11 − 10 = +1 1

4 − 10 = −6 36 13 − 10 = +3 9

4 − 10 = −6 36 13 − 10 = +3 9

4 − 10 = −6 36 14 − 10 = +4 16

5 − 10 = −5 25 15 − 10 = +5 25

7 − 10 = −3 9 19 − 10 = +9 81

9 − 10 = −1 1 20 − 10 = +10 100

10 − 10 = 0 0 ∑=0 ∑ = 448

n = 15
∑ (x− X )2 ∑ (0−448)2 448
S2 = (n−1)
= (15−1)
= 14
= 32.0

Mặc dù phương sai được xem là một trong những phép tính thống kê để đo lường độ phân tán, tuy nhiên nó
không có ý nghĩa nhiều.

Giá trị này thật sự có ý nghĩa khi nó được chuyển hóa thành một giá trị khác gọi là độ lệch chuẩn (Standard
Deviation)

Độ lệch chuẩn (Standard Deviation)

Là giá trị căn bậc hai của phương sai. Được dùng để đo lường độ phân tán của các quan sát xung quanh giá
trị trung bình.

Thống kê Khoa học Xã hội 16


💡 Công thức:
s= S2

∑ (x− X )2 ∑ (0−448)2
S2 = (n−1)
= (15−1)
= 448
14
= 32.0

s= S2 = 32 = 5.660
Độ lệch chuẩn tương ứng với các giá trị quan sát trong tập dữ liệu càng lớn thì độ biến thiên của tập dữ liệu
càng lớn.

Giải thích: Ứng với khoảng cách trung bình từ nhà đến trường của các sinh viên là 10km, các giá trị quan
sát có độ lệch chuẩn là 5.66km

IQV (Index of Qualiative Variation)

Chỉ sử dụng để đo lường độ phân tán của dữ liệu định tính

💡 Công thức
IQV =
k(N 2 − ∑ f 2 )
N 2 (k−1)

k = số các giá trị của biến


N = số trường hợp nghiên cứu
2
∑ f = tổng của bình phương tần số

1= 4 lần
2= 2 lần
3= 3 lần
4= 0 lần
∑ f 2 = 42 + 22 + 32 + 02 = 29
Đại lượng IQV nhận các giá trị từ 0 đến 1

0: cho thấy không có sự biến thiên trong mẫu

1: có sự phân bố đều nhau giữa các giá trị (không tồn tại yếu vị mode)

Thang đo Đo lường độ tập trung Đo lường độ phân tán

Danh nghĩa Yếu vị IQV


Thứ bậc (Yếu vị), Trung vị IQV

Khoảng cách-Tỉ lệ (Yếu vị, Trung vị) Trung bình Độ lệch chuẩn (s)

Bài 5: THÔNG KÊ SUY LUẬN (Statistical Inference)


Một số vấn đề kiểm định giả thuyết
Là một công cụ của thống kê suy diễn

Mục đích chính của hầu hết các nghiên cứu là để kiểm tra có hay không việc những dữ liệu thu thập từ các cuộc
điều tra phù hợp với những dự báo về một vấn đề cụ thể. Những dự báo này chính là các giả thuyết (hypothesis)
về tham số được đo lường trong nghiên cứu

Kiểm định là quy trình dựa trên những thông tin tìm được từ dữ liệu mẫu để đánh giá các kết luận về tổng thể
nghiên cứu hoặc xác định các giả thuyết đưa ra về tổng thể có hợp lý hay không

Thống kê Khoa học Xã hội 17


Giả thuyết là một phát biểu về những đặc trưng của một tham số (biến) hay tập hợp của nhiều tham số.

Các giả thuyết là những nhận định dựa trên sự tin tưởng chưa được kiểm định.

Những yếu tố của một kiểm định ý nghĩa


Kiểu dữ liệu
Tương tự như các phương pháp thống kê mô tả, mỗi kiểm định đều chứa trong nó hoặc là dữ liệu định tính hoặc là dữ
liệu định lượng.

Phương pháp chọn mẫu


Các kiểm định thường đòi hỏi các phương pháp chọn mẫu xác suất

Dung lượng mẫu


Tính giá trị của các kiểm định càng cao khi dung lượng mẫu càng lớn

Giả thuyết nghiên cứu (Hypothesis)


Là một mệnh đề nêu lên một vấn đề, sự kiện có tồn tại trong thực tế nghiên cứu hay không.

Ví dụ: Uống trà sữa mỗi ngày sẽ gây nên bệnh tiểu đường

Là một mệnh đề nêu lên mối quan hệ nhân quả của vấn đề nghiên cứu

Một giả thyết bao gồm một biến số nguyên nhân và một biến số kết quả

Ví dụ: Sự gắn kết giữa các thành viên trong gia đình là yếu tố ảnh hưởng đến hạnh
phúc gia đình.

Một giả thuyết lớn bao gồm các giả thuyết con

Ví dụ:

Giả thuyết 1: Truyền thông môi trường tác động đến tham gia dịch vụ thu gom rác

Giả thuyết 1.1: Nội dung truyền thông tác động đến tham gia dịch vụ gom rác

Giả thuyết 1.2: Hình thức truyền thông tác động đến tham gia dịch vụ gom rác

Giả thuyết 1.3: Tần suất truyền thông tác động đến tham gia dịch vụ gom rác

Gồm:

Giả thuyết H0 (null hypothesis): là giả thuyết được kiểm định trực tiếp. Giả thuyết này là một phát biểu
“không” về mối liên hệ giữa hai biến. Nói cụ thể, một biến này không có quan hệ với biến kia.

Giả thuyết đổi Ha (alternative hypothesis): là giả thuyết đối của giả thuyết H0 . Giả thuyết này phát biểu
rằng có tồn tại một mối quan hệ giữa 2 biến.

Mức độ tin cậy


Thông thường mức độ tin cậy của một kiểm định sẽ ở mức 95% (α = 0.05) hoặc 99%
(α = 0.01)

Các loại kiểm định


Kiểm định phi tham số (Nonparametric Tests)

Thống kê Khoa học Xã hội 18


Sử dụng trong những trường hợp dữ liệu không có phân phối chuẩn, hoặc cho các mẫu nhỏ có ít đối tượng. (
n ≥ 30)
Được dùng cho các dữ liệu định danh (nominal), dữ liệu thứ bậc (ordinal) hoặc dữ liệu khoảng cách (interval)
không có phân phối chuẩn

Nhược điểm là khả năng tìm ra được sự sai biệt kém, không mạnh như các phép kiểm có tham số (T student,
phân tích phương sai)

Kiểm định tham số (Parametric Tests)

Dựa trên giả định tổng thể nghiên cứu có phân phối chuẩn hoặc sấp xỉ chuẩn (trường hợp dữ liệu phân phối
chuẩn).

Tính chất của phân phối chuẩn: Đồ thị có hình chuông được cân bằng bởi giá trị trung bình (mean) =
trung vị (median) = yếu vị (mode) chia hình chuông thành 2 phần, mỗi bên có diện tích bị giới hạn bởi
đường cong hàm mật độ.

Phân phối chuẩn là quy luật phân phối phổ biến và thông dụng, phù hợp áp dụng cho các mục đích nghiên
cứu trong Kinh tế, Xã hội, do các hiện tượng, các đối tượng nghiên cứu có đặc điểm cá nhân khác nhau.

Ví dụ: Trong Xã hội có người giàu/nghèo, trình độ học vấn cao/thấp

Kiểm định một bên

Kiểm định bên trái:

💡 H0 : μ = m hoặc H0 : μ =
Ha : μ < m
m

Kiểm định bên phải:

💡 H0 : μ = m hoặc H0 : μ 
Ha : μ > m
=m

Kiểm định hai bên

Thống kê Khoa học Xã hội 19


💡 H0 : μ = m
Ha : μ =
m

Giá trị tới hạn (Critical Value):

Là biên giới chia đôi 2 vùng chấp nhận và bác bỏ H0 trên phân phối của giá trị kiểm định

Nếu giá trị thống kê kiểm định rơi vào vùng bác bỏ thì chúng ta bác bỏ H0 và ngược lại

Vùng bác bỏ là khu vực chứa các giá trị thống kê kiểm định không có khả năng xảy ra nếu thật sự H0 đúng →
nếu một giá trị thống kê kiểm định rơi vào vùng này thì ta sẽ bác bỏ H0 vì suy luận này đã không thể xảy ra
nếu H0 đúng.

Chỉ cần xác định được α → xác định được vùng bác bỏ và vùng chấp nhận → tức là suy ra được giá trị tới
hạn.

Thống kê suy luận cho biến định lượng (T - test)


Kiểm định ý nghĩa cho giá trị trung bình
Yêu cầu:

Mẫu xác suất (ngẫu nhiên)

Biến định lượng

Giả thuyết:

H0 : không có sự khác biệt ý nghĩa về trung bình giữa hai biến

💡 X1 = X2

Ha : có sự khác biệt giữa hai giá trị trung bình

💡 = X2
X1 

Ví dụ: Giả sử rằng chúng ta muốn so sánh và đưa ra kết luận về số lượng trà sữa được
các sinh viên uống trung bình một ngày ở 2 lớp thống kê 1 và 2

Giả thuyết:

H0 : không có sự khác biệt ý nghĩa về trung bình số lượng trà sữa được các
sinh viên lớp Thống kê uống một ngày giữa lớp 1 và 2

Thống kê Khoa học Xã hội 20


💡 X1 = X2

Ha : có sự khác biệt giữa hai giá trị trung bình

💡 = X2
X1 

Trong kiểm định này, chúng ta cố gắng tìm xem liệu có hay không sự khác biệt có ý nghĩa thống kê giữa 2 giá
trị trung bình này.

Để kết luận điều này, kết quả kiểm định sẽ dựa trên cơ sở của việc “bác bỏ” hay “chấp nhận” giả thuyết

Nếu giả thuyết H0 bị bác bỏ, tức là chúng ta có bằng chứng thống kê để cho rằng Ha đúng → có sự khác
biệt ý nghĩa giữa 2 giá trị trung bình.

Nếu giả thuyết H0 được chấp nhận, tức là chúng ta chưa có đủ bằng chứng thống kê để cho rằng Ha đúng.

Chú ý: chấp nhận H0 không có nghĩa là chúng ta đã chứng minh được H0 đúng và không vội vàng kết luận
rằng: Không có sự khác biệt giữa hai giá trị trung bình.

Chấp nhận H0 có nghĩa là chúng ta không đủ bằng chứng thống kê để bác bỏ nó mà thôi.

Ví dụ:
Giả sử chúng ta có số vụ tai nạn giao thông xảy ra trung bình mỗi ngày của Tp. HCM là
10 và của Hà Nội là 8. Kết quả chỉ ra rằng số vụ tại nạn giao thông xảy ra trung bình mỗi
ngày của Tp. HCM cao hơn của Hà Nội. Do vậy, chúng ta suy ra rằng Tp. HCM xảy ra tai
nạn giao thông cao hơn Hà Nội.
Nếu giả thuyết H0 được kiểm định ở mức tin cậy là 95%, có nghĩa là có 95% giả thuyết
H0 bị bác bỏ là chính xác. Nói một cách khác, có 5% sai số trong kiểm định này.
Kiểm định t - Test cho mẫu phụ thuộc
Kiểm định được sử dụng khi chúng ta biết các giá trị trung bình của tổng thể (μ), trung bình, độ lệch chuẩn (s
), và dung lượng mẫu.

Kiểm định t dùng để xác định có hay không có sự khác biệt hai trung bình mang ý nghĩa thống kê

💡 Công thức:

−μ
to − T est = s

n

X : Giá trị trung bình mẫu


μ: Giá trị trung bình tổng thể
s: Độ lệch chuẩn
n: Dung lượng mẫu

Quy trình:

Xác định các tham số muốn kiểm định

Đặt giả thuyết không (H0 ) và giả thuyết đối (Ha )

Xác định mức ý nghĩa của bài toán kiểm định α

Thống kê Khoa học Xã hội 21


Tính toán giá trị kiểm định theo công thức (tobtained = tc )

💡 to − T est =
X −μ
s
n

So sánh giá trị kiểm định to với giá trị tới hạn (tcritical = tc )
Trong kiểm định t − T est, chúng ta sử dụng bảng dò tìm giá trị phân phối t để xác định giá trị tới hạn
tcritical rồi so sánh với giá trị tobtained
Để dò tìm giá trị phân phối t trong bảng, trước tiên ta cần xác định số bậc tự do (degrees of freedom - df )
của mẫu cũng như giá trị α level

💡 Công thức:
df = n − 1

Kết luận:

Nếu to ≥ tc → bác bỏ H0 : Có sự khác biệt ý nghĩa thống kê


Nếu to < tc → chấp nhận H0

Ví dụ:
Chúng ta quan tâm đến sự khác biệt về tổng thể chi phí trung bình mỗi tháng dành cho việc
mua sắm dụng cụ học tập của sinh viên lớp thống kê với sinh viên của USSH
Biết rằng:

Chi phí trung bình mỗi tháng dành cho việc mua sắm dụng cụ học tập của sinh viên
trường USSH là 50.000đ (μ = 50.000đ)

Chi phí trung bình mỗi tháng dành cho việc mua sắm dụng cụ học tập của sinh viên lớp
Thống kê là 60.000đ (X = 60.000đ) và độ lệch chuẩn s = 20.000đ)

Độ tin cậy là 99% (α = 0.01)


Tổng số sinh viên lớp Thống kê được chọn ngẫu nhiên là 25.

1. H0 : μ = X
Ha : μ 
=X
X −μ 60.000−50.000
10
2. tobtained = s
= 20.000
= 4 = 2.5
n 25

3. ⇒
df = n − 1 = 25 − 1 = 24 tra bảng phân phối Student
→ tcritical = t(a/2,df) = t(0.01/2,24) = 2.797

4. Ta có: to = 2.5 và tc = 2.797


⇒ to < tc
5. Kết luận

to < tc → Chấp nhận H0 : không có sự khác biệt ý nghĩa thống kê

Thống kê Khoa học Xã hội 22


Ở mức độ tin cậy 99%, chúng ta không đủ bằng chứng kết luận rằng sinh viên lớp
Thống kê chi tiêu cho mua sắm dụng cụ học tập nhiều hơn sinh viên của trường.

Kiểm định t - Test cho mẫu độc lập


Được dùng để xem xét sự khác biệt ý nghĩa về trung bình giữa 2 mẫu nghiên cứu độc lập

Dung lượng mẫu nhỏ (n < 30)


Trong trường hợp có ít nhất một trong hai mẫu nghiên cứu có dung lượng nhỏ hơn 30, chúng ta sẽ sử dụng
công thức sau:

💡 t − T est = 2
X1 −X2
S pooled
1
×( n + n )
1
1
2

2 s 21 ×(n1 −1)+s 22 ×(n2 −1)


Trong đó, Spooled = n1 +n2 −2

Các bước tiến hành kiểm định

1. Xây dựng giả thuyết


H0 : X1 = X2
Ha : X1 
= X2
2. Tìm tobtained theo công thức
X1 −X2
t − T est = 2
S pooled ×( n1 + n1 )
1 2

3. Xác định giá trị tới hạn tcritical


Vì có ít nhất một mẫu với dung lượng n < 30, giá trị tới hạn tcritical được tính dựa trên bậc tự do df :
df = n1 + n2 − 2
⇒ Tra bảng phân phối Student để xác định giá trị tới hạn t
4. So sánh với giá trị tcritical

to ≥ tc → p ≤ 0.01 hoặc p ≤ 0.05 ⇒ bác bỏ H0


to < tc → p > 0.01 hoặc p > 0.05 ⇒ chấp nhận H0
5. Kết luận

Ví dụ:
Một nghiên cứu quan tâm sự khác biệt về mức độ tham gia các sự kiện xã hội được tổ
chức hàng tháng giữa nhóm sinh viên có tham gia sinh hoạt Đoàn và nhóm sinh viên
không tham gia sinh hoạt Đoàn trong một nhóm Trường Đại học, kết quả khảo sát như
sau:

Nhóm sinh hoạt Đoàn Nhóm không sinh hoạt Đoàn

Số sự kiện Xã hội tham gia


X1 = 15 X2 = 11
trung bình

Độ lệch chuẩn s1 = 3 s2 = 3
Dung lượng mẫu chọn n1 = 33 n2 = 29
Độ sai lệch α = 0.01 α = 0.01

Dung lượng mẫu lớn (n ≥ 30)


Trong trường hợp ta có dung lượng của cả hai mẫu nghiên cứu đều lớn hơn hoặc bằng 30, công thức để
kiểm định t − T est sẽ thay đổi, công thức mới này sẽ được gọi là kiểm định z − T est cho hai mẫu độc lập.

Thống kê Khoa học Xã hội 23


💡 Công thức:
z − T est : X1 −X2
s2 s2
1
n1
+ n2
2

Các bước tiến hành kiểm định

1. Xấy dựng giả thuyết


H0 : X1 = X2
Ha : X1 
= X2
2. Tìm zobtained theo công thức
X1 −X2
z − T est :
s2 s2
1
n1
+ n2
2

3. Xác định giá trị tới hạn zcritical

zc = 2.58 & p99 % = 0.01 với 99% độ tin cậy


zc = 1.96 & p95 % =0.05 với 95% độ tin cậy
4. So sánh với giá trị zcritical

zo ≥ zc → p ≤ 0.01 hoặc p < 0.05 ⇒ bác bỏ H0


zo < zc → p > 0.01 hoặc p > 0.05 ⇒ chấp nhận H0
5. Kết luận

Kiểm định sự độc lập cho mối quan hệ hai biến định tính (Chi-square test)
Được sử dụng để xem xét có hay không tồn tại mối quan hệ giữa hai biến định tính.

Yêu cầu:

Biến định tính

Các giá trị của biến loại trừ lẫn nhau

Bảng tương quan


Bảng 4.1: Tương quan giữa giới tính và thích KFC

Thích Không thích Tổng

Nam 38 15 53

Nữ 7 40 47

Tổng 45 55 100

Dữ liệu trên bảng được trình bày dưới dạng bảng tương quan 2x2

Bảng 2x2 biểu thị một biến gồm 2 nhóm (nam, nữ) trong mối quan hệ với một biến khác cũng bao gồm 2
phương án trả lời (thích, không thích)

Cần xác định rõ mối quan hệ giữa hai biến: độc lập - phụ thuộc

Quy trình kiểm định

1. Xây dựng giả thuyết

H0 : Không có mối quan hệ giữa hai biến


Ha : Hai biến có mối quan hệ ý nghĩa với nhau
2. Tính giá trị tần suất mong đợi bằng công thức

(tổngdoˋng)×(tổngcột)
fe = ~
tổngma^u

Thống kê Khoa học Xã hội 24


Trong đó, fe: tần suất mong đợi (expected frequency) là giá trị tần suất giả định rằng hai biến kiểm định là
độc lập.

3. Tìm giá trị χ2obtained theo công thức

(fo −fe )2
χ2obtained = ∑ fe

Trong đó:

fo : tần suất quan sát (observed frequency) là giá trị quan sát thực tế
4. Tính giá trị χ2critical thông qua bậc tự do

df = (sˊo^doˋng − 1) × (sˊo^cột − 1)

⇒ Tra bảng phân phối Chi-Square để tìm giá trị tới hạn tương ứng với từng mức độ tin cậy cụ thể
5. So sánh χ2obtained với χ2critical

χ2obtained ≥ χ2critical → p ≤ 0.01 hoặc p ≤ 0.05 ⇒ bác bỏ H0


χ2obtained < χ2critical → p > 0.01 hoặc p > 0.05 ⇒ chấp nhận H0
6. Kết luận

Bác bỏ H0 (p ≤ 0.01 hoặc p ≤ 0.05): tồn tại mối quan hệ có ý nghĩa thống kê giữa hai biến → Nói cách
khác, biến nghiên cứu này có quan hệ với biến nghiên cứu kia

Chấp nhận H0 (p > 0.01 hoặc p > 0.05): chúng ta chưa có đủ bằng chứng thống kê để bác bỏ H0 →
Nói cách khác, chưa có đủ bằng chứng để kết luận hai nghiên cứu có quan hệ với nhau.

Thống kê Khoa học Xã hội 25

You might also like