Professional Documents
Culture Documents
Là phương thức và nguyên tắc thu thập và xử lý thông tin nhằm giúp con người đưa ra quyết định (decision
making) khi họ phải đối diện với tính không chắc chắn của sự kiện (uncertainty of fact).
Cũng được sử dụng như số liệu tổng hợp, là kết quả của một quá trình nghiên cứu thống kê, đối với một tập
hợp dữ liệu
Ví dụ: thống kê việc làm, thống kê bệnh nhân F0, thống kê doanh số, … tình hình lao
động việc làm của địa phương:
Có bao nhiêu người trong độ tuổi lao động?
Trong số những người trong độ tuổi lao động bao nhiêu người thất nghiệp?
Quan tâm đến phương pháp (định lượng) và công cụ thu thập dữ liệu (bảng hỏi, quan sát tần suất xuất
hiện)
Độ lớn cần thiết của dữ liệu thu thập (có mang tính tin cậy để quyết định chủ thể nghiên cứu không?).
Dung lượng (n) là số lượng khảo sát ( n ≥ 30 đối với biến số thống kê).
Phương pháp xử lý dữ liệu thu thập (thống kê mô tả hay thống kê suy diễn) → tóm tắt dữ liệu hiệu quả
nhất.
Thống kê suy diễn: bao gồm các phương pháp như ước lượng, kiểm định, phân tích, dự đoán
Điều tra chọn mẫu: nghiên cứu một bộ phận của tổng thể để có thể suy luận cho tổng thể một hoặc các hiện
tượng tổng quát mà vẫn đảm bảo độ tin cậy cho phép.
Nghiên cứu mối liên hệ giữa các hiện tượng: phương pháp thống kê này hướng tới những mối liên hệ của
các hiện tượng với nhau.
Dự đoán: phương pháp cần thiết và quan trọng trong hoạt động thống kê. Từ các phương pháp trên thu thập
được các đặc trưng, số liệu, … có thể đưa ra những dự đoán.
Vai trò: là công cụ cơ bản quan trọng trong việc nhận thức tình hình và hỗ trợ quyết định. Thống kê được dùng để
nhận ra và hiểu các biến thiên có hệ thống khi đo lường các hiện tượng xã hội → để tóm tắt dữ liệu và đưa ra
quyết định dựa trên dữ liệu.
⇒ Thống kê là cơ sở nhận thức hiện tượng nghiên cứu một cách khoa học. Thông tin thống kê là căn cứ quan
trọng để lập kế hoạch và đưa ra quyết định/hoạch định.
Đòi hỏi sự thành thạo một số sự kiến thức về phương pháp nghiên cứu.
4. Xử lý dữ liệu
Thiết kế đề cương nghiên cứu (research proposal design) → thu thập dữ liệu (data
collection) → nhập dữ liệu (data entry) → xử lý dữ liệu (data processing) → thuyết minh
dữ liệu (data interpreting)
Là tập hợp các thông tin ghi nhận được hay các giá trị quan sát được về một hiện tượng/vấn đề nào đó
Tuổi: 20
Quy mô gia đình/số thành viên trong gia đình: 6 người
Thu thập trung bình/tháng/người/hộ: 3.000.000 VNĐ
Một trong những nguyên nhân tăng cân của sinh viên là do uống trà sữa thường
xuyên.
Uống trà sữa thường xuyên gây tăng cân, béo phì, tiểu đường
Được xử lý bằng phương pháp thống kế và đã được công bố, bao gồm: số liệu thống kê, báo cáo, bài viết
trên các tạp chí, chuyên đề, đề tài nghiên cứu, luận văn, luận án tốt nghiệp.
Nguồn cung: Cục thống kê, cơ quan chức năng (Bộ, Sở, Phòng), Viện, Trung tâm nghiên cứu, Trường đại
học, …
Nguồn cung: bảng câu hỏi, phỏng vấn sâu, thảo luận nhóm, quan trắc/đo đạc môi trường, …
Dữ liệu định tính (Qualitative data): mô tả tính chất của đối tượng (đẹp, xấu, cao, thấp, béo, gầy, …)
Dữ liệu định lượng (Quantitative data): mô tả đặc điểm đối tượng bằng các con số, gồm 2 loại:
Dữ liệu liên tục (Continuous data): có các giá trị bất kỳ trong một khoảng xác định, hay nhận được bất kỳ
giá trị nào giữa giá trị nhỏ nhất và lớn nhất của nó.
Ví dụ: nhiệt độ, chiều dài, độ cao, trọng lượng là dữ liệu liên tục → vì có thể nhận đc
bất cứ giá trị nào mà chúng ta đo được.
Dữ liệu rời rạc (Discrete data): có các giá trị chắc chắn, rời rạc và có thể đếm được.
Ví dụ: ly nước là dữ liệu rời vì chỉ có thể đếm từng ly (không thể có 1.5 hay 2.5 ly
nước); con người là dữ liệu rời rạc. Tập hợp các số đếm là dữ liệu rời
Thông tin
Là kết quả của việc xử lý, sắp xếp và tổ chức dữ liệu → có thêm những hiểu biết về vấn đề được nghiên cứu.
Biến/Biến số (Variable)
Là tập hợp các đặc trưng và giá trị được dùng để chỉ một khái niệm khác. → Biến số là những vấn đề, thông
tin được quan tâm.
Ví dụ: giới tính, loại hình gia đình, trình độ học vấn, …
Định đề (Proposition)
Là một phát biểu về mối liên hệ giữa các khái niệm có thể là biến số.
Ví dụ: Hút thuốc lá (khái niệm) dẫn đến bệnh ung thư phổi (khái niệm); quan hệ tình dục
không an toàn dẫn đến nguy cơ nhiễm HIV/AIDS
Ví dụ: Trình độ học vấn cao (biến độc lập) → thu nhập cao (biến phụ thuộc)
Là một phương pháp để quan sát và ghi nhận những khía cạnh của một cá nhân, khách thể, hay một sự kiện
có liên quan để tiến hành kiểm định giả thuyết.
Thao tác hóa là một phương pháp để quan sát và ghi nhận những khía cạnh của một cá nhân, khách thể, hay
một sự kiện có liên quan để tiến hành kiểm định giả thuyết
Dữ liệu tỉ lệ (Ratio)
Biến định tính (Qualitative variable): những đặc trưng phân biệt dựa trên sự khác biệt về đặc tính, chứ không
phải số lượng hoặc độ lớn.
Biến định lượng (Quantitative variable): các giá trị của biến cho thấy sự khác biệt về độ lớn hay số lượng
giữa chúng
Thang đo
2 loại tương ứng với 2 loại biến định tính và định lượng:
Thang đo biến phạm trù (bao gồm thang đo danh nghĩa và thang đo thứ tự)
Một biến được xác định bởi thang đo danh nghĩa bao gồm hệ thống các chỉ báo khác nhau biểu thị thuộc tính
hay tính chất của biến đó.
Các chỉ báo có tính chất ngang nhau, không theo thứ tự nào.
Là thang đo danh nghĩa nhưng các chỉ báo hay các phương án trả lời được sắp xếp theo trật tự nhất định.
Giữa các chỉ báo này có quan hệ thứ bậc hơn kém, nhưng thường thì mức độ hơn kém giữa chúng không xác
định được (không đo được khoảng cách giữa chúng).
⇒ Thang đo thứ bậc thường dùng cho các đặc điểm thuộc tính và đôi khi cũng áp dụng được cho các đặc
điểm số lượng.
Ví dụ: Thu nhập trung bình hàng tháng/cá nhân: 1. dưới 500k; 2. từ 500k đến dưới 1tr;
3. từ 1tr đến dưới 2tr; 4. từ 2tr đến dưới 3tr → trật tự thấp đến cao
Ví dụ: Học vấn: 1. Mù chữ; 2. Cấp 1; 3. Cấp 2; 4. Cấp 3; 5. Đại học → trật tự dưới lên
trên
Thang đo Likert:
Là một dạng của thang đo thứ tự, nhưng có thể chuyển hóa sang thang đo khoảng cách.
Các mã số của giá trị biểu thị một thứ tự xếp hạng cho biết thứ tự chất lượng hoặc số lượng (cao hơn hay
thấp hơn, tốt hơn hay kém hơn …), nhưng không cho biết thông tin số lượng hoặc chất lượng của chúng.
Ví dụ: Mức sống: 1. nghèo; 2. trung bình; 3. khá giả → nếu gán giá trị vào và tính giá trị
trung bình → so sánh
Có đầy đủ tính chất của một thang đo danh nghĩa và thứ bậc, nhưng khoảng cách giữa các chỉ số được xác
định một cách cụ thể và đều nhau. (phân biệt 2 trạng thái)
Thông thường, biến số với các giá trị là một dãy các chữ số liên tục và đều đặn từ 1 đến 5, 1 đến 7 hay từ 1
đến 10. Như vậy, thang đo là thang đo thứ bậc có khoảng cách đều nhau được xác định rõ ràng. (nhưng nếu
gán cho giá trị → thành thang đo khoảng cách)
Ví dụ: Những người có học vấn cao sẽ có thu nhập cao. Đồng ý không? 1. rất không; 2.
không; 3. không ý kiến; 4. đồng ý; 5, rất đồng ý
Đối với loại thang đo này ta có thể sử dụng một số các phép tính toán học như trung bình, tính độ lệch.
Điểm “không” của thang đo này là tùy ý → các biến số mà các giá trị không có điểm 0 tuyệt đối, giá trị 0 chỉ là
quy ước, giá trị 0 không có ý nghĩa thật sự.
Ví dụ: Trong thang đo nhiệt độ Celsius, 0 độ C không phải là “không có nhiệt độ” mà là
tại nhiệt độ đó, nước từ thể rắn chuyển sang thể lỏng” và có thể xuống thấp hơn 0 độ.
Size quần áo không có giá trị 0 thật sự vì không có size quần nào bằng 0.
Với dữ liệu khoảng cách, có thể thực hiện phép cộng và trừ, tuy nhiên phép nhân và chia không phù hợp (vì
không phù hợp cho việc so sánh) [không thể nói hôm nay lạnh gấp đôi ngày hôm qua]
Ví dụ: Không có ý nghĩa toán học nào tuyên bố rằng 80 độ F nóng gấp đôi 40 độ F
⇒ Thang đo khoảng cách thường dùng cho các đặc điểm số lượng và đôi khi cũng áp dụng cho các đặc
điểm thuộc tính.
Có đầy đủ các đặc tính của thang đo khoảng cách → có thể áp dụng các phép tính cộng trừ và nhiều phép
tính khác.
Ví dụ:
Số năm lớp họp cao nhất: 0(không đi học); 1(lớp 1); 2(lớp 2); 15(Tiến sĩ).
Thu nhập trung bình hộ gia đình/ tháng: 10tr; 20tr; 30tr; …
Sự khác nhau giữa thang đo khoảng cách và tỉ lệ thường bị lẫn lộn giữa 2 điểm sau:
Điểm 0 trong thang đo tỷ lệ là một trị số thật.
Trong khoảng, sự so sánh về mặt tỷ lệ giữa các giá trị thu nhập không có ý nghĩa.
Ví dụ: đối với thu nhập, chắc chắn là có thể kiếm được 0$ 1 năm hoặc có 0$ trong tài
khoản ngân hàng và điều này biểu thị sự vắng mặt của tiền.
Ví dụ: một người có 100$ thì là gấp đôi số tiền người 50$ hoặc người 30 tuổi gấp 3 lần tuổi
người 10 tuổi.
Thực hành
💡 Keywords:
”Vài lần”, không biết chính xác số lần → Thang đo Thứ bậc
Câu hỏi mở, có khoảng trống, không gán được giá trị → Thang đo tỉ lệ
“Nhận định”, riêng lẻ, không có thứ bậc → định tính - danh nghĩa
“Đánh giá mức độ” → định lượng - khoảng cách
Thang đo 10 → Thang đo khoảng cách
Lý do chọn mẫu:
Thông tin thu thập sẽ chính xác hơn, cặn kẽ hơn khi tiến hành nghiên cứu trên một mẫu thay vì toàn bộ dân
số.
Khả năng sai sót trong điều tra chọn mẫu sẽ thấp hơn khi điều tra trên một tổng thể. Hơn nữa, có khả năng
tập trung được một nhóm chuyên gia có trình độ tham gia vào cuộc nghiên cứu.
Sẽ không gặp khó khăn nhiều khi tiến hành nghiên cứu với các nhóm dân cư có tính biến động cao.
Tổng thể thống kê (population): là tập hợp các đơn vị thuộc hiện tượng nghiên cứu, cần quan sát, thu thập
và phân tích theo một số đặc trưng nào đó.
Mẫu đại diện (representative sample): được chọn từ tổng thể mang tất cả đặc trưng của tổng thể. được sử
dụng để suy ra cho tổng thể
Khung mẫu (sampling frame): là danh sách các đơn vị của tổng thể cần nghiên cứu, cần thu thập dữ liệu. có
thể được gọi là khung lấy mẫu. Được sắp xếp theo một trật tự nào đó (a, b, c …) được gán cho thứ tự từ thứ
nhất đến cuối cùng.
Là quy trình lấy mẫu trong đó mỗi đơn vị của tổng thể được chọn ngẫu nhiên theo nguyên tắc cơ bản được
chọn ngang nhau giữa các đơn vị trong tổng thể.
Từ khung mẫu và số thứ tự từng đơn vị → thực hiện lấy mẫu ra bằng nhiều cách: bốc thăm ngẫu nhiên
hay chọn ngẫu nhiên các số.
Là cách chỉ cần chọn ra một con số ngẫu nhiên là có thể xác định được tất cả các đơn vị mẫu cần lấy ra từ
danh sách chọn mẫu (thay vì chọn ra n số ngẫu nhiên ứng với n đơn vị mẫu cần lấy)
Khung mẫu đã được đánh số thứ tự cho các đơn vị trong danh sách, tổng số đơn vị trong danh
sách là N .
Ví dụ: tổng 12 người -> N =12. Muốn chọn 4 người -> n=4 => k =3 -> cứ 3 người thì sẽ
có người được chọn
Lấy mẫu theo đường thẳng (Linear systematic sampling): khi k là số nguyên (N chia chẵn cho n)
N =62; n=10
k = Nn = 6,2 → k =6
Chọn một số ngẫu nhiên từ 1 đến 6:
Nếu số ngẫu nhiên được chọn là 1, các đơn vị được lấy ra sẽ là 1, 7, 13, 19, …, 61
(chọn được 11 đơn vị)
Nếu số ngẫu nhiên được chọn là 6, các đơn vị được lấy ra sẽ là 6, 12, 18, 24, …,
(chọn được 10 đơn vị)
N =66; n=10
→ k =7
Chọn một số ngẫu nhiên từ 1 đến 7:
Nếu số ngẫu nhiên được chọn là 2, các đơn vị sẽ là 2, 9, 16, …
Nếu số ngẫu nhiên được chọn là 7, các đơn vị sẽ là 7, 14, 21, …
Lấy mẫu ngẫu nhiên quay vòng (Circular systematic sampling): khi k là số thập phân (N không chia
chẵn cho n).
Khi tổng thể N không chia chẵn cho n mẫu thì các đơn vị không có cùng 1 xác suất chọn ra như
nhau và khi dùng kết quả trung bình mẫu để ước lượng trung bình tổng thể thì rất có khả năng bị lệch
→ Chọn mẫu hệ thống quay vòng.
Giả sử cần chọn ra n đơn vị từ tổng thể N , trình tự các bước như sau:
Các đơn vị tiếp theo cách đơn vị mẫu đầu tiên một khoảng 1k , 2k , 3k …
Nếu hết danh sách đơn vị của N nhưng chưa đủ n đơn vị mẫu, ta quay lại từ đầu danh sách với
quy ước: N + 1 tương đương với đơn vị thứ nhất, N + 2 tương đương với đơn vị thứ 2 trong
danh sách.
N =13; n=4
k =3
Chọn một số ngẫu nhiên từ 1 đến 13:
Nếu số ngẫu nhiên được chọn là 6 → 6, 9, 12 và ([12+3]-13)=2
Khi đã biết thông tin về tổng thể dân số trước khi chọn mẫu.
Ví dụ: Một trường Đại học có 3/4 nữ và 1/4 nam, như vậy mẫu được chọn cũng sẽ có tỉ
lệ tương tự như thế.
Ví dụ: Một trường Đại học có 10.000 sinh viên vs 2 cấp đào tạo là Cử nhân và Cao học;
2 hệ đào tạo Chính quy và Vừa học vừa làm. (Mỗi cấp và hệ đào tạo được coi là một
tầng). Để khảo sát mức độ hài lòng của sinh viên về chất lượng đào tạo, số đơn vị dự
định lấy khảo sát là 500 sinh viên (5% của tổng thể), nếu ohaan bố mẫu vào từng tầng
theo tỷ lệ thì kết quả như trong bảng sau:
Cấp đào tạo/Hệ đào tạo Số lượng SV %SV Số lượng SV lấy ra từng tầng
Khác với chọn mẫu phân tầng, các “tầng” là các nhóm đồng nhất được chọn ra theo những đặc trưng cá nhân
như giới tính, trình độ học vấn, tôn giáo, …, “cụm” là sự liên kết của các nhóm không đồng nhất.
Do đó, “cụm” thường được chọn theo các yếu tố sau: vị trí địa lý, các tổ chức, đơn vị xã hội, các cụm dân cư
… sau khi có danh sách các cụm, tiến hành chọn ngẫu nhiên để xác định các cụm đại diện, sau đó chọn ngẫu
nhiên các phần tử trong mỗi cụm để lập danh sách mẫu nghiên cứu. → Lấy mẫu nhiều giai đoạn.
Nội thành Thành phố HCM > Quận > Phường > Khu phố/tổ dân phố > Khối nhà
Không đại diện để ước lượng cho toàn bộ tổng thể, nhưng được chấp nhận trong nghiên cứu khám phá và trong
kiểm định giả thuyết.
Được dùng khi muốn có một ước lượng sơ bộ về kết quả bảng câu hỏi (thông tin dữ liệu) quan tâm mà
không muốn mất thời gian và chi phí.
Cần suy nghĩ kỹ về thời gian, địa điểm hay hoàn cảnh mà ta sẽ gặp đối tượng và thu thập dữ liệu ở đó
(không tùy tiện, ngẫu hứng).
Quan niệm về hạnh phúc của sinh viên ĐHQG TP.HCM hiện nay.
Mức độ hài lòng của khách du lịch về môi trường điểm đến tại Thành phố Vũng Tàu
Lấy mẫu định mức (Quota sampling): Tương tự lấy mẫu xác suất phân tầng (Phân chia tổng thể thành các
tầng lớp con-tổng thể con). Điểm khác biệt cơ bản là trong từng tổng thể con, người phỏng vấn được chọn
mẫu tại hiện trường theo cách thuận tiện hay phán đoán, trong khi mẫu phân tầng chọn ra theo xác suất.
Lấy 400 người dân tại thành phố, người nghiên cứu có thể quyết định
💡 n= N
1+N ∗e 2
Trong đó:
Bảng: Cỡ mẫu với sai số cho phép (Dấu * cho thấy là giả định về phần bố bình thường thấp, do đó không thể áp dụng
công thức tính n trong các trường hợp trên)
N ±1 % ±2 % ±3 % ±4 % ±5 % ±10 %
500 * * * * 222 83
Trong trường hợp KHÔNG BIẾT TRƯỚC QUY MÔ CỦA KHỐI DÂN CƯ → rất khó chọn mẫu xác suất.
Trong trường hợp này, người ta thường dùng ước lượng kích cỡ mẫu, sau đó tùy theo mà chọn tỷ lệ(1%, 2%, 5%
hay 10% của tổng thể)
Để đảm bảo cho phép thực hiện các tính toán thống kê thì dung lượng mẫu tối thiểu phải là 30 đơn vị mới đảm
bảo yêu cầu nếu muốn thực hiện các phân tổ để nghiên cứu riêng biệt.
Đương nhiên, nếu không nằm được quy mô dân số sẽ không kiểm soát được mức sai số mẫu.
Mức độ có trong tập tổng quát (Nếu tập tổng quát có nhiều dấu hiệu, dung lượng của mẫu sẽ tăng lên và
ngược lại, mẫu sẽ nhỏ nếu tập hợp tổng quát thuần nhất về mặt dấu hiệu).
Mức độ chính xác cần thiết của kết quả trong mẫu.
Bên cạnh đó, khả năng tài chính và nguồn lực là yếu tố rất quan trọng để xác định cỡ mẫu tối đa mà nhà
nghiên cứu có thể sử dụng được.
Trong thống kê có quan niệm: Kích thước tối thiểu của mẫu không được nhỏ hơn 30 đơn vị nghiên cứu. → Về
nguyên tắc: mẫu càng lớn thì sai số đại diện càng nhỏ.
Thông thường mức sai số 5% là hợp lý → nếu sai số càng nhỏ thì quy mô càng lớn → không thể làm nổi →
tùy vào khả năng người nghiên cứu đến đâu thì người ta sẽ chọn mức sai số phù hợp. Nếu sai số càng lớn thì
cỡ mẫu càng nhỏ → tính đại diện yếu.
Ví dụ:
Dữ liệu thô: Thích loại nước ngọt (1= Pepsi; 2= Coca Cola; 3= Các loại nước ngọt khác)
333333323331333331323313333331
4 người thích Pepsi
2 người thích Coca
24 người thích còn lại
Một trong những lý do chính sử dụng phương pháp thống kê là để tổng hợp
Thô (Raw)
Một số ký hiệu:
Tên biến
Loại nước ngọt thích Số đếm được (Totally) Tần suất (Frequency)
1. Coca 4 4
2. Pepsi 2 2
3. Khác 24 24
Tổng (n) 30 30
💡 pi =
fi
n 💡 ∑ pi = 1
💡 %i = fi
n
∗ 100 💡 ∑ i%= 100
💡 Trong đó:
Tần suất fi
Loại nước ngọt thích Tỉ lệ pi (Proportion) Phần trăm %i (Percent)
(Frenquency)
Tần suất fi
Loại nước ngọt thích Phần trăm %i (Percent) % lũy tiến (Cumulative)
(Frenquency)
1. Coca 4 13,3 13,3
Tổng 30 100,0
Cho thấy tần suất xuất hiện của mỗi giá trị khác nhau trong một tập dữ liệu → cho thấy sự biến động của tập
dữ liệu và dựa vào hình dạng biểu đồ có thể đưa ra kết luận về tình trạng của dữ liệu.
Biểu đồ tròn
Tần số của mỗi nhóm tương ứng với một phần diện tích hình tròn. Người ta dùng tần số phần trăm để biểu diễn
trên biểu đồ tròn.
Giá trị xuất hiện nhiều lần nhất trong một tập dữ liệu
Trung vị (Median)
Giá trị này chia tập quan sát làm hai phần đều nhau, 50% số quan sát của tập dữ liệu có giá trị bé hơn giá trị
trung vị và 50% lớn hơn giá trị trung vị.
Muốn xác định giá trị trung vị của một tập dữ liệu, các quan sát trong tập dữ liệu này trước tiên phải được sắp
xếp theo trật tự (từ nhỏ đến lớn hay ngược lại)
Không tính toán giá trị trung vị cho biến có thang đo danh nghĩa
💡 Công thức:
Median x =
(n+1)
2
(n+1)
Nếu n là số lẻ → giá trị trung vị nằm ở vị trí thứ 2
trong tập dữ liệu
Nếu n là số chẵn → giá trị trung vị là giá trị trung bình cộng của 2 quan sát nằm ở vị trí chính giữa
tập dữ liệu.
(8+1)/2 = 4.5 → giá trị trung vị rơi vào giữa giá trị quan sát thứ 4 và quan sát thứ 5 trong
tập dữ liệu.
sắp xếp.
(68+68)
Giá trị Trung vị = 2
= 68
Đối với thang đo thứ bậc → sử dụng bảng phân phối tần suất lũy tiến để xác định giá trị trung vị.
Giá trị trung vị chính là giá trị có phần trăm lũy tiến lớn hơn và gần kề tỉ lệ 50%
Được tính bằng cách cộng tất cả các giá trị của mỗi quan sát trong tập dữ liệu rồi chia cho tổng số quan sát
💡 Công thức:
X=
∑ xi
n
X : Giá trị trung bình
xi : Giá trị quan sát thứ i
n: tổng số mẫu quan sát
Ví dụ:
(2+5+8)
1. Trung bình của 2, 5 và 8 là 5 vì 3
=5
(1+3+2+8)
2. Trung bình của 1, 3, 2 và 8 là 3.5 vì 4 = 3.5
Tính giá trị trung bình cho biến có thang đo thứ bậc:
💡 Công thức:
X = ∑ fi ×
mi
n
Bảng 5.2: Phân bố tần suất điểm trung bình chung năm học của sinh viên lớp Thống kê Xã hội
ĐTB chung fi mi fm %c
51 - 55 1 53 53 3.3
56 - 60 2 58 116 10.0
61 - 65 8 63 504 36.7
66 - 70 12 68 816 76.7
71 - 75 5 73 365 93.3
76 - 80 2 78 156 100.0
Tổng 30
Nguồn: Khảo sát lớp học Thống kê 04, tháng 11, năm 2007
(53×1)+(58×2)+(63×8)+(68×12)+(73×5)+(78×2)
X= 30
= 67
Cách độ (Range)
Là sự cách biệt hay khoảng cách giữa giá trị quan sát lớn nhất và giá trị quan sát nhỏ nhất.
💡 Công thức:
R = xmax − xmin
Đại lượng cách độ (R) bị ảnh hưởng rất nhiều bởi các giá trị ngoại lệ → đại lượng đo lường độ phân tán
yếu nhất và ít được sử dụng.
Sinh viên Khoảng cách (km) Sinh viên Khoảng cách (km)
1 2 9 11
2 4 10 13
3 4 11 13
4 4 12 14
5 5 13 15
6 7 14 19
7 9 15 20
8 10
Là phép đo mức chênh lệch giữa các số liệu trong một tập dữ liệu trong thống kê. Nó đo khoảng cách giữa
mỗi số liệu với nhau và đến giá trị trung bình của tập dữ liệu.
Để do lường độ biến thiên của một tập dữ liệu là sử dụng giá trị trung bình cộng như là một điểm để so sánh
với từng giá trị quan sát.
Cách đơn giản nhất để tính đại lượng này là lấy giá trị của từng quan sát trừ đi giá trị trung bình cộng
của tất cả các quan sát này, sau đó cộng tất cả kết quả lại thành độ lệch trung bình (mean deviations).
Sinh viên Khoảng cách (km) Sinh viên Khoảng cách (km)
1 2 9 11
2 4 10 13
3 4 11 13
4 4 12 14
5 5 13 15
6 7 14 19
7 9 15 20
8 10
2+4+4+4+5+7+9+10+11+13+13+14+15+19+20
X= 15
= 10
Vấn đề đặt ra đối với phương pháp này là tổng các độ lệch của dữ liệu luôn bằng 0
Trong khi đó, giá trị 0 thì không có ý nghĩa trong việc đo lường độ phân tán
⇒ Để khắc phục vấn đề này, các giá trị lệch giữa giá trị quan sát và giá trị trung bình sẽ được bình phương (làm
cách này, những giá trị âm sẽ không còn nữa) → sau đó cộng tất cả các giá trị bình phương này lại.
Phương sai là giá trị đo lường độ biến thiên (của các quan sát) xung quanh giá trị trung bình. Được tính bằng
các lấy tổng các biến thiên giữa từng quan sát với giá trị trung bình đã được bình phương chia cho tổng số
quan sát.
∑ (x− X )2
S2 = (n−1)
∑ (x− X )2
σ2 = n
2 2
(x − X ) (x − X ) (x − X ) (x − X )
2 − 10 = −8 64 11 − 10 = +1 1
4 − 10 = −6 36 13 − 10 = +3 9
4 − 10 = −6 36 13 − 10 = +3 9
4 − 10 = −6 36 14 − 10 = +4 16
5 − 10 = −5 25 15 − 10 = +5 25
7 − 10 = −3 9 19 − 10 = +9 81
9 − 10 = −1 1 20 − 10 = +10 100
10 − 10 = 0 0 ∑=0 ∑ = 448
n = 15
∑ (x− X )2 ∑ (0−448)2 448
S2 = (n−1)
= (15−1)
= 14
= 32.0
Mặc dù phương sai được xem là một trong những phép tính thống kê để đo lường độ phân tán, tuy nhiên nó
không có ý nghĩa nhiều.
Giá trị này thật sự có ý nghĩa khi nó được chuyển hóa thành một giá trị khác gọi là độ lệch chuẩn (Standard
Deviation)
Là giá trị căn bậc hai của phương sai. Được dùng để đo lường độ phân tán của các quan sát xung quanh giá
trị trung bình.
∑ (x− X )2 ∑ (0−448)2
S2 = (n−1)
= (15−1)
= 448
14
= 32.0
s= S2 = 32 = 5.660
Độ lệch chuẩn tương ứng với các giá trị quan sát trong tập dữ liệu càng lớn thì độ biến thiên của tập dữ liệu
càng lớn.
Giải thích: Ứng với khoảng cách trung bình từ nhà đến trường của các sinh viên là 10km, các giá trị quan
sát có độ lệch chuẩn là 5.66km
💡 Công thức
IQV =
k(N 2 − ∑ f 2 )
N 2 (k−1)
1= 4 lần
2= 2 lần
3= 3 lần
4= 0 lần
∑ f 2 = 42 + 22 + 32 + 02 = 29
Đại lượng IQV nhận các giá trị từ 0 đến 1
1: có sự phân bố đều nhau giữa các giá trị (không tồn tại yếu vị mode)
Khoảng cách-Tỉ lệ (Yếu vị, Trung vị) Trung bình Độ lệch chuẩn (s)
Mục đích chính của hầu hết các nghiên cứu là để kiểm tra có hay không việc những dữ liệu thu thập từ các cuộc
điều tra phù hợp với những dự báo về một vấn đề cụ thể. Những dự báo này chính là các giả thuyết (hypothesis)
về tham số được đo lường trong nghiên cứu
Kiểm định là quy trình dựa trên những thông tin tìm được từ dữ liệu mẫu để đánh giá các kết luận về tổng thể
nghiên cứu hoặc xác định các giả thuyết đưa ra về tổng thể có hợp lý hay không
Các giả thuyết là những nhận định dựa trên sự tin tưởng chưa được kiểm định.
Ví dụ: Uống trà sữa mỗi ngày sẽ gây nên bệnh tiểu đường
Là một mệnh đề nêu lên mối quan hệ nhân quả của vấn đề nghiên cứu
Một giả thyết bao gồm một biến số nguyên nhân và một biến số kết quả
Ví dụ: Sự gắn kết giữa các thành viên trong gia đình là yếu tố ảnh hưởng đến hạnh
phúc gia đình.
Một giả thuyết lớn bao gồm các giả thuyết con
Ví dụ:
Giả thuyết 1: Truyền thông môi trường tác động đến tham gia dịch vụ thu gom rác
Giả thuyết 1.1: Nội dung truyền thông tác động đến tham gia dịch vụ gom rác
Giả thuyết 1.2: Hình thức truyền thông tác động đến tham gia dịch vụ gom rác
Giả thuyết 1.3: Tần suất truyền thông tác động đến tham gia dịch vụ gom rác
Gồm:
Giả thuyết H0 (null hypothesis): là giả thuyết được kiểm định trực tiếp. Giả thuyết này là một phát biểu
“không” về mối liên hệ giữa hai biến. Nói cụ thể, một biến này không có quan hệ với biến kia.
Giả thuyết đổi Ha (alternative hypothesis): là giả thuyết đối của giả thuyết H0 . Giả thuyết này phát biểu
rằng có tồn tại một mối quan hệ giữa 2 biến.
Nhược điểm là khả năng tìm ra được sự sai biệt kém, không mạnh như các phép kiểm có tham số (T student,
phân tích phương sai)
Dựa trên giả định tổng thể nghiên cứu có phân phối chuẩn hoặc sấp xỉ chuẩn (trường hợp dữ liệu phân phối
chuẩn).
Tính chất của phân phối chuẩn: Đồ thị có hình chuông được cân bằng bởi giá trị trung bình (mean) =
trung vị (median) = yếu vị (mode) chia hình chuông thành 2 phần, mỗi bên có diện tích bị giới hạn bởi
đường cong hàm mật độ.
Phân phối chuẩn là quy luật phân phối phổ biến và thông dụng, phù hợp áp dụng cho các mục đích nghiên
cứu trong Kinh tế, Xã hội, do các hiện tượng, các đối tượng nghiên cứu có đặc điểm cá nhân khác nhau.
💡 H0 : μ = m hoặc H0 : μ =
Ha : μ < m
m
💡 H0 : μ = m hoặc H0 : μ
Ha : μ > m
=m
Là biên giới chia đôi 2 vùng chấp nhận và bác bỏ H0 trên phân phối của giá trị kiểm định
Nếu giá trị thống kê kiểm định rơi vào vùng bác bỏ thì chúng ta bác bỏ H0 và ngược lại
Vùng bác bỏ là khu vực chứa các giá trị thống kê kiểm định không có khả năng xảy ra nếu thật sự H0 đúng →
nếu một giá trị thống kê kiểm định rơi vào vùng này thì ta sẽ bác bỏ H0 vì suy luận này đã không thể xảy ra
nếu H0 đúng.
Chỉ cần xác định được α → xác định được vùng bác bỏ và vùng chấp nhận → tức là suy ra được giá trị tới
hạn.
Giả thuyết:
💡 X1 = X2
💡 = X2
X1
Ví dụ: Giả sử rằng chúng ta muốn so sánh và đưa ra kết luận về số lượng trà sữa được
các sinh viên uống trung bình một ngày ở 2 lớp thống kê 1 và 2
Giả thuyết:
H0 : không có sự khác biệt ý nghĩa về trung bình số lượng trà sữa được các
sinh viên lớp Thống kê uống một ngày giữa lớp 1 và 2
💡 = X2
X1
Trong kiểm định này, chúng ta cố gắng tìm xem liệu có hay không sự khác biệt có ý nghĩa thống kê giữa 2 giá
trị trung bình này.
Để kết luận điều này, kết quả kiểm định sẽ dựa trên cơ sở của việc “bác bỏ” hay “chấp nhận” giả thuyết
Nếu giả thuyết H0 bị bác bỏ, tức là chúng ta có bằng chứng thống kê để cho rằng Ha đúng → có sự khác
biệt ý nghĩa giữa 2 giá trị trung bình.
Nếu giả thuyết H0 được chấp nhận, tức là chúng ta chưa có đủ bằng chứng thống kê để cho rằng Ha đúng.
Chú ý: chấp nhận H0 không có nghĩa là chúng ta đã chứng minh được H0 đúng và không vội vàng kết luận
rằng: Không có sự khác biệt giữa hai giá trị trung bình.
Chấp nhận H0 có nghĩa là chúng ta không đủ bằng chứng thống kê để bác bỏ nó mà thôi.
Ví dụ:
Giả sử chúng ta có số vụ tai nạn giao thông xảy ra trung bình mỗi ngày của Tp. HCM là
10 và của Hà Nội là 8. Kết quả chỉ ra rằng số vụ tại nạn giao thông xảy ra trung bình mỗi
ngày của Tp. HCM cao hơn của Hà Nội. Do vậy, chúng ta suy ra rằng Tp. HCM xảy ra tai
nạn giao thông cao hơn Hà Nội.
Nếu giả thuyết H0 được kiểm định ở mức tin cậy là 95%, có nghĩa là có 95% giả thuyết
H0 bị bác bỏ là chính xác. Nói một cách khác, có 5% sai số trong kiểm định này.
Kiểm định t - Test cho mẫu phụ thuộc
Kiểm định được sử dụng khi chúng ta biết các giá trị trung bình của tổng thể (μ), trung bình, độ lệch chuẩn (s
), và dung lượng mẫu.
Kiểm định t dùng để xác định có hay không có sự khác biệt hai trung bình mang ý nghĩa thống kê
💡 Công thức:
−μ
to − T est = s
X×
n
Quy trình:
💡 to − T est =
X −μ
s
n
So sánh giá trị kiểm định to với giá trị tới hạn (tcritical = tc )
Trong kiểm định t − T est, chúng ta sử dụng bảng dò tìm giá trị phân phối t để xác định giá trị tới hạn
tcritical rồi so sánh với giá trị tobtained
Để dò tìm giá trị phân phối t trong bảng, trước tiên ta cần xác định số bậc tự do (degrees of freedom - df )
của mẫu cũng như giá trị α level
💡 Công thức:
df = n − 1
Kết luận:
Ví dụ:
Chúng ta quan tâm đến sự khác biệt về tổng thể chi phí trung bình mỗi tháng dành cho việc
mua sắm dụng cụ học tập của sinh viên lớp thống kê với sinh viên của USSH
Biết rằng:
Chi phí trung bình mỗi tháng dành cho việc mua sắm dụng cụ học tập của sinh viên
trường USSH là 50.000đ (μ = 50.000đ)
Chi phí trung bình mỗi tháng dành cho việc mua sắm dụng cụ học tập của sinh viên lớp
Thống kê là 60.000đ (X = 60.000đ) và độ lệch chuẩn s = 20.000đ)
1. H0 : μ = X
Ha : μ
=X
X −μ 60.000−50.000
10
2. tobtained = s
= 20.000
= 4 = 2.5
n 25
3. ⇒
df = n − 1 = 25 − 1 = 24 tra bảng phân phối Student
→ tcritical = t(a/2,df) = t(0.01/2,24) = 2.797
💡 t − T est = 2
X1 −X2
S pooled
1
×( n + n )
1
1
2
Ví dụ:
Một nghiên cứu quan tâm sự khác biệt về mức độ tham gia các sự kiện xã hội được tổ
chức hàng tháng giữa nhóm sinh viên có tham gia sinh hoạt Đoàn và nhóm sinh viên
không tham gia sinh hoạt Đoàn trong một nhóm Trường Đại học, kết quả khảo sát như
sau:
Độ lệch chuẩn s1 = 3 s2 = 3
Dung lượng mẫu chọn n1 = 33 n2 = 29
Độ sai lệch α = 0.01 α = 0.01
Kiểm định sự độc lập cho mối quan hệ hai biến định tính (Chi-square test)
Được sử dụng để xem xét có hay không tồn tại mối quan hệ giữa hai biến định tính.
Yêu cầu:
Nam 38 15 53
Nữ 7 40 47
Tổng 45 55 100
Dữ liệu trên bảng được trình bày dưới dạng bảng tương quan 2x2
Bảng 2x2 biểu thị một biến gồm 2 nhóm (nam, nữ) trong mối quan hệ với một biến khác cũng bao gồm 2
phương án trả lời (thích, không thích)
Cần xác định rõ mối quan hệ giữa hai biến: độc lập - phụ thuộc
(tổngdoˋng)×(tổngcột)
fe = ~
tổngma^u
(fo −fe )2
χ2obtained = ∑ fe
Trong đó:
fo : tần suất quan sát (observed frequency) là giá trị quan sát thực tế
4. Tính giá trị χ2critical thông qua bậc tự do
df = (sˊo^doˋng − 1) × (sˊo^cột − 1)
⇒ Tra bảng phân phối Chi-Square để tìm giá trị tới hạn tương ứng với từng mức độ tin cậy cụ thể
5. So sánh χ2obtained với χ2critical
Bác bỏ H0 (p ≤ 0.01 hoặc p ≤ 0.05): tồn tại mối quan hệ có ý nghĩa thống kê giữa hai biến → Nói cách
khác, biến nghiên cứu này có quan hệ với biến nghiên cứu kia
Chấp nhận H0 (p > 0.01 hoặc p > 0.05): chúng ta chưa có đủ bằng chứng thống kê để bác bỏ H0 →
Nói cách khác, chưa có đủ bằng chứng để kết luận hai nghiên cứu có quan hệ với nhau.