Professional Documents
Culture Documents
BÀI 4 - THỐNG KÊ MÔ TẢ
BÀI 4 - THỐNG KÊ MÔ TẢ
THỐNG KÊ MÔ TẢ
(Descriptive statistics)
❑ Thống kê mô tả là phương pháp liên quan đến việc tổ chức, tổng hợp và trình
bày số liệu thu thập được từ mẫu nghiên cứu hoặc tổng thể.
Dữ liệu thô: Thích loại nước ngọt
3 3 3 3 3 3 3 2 3 3 3 1 3 3 3 3 3 1 3 2 3 3 1 3 3 3 3 3 3 1
❑ Một trong những lý do chính sử dụng phương pháp thống kê là để tổng hợp và
mô tả dữ liệu, làm cho thông tin được trình bày rõ ràng hơn.
❖ Nội dung bài 4 - Thống kê mô tả
- Mô tả dưới dạng bảng
- Mô tả dưới dạng biểu đồ
- Mô tả độ tập trung biến
- Mô tả độ phân tán biến
I. Thống kê mô tả dưới dạng bảng
❑ Bảng phân phối tần suất: trình bày số lần xuất hiện của một hay nhiều giá
trị được quan sát trong mẫu hoặc tổng thể.
❑ Các kiểu bảng phân phối tần suất
✓ Thô (raw)
✓ Liên hệ (relative): tỉ lệ (proportion) và phần trăm (percent)
✓ Lũy tiến (cumulative)
❖ Phân phối tần suất
❑ Một số ký hiệu sử dụng trong tính toán phân phối tần suất
n = tổng số mẫu quan sát
X = biến
i = giá trị (thành phần) của biến X
fi = tần suất quan sát của giá trị i
Bảng 1. Loại nước ngọt ưa thích của sinh viên lớp TKXH
Loại nước ngọt thích Số đếm được Tần suất
(Tally) (Frequency)
1. Coca – Cola 4 4
2. Pepsi 2 2
3. Khác 24 24
Tổng (n) 30 30
Nguồn: Khảo sát lớp học TKXH, tháng 11, 2007
2. Bảng phân phối tần suất liên hệ
Bảng 2. Loại nước ngọt ưa thích của sinh viên lớp TKXH
Loại nước ngọt thích Tần suất - fi Tỉ lệ - pi Phần trăm - %i
(frequency) (proportion) (percent)
- Tần suất phần trăm i = giá trị (thành phần của biến)
fi = tần suất quan sát của giá trị i
0Τ ⅈ 𝑓𝑖
0 = X 100 ∑% ⅈ = 100
𝑛
3. Bảng phân phối tần suất lũy tiến
Bảng 3. Loại nước ngọt ưa thích của sinh viên lớp TKXH
Loại nước ngọt thích Tần suất Phần trăm % lũy tiến
(frequency) (percent) (cumulative)
1. Coca – Cola 4 13,3 13,3
2. Pepsi 2 6,7 20,0
3. Khác 24 80,0 100,0
Tổng 30 100,0
Có sức khỏe Có thời gian Có niềm tin Đời sống tinh Làm được việc
tốt nghỉ ngơi, giải vào con người, thần, tâm linh có ý nghĩa
trí xã hội yên ổn
Nguồn: Dữ liệu khảo sát chủ đề “Gia đình Việt Nam đương đại” của thực tập tốt nghiệp khóa
K23, khoa Xã hội học, trường KHXH&NV TPHCM tại thành phố Quy Nhơn tháng 10/2020
❖ BIỂU ĐỒ PP TẦN SUẤT (Histogram)
Biểu đồ: So sánh về mức độ quan trọng chia theo các chiều kích
Quan niệm hạnh phúc gia đình của người dân Quy Nhơn (%)
90
82 80,5 80
80
70
60
50
40
30
18 19,5 20
20
10
0
Đời sống kinh tế - vật chất Các mối quan hệ gia đình – xã hội Đời sống các nhân
Không quan trọng Quan trọng
Nguồn: Dữ liệu khảo sát chủ đề “Gia đình Việt Nam đương đại” của thực tập tốt nghiệp khóa
K23, khoa Xã hội học, trường KHXH&NV TPHCM tại thành phố Quy Nhơn tháng 10/2020
❖ BIỂU ĐỒ TRÒN
❑ Biểu đồ tròn: Biểu đồ mà trong đó, tần số của mỗi nhóm tương ứng với
một phần diện tích hình tròn. Người ta dùng tần số phần trăm để biểu
diễn trên biểu đồ tròn
Biểu đồ: Tâm trạng khi học TKXH
23% 7%
23%
47%
1. Yếu vị (Mode)
2. Trung vị (Median)
3. Trung bình cộng (Mean)
III. Mô tả độ tập trung biến
(central tendency)
1. Yếu vị (Mode)
Yếu vị (Mode): giá trị xuất hiện nhiều lần nhất trong tập một dữ liệu
• Mode có thể được sử dụng cho tất cả các loại thang đo
Ví dụ 1:
2 3 3 3 2 2 2 3 3 2 3 3 2 2 3
2 3 3 2 3 3 4 4 2 3 4 3 2 2 3
→ Mode = 3
Câu hỏi: Tìm yếu vị (Mode) của các tập dữ liệu sau:
A. Dữ liệu 1: 1, 2, 2, 3, 4, 5
B. Dữ liệu 2: 1, 2, 3, 4, 5
C. Dữ liệu 3: 1, 2, 3, 3, 4, 5, 5
Đáp án:
A=2 B = không có C = 3 và 5
➢ Mode là giá trị xuất hiện nhiều nhất trong bộ số liệu. Trong trường hợp không
có giá trị nào được lặp lại thì không có mode. Ngoài ra một bộ số liệu cũng có
thể có nhiều mode
III. Mô tả độ tập trung biến
(central tendency)
2. Trung vị (Median)
✓ Trung vị (Median) là giá trị đứng giữa trong tập một dữ liệu.
✓ Giá trị này chia tập quan sát làm hai phần đều nhau, 50% số quan sát của tập dữ
liệu có giá trị bé hơn giá trị trung vị và 50% lớn hơn giá trị trung vị.
Chú ý:
▪ Muốn xác định giá trị trung vị của một tập dữ liệu, các quan sát trong tập dữ
liệu này trước tiên phải được sắp xếp theo trật tự (từ nhỏ đến lớn hay ngược lại)
▪ Không tính toán giá trị trung vị cho biến có thang đo danh nghĩa.
2. Trung vị (Median)
❑ Công thức xác định vị trí của trung vị:
Median x : (n+1)/2
✓ Trường hợp n là số lẻ: giá trị trung vị là giá trị nằm ở vị trí thứ (n+1)/2 trong
tập dữ liệu.
✓ Trường hợp n là số chẵn: giá trị trung vị là giá trị trung bình cộng của 02
quan sát nằm ở vị trí chính giữa tập dữ liệu.
Ví dụ:
(8+1)/2 = 4,5 → giá trị trung vị rơi vào giữa giá trị quan sát thứ 4 và quan sát
thứ 5 trong tập dữ liệu.
2. Trung vị (Median)
Ví dụ:
63 68 70 78 70 67 57 60 69 74 59 65 55 70 72 69 70 65
65 74 69 65 63 59 75 68 68 65 65 72
❑ Tính giá trị trung bình cho biến có thang đo thứ bậc
Công thức:
= ∑fi * mi/n
Bảng 5.2: Phân bổ tần suất điểm trung bình chung năm học của SV lớp TKXH
Điểm TB chung fi mi fm %c
51 – 55 1 53 53 3,3
56 – 60 2 58 116 10,0
61 – 65 8 63 504 36,7
66 – 70 12 68 816 76,7
71 – 75 5 73 365 93,3
76 – 80 2 78 156 100,0
Tổng 30
Nguồn: Khảo sát lớp học TK04, tháng 11, 2007
= [(53* 1)+ (58*2)+(63*8)+(68*12)+(73*5)+(78*2)]/30 = 67
c10.2 Möùc ñoä nghe radio
Cumulative
Frequency Percent Valid Percent Percent
Valid 1 Haøn g ngaøy 161 23.4 23.5 23.5
2 Tuaàn vaøi laàn 93 13.5 13.6 37.0
3 Thaùng vaøi laàn 66 9.6 9.6 46.6
4 Raát hieám hoi ( naêm vaøi laàn ) 49 7.1 7.1 53.8
5 Khoâng bao giôø thöôûng thöùc 317 46.1 46.2 100.0
Total 686 99.7 100.0
Missing System 2 .3
Total 688 100.0
3. Cách độ (R-Range)
- Cách độ là một trong những cách dễ nhất để mô tả mức độ biến thiên.
- Cách độ là sự cách biệt hay khoảng cách giữa giá trị quan sát lớn nhất và giá
trị quan sát nhỏ nhất.
❖ Công thức:
R = xmax – xmin
Đại lượng cách độ (R) bị ảnh hưởng rất nhiều bởi các giá trị ngoại lệ
→ đại lượng đo lường độ phân tán yếu nhất và ít được sử dụng.
Bảng 4. Khoảng cách đi từ nhà đến trường của sinh viên
R = 20 – 2 = 18 km
Mô tả độ phân tán biến
(dispersed tendency)
4. Phương sai (Variance) → σ2
Phương sai là phép đo mức chênh lệch giữa các số liệu trong một tập dữ liệu trong
thống kê. Nó đo khoảng cách giữa mỗi số liệu với nhau và đến giá trị trung bình
của tập dữ liệu.
❑ Để đo lường độ biến thiên của một tập dữ liệu là sử dụng giá trị trung bình cộng
như là một điểm để so sánh với từng giá trị quan sát.
❑ Cách đơn giản nhất để tính đại lượng này là lấy giá trị của từng quan sát trừ đi
giá trị trung bình cộng của tất cả các quan sát này, sau đó cộng tất cả các kết quả
lại thành độ lệch trung bình (mean deviations)
= 10
4. Phương sai (Variance)
= 10
∑(x - ) = (2-10) + (4-10) + (4-10) + (4-10) + (5-10) + (7-10) + (9-10) +
(10-10) + (11-10) + (13-10) + (13-10) + (14-10) +(15-10) +
(19-10) + (20-10)
=0
✓ Vấn đề đặt ra đối với phương pháp này là tổng các độ lệch của dữ liệu luôn
bằng 0.
✓ Trong khi đó, giá trị 0 thì không có ý nghĩa trong việc đo lường độ phân tán.
➢ Để khắc phục vấn đề này, các giá trị lệch giữa giá trị quan sát và giá
trị trung bình sẽ được bình phương (làm cách này, những giá trị âm sẽ
không còn nữa)→ sau đó cộng tất cả các giá trị bình phương này lại.
4. Phương sai (Variance)
❑ Phương sai là giá trị đo lường độ biến thiên (của các quan sát) xung quanh giá
trị trung bình.
→Phương sai là phép đo mức chênh lệch giữa các số liệu trong một tập dữ liệu trong thống
kê. Nó đo khoảng cách giữa mỗi số liệu với nhau và đến giá trị trung bình của tập dữ liệu.
❑ Phương sai được tính bằng cách lấy tổng các biến thiên giữa từng quan sát với
giá trị trung bình đã được bình phương chia cho tổng số quan sát
Công thức:
Phương sai tổng thể (population variance)
2 = ∑(x - )2 / n
(x - ) (x - )2 (x - ) (x - )2
2-10 =-8 64 11-10 =+1 1
4-10 =-6 36 13-10 =+3 9
4-10 =-6 36 13-10 =+3 9
4-10 =-6 36 14-10 =+4 16
5-10 =-5 25 15-10 =+5 25
7-10 =-3 9 19-10 =+9 81
9-10 =-1 1 20-10 =+10 100
10-10 =0 0
∑=0 ∑ = 448
n=15
S2= 448 /14 = 32,0
4. Phương sai (Variance)
➢ Mặc dù phương sai được xem như là một trong những phép tính thống kê
để đo lường độ phân tán, tuy nhiên nó không có ý nghĩa nhiều.
➢ Giá trị này chỉ thực sự có ý nghĩa khi nó được chuyển hóa thành một giá
trị khác gọi là độ lệch chuẩn (Standard Deviation)
VI. Mô tả độ phân tán biến
(dispersed tendency)
5. Độ lệch chuẩn (Standard Deviation) – s
❑ Độ lệch chuẩn chính là giá trị căn bậc hai của phương sai. SD được dùng để
đo lường độ phân tán của các quan sát xung quanh giá trị trung bình.
s = √ S2 = √32 = 5,660
❑ Độ lệch chuẩn tương ứng với các giá trị quan sát trong tập dữ liệu càng lớn thì
độ biến thiên của tập dữ liệu càng lớn.
Giải thích SD:
Ứng với khoảng cách trung bình từ nhà đến trường của các sinh
viên là 10 km, các giá trị quan sát có độ lệch chuẩn là 5,66 km.
VI. Mô tả độ phân tán biến
(dispersed tendency)
6. IQV (Index of Qualitative Variation)
➢ Sử dụng để đo lường độ phân tán của dữ liệu định tính
Khoảng cách – Yếu vị, trung vị, Trung bình Độ lệch chuẩn (s)
Tỉ lệ
42