BÀI 4

BÀI 4
THỐNG KÊ MÔ TẢ
(Descriptive statistics)
❑ Thống kê mô tả là phương pháp liên quan đến việc tổ chức, tổng hợp và trình
bày số liệu thu thập được từ mẫu nghiên cứu hoặc tổng thể.
Dữ liệu thô: Thích loại nước ngọt
3 3 3 3 3 3 3 2 3 3 3 1 3 3 3 3 3 1 3 2 3 3 1 3 3 3 3 3 3 1
❑ Một trong những lý do chính sử dụng phương pháp thống kê là để tổng hợp và
mô tả dữ liệu, làm cho thông tin được trình bày rõ ràng hơn.
❖ Nội dung bài 4 - Thống kê mô tả
- Mô tả dưới dạng bảng
- Mô tả dưới dạng biểu đồ
- Mô tả độ tập trung biến
- Mô tả độ phân tán biến
I. Thống kê mô tả dưới dạng bảng
❑ Bảng phân phối tần suất: trình bày số lần xuất hiện của một hay nhiều giá
trị được quan sát trong mẫu hoặc tổng thể.
❑ Các kiểu bảng phân phối tần suất
✓ Thô (raw)
✓ Liên hệ (relative): tỉ lệ (proportion) và phần trăm (percent)
✓ Lũy tiến (cumulative)
❖ Phân phối tần suất
❑ Một số ký hiệu sử dụng trong tính toán phân phối tần suất
n = tổng số mẫu quan sát
X = biến
i = giá trị (thành phần) của biến X
fi = tần suất quan sát của giá trị i
❑ Các thành phần (giá trị) của biến phải:

✓ Loại trừ lẫn nhau
✓ Bao phủ hết các trả lời
❖ Phân phối tần suất (tt)
❑ Bảng phân phối tần suất nên bao gồm:

✓ Tiêu đề mô tả nội dung của bảng
✓ Tên biến
✓ Nhãn giá trị cho các thành phần biến
✓ Tổng các quan sát của mẫu
✓ Khai báo nguồn dữ liệu
1. Bảng phân phối tần suất thô
Bảng 1. Loại nước ngọt ưa thích của sinh viên lớp TKXH
Loại nước ngọt thích Số đếm được Tần suất
(Tally) (Frequency)
1. Coca – Cola 4 4
2. Pepsi 2 2
3. Khác 24 24
Tổng (n) 30 30
Nguồn: Khảo sát lớp học TKXH, tháng 11, 2007
2. Bảng phân phối tần suất liên hệ
Loại nước ngọt thích Tần suất - fi Tỉ lệ - pi Phần trăm - %i
(frequency) (proportion) (percent)
1. Coca – Cola 4 0,133 13,3

2. Pepsi 2 0,067 6,7
3. Khác 24 0,80 80,0
Tổng 30 1,0 100,0
2. Bảng phân phối tần suất liên hệ (tt)
❑ Công thức:
- Tần suất tỉ lệ
𝑓𝑖
𝑝𝑖 = ∑𝑝𝑖 = 1
𝑛
n = tổng số mẫu quan sát
- Tần suất phần trăm i = giá trị (thành phần của biến)
fi = tần suất quan sát của giá trị i
0Τ ⅈ 𝑓𝑖
0 = X 100 ∑% ⅈ = 100
𝑛
3. Bảng phân phối tần suất lũy tiến
Loại nước ngọt thích Tần suất Phần trăm % lũy tiến
(frequency) (percent) (cumulative)
1. Coca – Cola 4 13,3 13,3
2. Pepsi 2 6,7 20,0
3. Khác 24 80,0 100,0
Tổng 30 100,0

4. Bảng phân phối tần suất cho biến có thang đo thứ bậc
hocluc4 Hoc luc

Tan suat Phan tram % luy tien
Valid 1 Trung binh 9 30.0 30.0
2 Trung binh kha 11 36.7 66.7
3 Kha 9 30.0 96.7
4 Gioi 1 3.3 100.0
Total 30 100.0
Bảng: Học lực của sv lớp TKXH
Học lực Tần suất Phần trăm (%) % Luỹ tuyến

1. Trung bình 9 30,0 30,0
2. Trung bình khá 11 36,7 66,7
3. Khá 9 30,0 96,7
4.Giỏi 1 3,3 100,0
Tổng 30 100,0
Nguồn: khảo sát sv lớp TKXH, 12/2021

5. Bảng phân phối tần suất cho biến có thang đo khoảng cách – tỉ lệ
Bảng 5.1: Danh sách sinh viên lớp TK04 với điểm trung bình chung năm học
SV Điểm TB SV Điểm TB SV Điểm TB
1 68 11 68 21 64
2 71 12 68 22 69
3 80 13 75 23 60
4 69 14 65 24 72
5 77 15 63 25 72
6 55 16 62 26 70
7 57 17 66 27 70
8 64 18 68 28 69
9 63 19 62 29 70
10 65 20 66 30 73
Nguồn: Khảo sát lớp học TK04, tháng 11, 2007
Bảng 5.2: Phân bổ tần suất điểm trung bình chung năm học của
SV lớp TK04
Điểm TB chung Tần suất Phần trăm
(số sinh viên)
50 – 55 1 3,3
56 – 60 2 6,7
61 – 65 8 26,7
66 – 70 12 40,0
71 – 75 5 16,6
76 – 80 2 6,7
Tổng 30 100,0
II. Thống kê mô tả dưới dạng biểu đồ
❖ BIỂU ĐỒ PP TẦN SUẤT (Histogram)
Biểu đồ pp tần suất (còn được gọi là biểu đồ phân bố mật độ, biểu đồ cột): Dạng biểu đồ
cột cho thấy tần suất xuất hiện của mỗi giá trị khác nhau trong một tập dữ liệu. → Cho
thấy sự biến động của tập dữ liệu và dựa vào hình dạng biểu đồ có thể đưa ra kết luận về
tình trạng của dữ liệu
Biểu đồ: Quan niệm hạnh phúc gia đình của người dân Quy
Nhơn thuộc lĩnh vực đời sống cá nhân
Có sức khỏe Có thời gian Có niềm tin Đời sống tinh Làm được việc
tốt nghỉ ngơi, giải vào con người, thần, tâm linh có ý nghĩa
trí xã hội yên ổn
Nguồn: Dữ liệu khảo sát chủ đề “Gia đình Việt Nam đương đại” của thực tập tốt nghiệp khóa
K23, khoa Xã hội học, trường KHXH&NV TPHCM tại thành phố Quy Nhơn tháng 10/2020
❖ BIỂU ĐỒ PP TẦN SUẤT (Histogram)
Biểu đồ: So sánh về mức độ quan trọng chia theo các chiều kích
Quan niệm hạnh phúc gia đình của người dân Quy Nhơn (%)
90
82 80,5 80
80
70
60
50
40
30
18 19,5 20
20
10
0
Đời sống kinh tế - vật chất Các mối quan hệ gia đình – xã hội Đời sống các nhân
Không quan trọng Quan trọng
Nguồn: Dữ liệu khảo sát chủ đề “Gia đình Việt Nam đương đại” của thực tập tốt nghiệp khóa
K23, khoa Xã hội học, trường KHXH&NV TPHCM tại thành phố Quy Nhơn tháng 10/2020
❖ BIỂU ĐỒ TRÒN
❑ Biểu đồ tròn: Biểu đồ mà trong đó, tần số của mỗi nhóm tương ứng với
một phần diện tích hình tròn. Người ta dùng tần số phần trăm để biểu
diễn trên biểu đồ tròn
Biểu đồ: Tâm trạng khi học TKXH
23% 7%
23%
47%
Mệt Buồn Thích thú Vui

III. Mô tả độ tập trung biến
(central tendency)
1. Yếu vị (Mode)
2. Trung vị (Median)
3. Trung bình cộng (Mean)
(central tendency)
1. Yếu vị (Mode)
Yếu vị (Mode): giá trị xuất hiện nhiều lần nhất trong tập một dữ liệu
• Mode có thể được sử dụng cho tất cả các loại thang đo
Ví dụ 1:
2 3 3 3 2 2 2 3 3 2 3 3 2 2 3
2 3 3 2 3 3 4 4 2 3 4 3 2 2 3
→ Mode = 3
Câu hỏi: Tìm yếu vị (Mode) của các tập dữ liệu sau:
A. Dữ liệu 1: 1, 2, 2, 3, 4, 5
B. Dữ liệu 2: 1, 2, 3, 4, 5
C. Dữ liệu 3: 1, 2, 3, 3, 4, 5, 5
Đáp án:
A=2 B = không có C = 3 và 5
➢ Mode là giá trị xuất hiện nhiều nhất trong bộ số liệu. Trong trường hợp không
có giá trị nào được lặp lại thì không có mode. Ngoài ra một bộ số liệu cũng có
thể có nhiều mode
(central tendency)
✓ Trung vị (Median) là giá trị đứng giữa trong tập một dữ liệu.
✓ Giá trị này chia tập quan sát làm hai phần đều nhau, 50% số quan sát của tập dữ
liệu có giá trị bé hơn giá trị trung vị và 50% lớn hơn giá trị trung vị.
Chú ý:
▪ Muốn xác định giá trị trung vị của một tập dữ liệu, các quan sát trong tập dữ
liệu này trước tiên phải được sắp xếp theo trật tự (từ nhỏ đến lớn hay ngược lại)
▪ Không tính toán giá trị trung vị cho biến có thang đo danh nghĩa.
❑ Công thức xác định vị trí của trung vị:
Median x : (n+1)/2
✓ Trường hợp n là số lẻ: giá trị trung vị là giá trị nằm ở vị trí thứ (n+1)/2 trong
tập dữ liệu.
✓ Trường hợp n là số chẵn: giá trị trung vị là giá trị trung bình cộng của 02
quan sát nằm ở vị trí chính giữa tập dữ liệu.
Ví dụ:
(8+1)/2 = 4,5 → giá trị trung vị rơi vào giữa giá trị quan sát thứ 4 và quan sát
thứ 5 trong tập dữ liệu.
Ví dụ:
63 68 70 78 70 67 57 60 69 74 59 65 55 70 72 69 70 65
65 74 69 65 63 59 75 68 68 65 65 72
✓ Bước 1: Sắp xếp thứ tự tập dữ liệu

55 57 59 59 60 63 63 65 65 65 65 65 65 67 68 68 68
69 69 69 70 70 70 70 72 72 74 74 75 78
✓ Bước 2: Xác định vị trí trung vị

Median x: (30+1)/2 = 15,5
→ Giá trị trung vị nằm ở vị trí thứ 15 (68) và thứ 16 (68) trong tập dữ liệu đã
được sắp xếp
Giá trị trung vị = (68+68)/2 = 68
✓ Đối với biến có thang đo thứ bậc: sử dụng bảng phân phối tần suất lũy tiến để
xác định giá trị trung vị.
✓ Giá trị trung vị chính là giá trị có phần trăm lũy tiến lớn hơn và gần kề tỉ lệ 50%
hocTKXH Taâm traïng khi hoïc Thoáng keâ xaõ hoäi

Cumulative
Frequency Percent Valid Percent Percent
Valid 1 Raát lo laén g 2 6.7 6.7 6.7
2 Lo laéng vöøa phaûi 7 23.3 23.3 30.0
3 Bình thöôøng 14 46.7 46.7 76.7
4 Thích 7 23.3 23.3 100.0
Total 30 100.0 100.0

→ Median x = Bình thường (3)
(central tendency)
3. Trung bình cộng (Mean):
❑ Trung bình cộng (Mean): được tính bằng cách cộng tất cả các giá trị của mỗi
quan sát trong tập dữ liệu rồi chia cho tổng số quan sát.
❑ Công thức: Ký hiệu:
: giá trị trung bình
= ∑xi/n xi : giá trị quan sát thứ i
n : tổng số mẫu quan sát
❑ Ví dụ: - Trung bình của 2, 5 và 8 là 5 vì (2+5+8)/3=5

- Trung bình của 1, 3, 2 và 8 là 3,5 vì (1+3+2+8)/4=3,5
3. Trung bình cộng (Mean):
❑ Tính giá trị trung bình cho biến có thang đo thứ bậc
Công thức:
= ∑fi * mi/n
Bảng 5.2: Phân bổ tần suất điểm trung bình chung năm học của SV lớp TKXH
Điểm TB chung fi mi fm %c
51 – 55 1 53 53 3,3
56 – 60 2 58 116 10,0
61 – 65 8 63 504 36,7
66 – 70 12 68 816 76,7
71 – 75 5 73 365 93,3
76 – 80 2 78 156 100,0
Tổng 30
= [(53* 1)+ (58*2)+(63*8)+(68*12)+(73*5)+(78*2)]/30 = 67
c10.2 Möùc ñoä nghe radio
Cumulative
Frequency Percent Valid Percent Percent
Valid 1 Haøn g ngaøy 161 23.4 23.5 23.5
2 Tuaàn vaøi laàn 93 13.5 13.6 37.0
3 Thaùng vaøi laàn 66 9.6 9.6 46.6
4 Raát hieám hoi ( naêm vaøi laàn ) 49 7.1 7.1 53.8
5 Khoâng bao giôø thöôûng thöùc 317 46.1 46.2 100.0
Total 686 99.7 100.0
Missing System 2 .3
Total 688 100.0
Nguồn: Số liệu điều tra của Khoa XHH

= [(161* 1)+ (93*2)+(66*3)+(49*4)+(317*5)]/686
= (161 + 186 + 198 + 196 + 1585)/686 = 3,40 → 3
VI. Mô tả độ phân tán biến
(dispersed tendency)
1. Giá trị lớn nhất (Max)

2. Giá trị nhỏ nhất (Min)
3. Cách độ (R-Range)
4. Phương sai (Variance)
5. Độ lệch chuẩn (Standard Deviation) – s
6. IQV (Index of Qualitative Variation)
1. Giá trị lớn nhất (Max)
Giá trị lớn nhất là giá trị có điểm số cao nhất trong tập dữ liệu
2. Giá trị nhỏ nhất (Min)
Giá trị nhỏ nhất là giá trị có điểm số thấp nhất trong tập dữ liệu
3. Cách độ (R-Range)
- Cách độ là một trong những cách dễ nhất để mô tả mức độ biến thiên.
- Cách độ là sự cách biệt hay khoảng cách giữa giá trị quan sát lớn nhất và giá
trị quan sát nhỏ nhất.
❖ Công thức:
R = xmax – xmin
Đại lượng cách độ (R) bị ảnh hưởng rất nhiều bởi các giá trị ngoại lệ
→ đại lượng đo lường độ phân tán yếu nhất và ít được sử dụng.
Bảng 4. Khoảng cách đi từ nhà đến trường của sinh viên
Sinh viên Khoảng cách Sinh viên Khoảng cách

(km) (km)
1 2 9 11
2 4 10 13
3 4 11 13
4 4 12 14
5 5 13 15
6 7 14 19
7 9 15 20
8 10
R = 20 – 2 = 18 km
Mô tả độ phân tán biến
4. Phương sai (Variance) → σ2
Phương sai là phép đo mức chênh lệch giữa các số liệu trong một tập dữ liệu trong
thống kê. Nó đo khoảng cách giữa mỗi số liệu với nhau và đến giá trị trung bình
của tập dữ liệu.
❑ Để đo lường độ biến thiên của một tập dữ liệu là sử dụng giá trị trung bình cộng
như là một điểm để so sánh với từng giá trị quan sát.
❑ Cách đơn giản nhất để tính đại lượng này là lấy giá trị của từng quan sát trừ đi
giá trị trung bình cộng của tất cả các quan sát này, sau đó cộng tất cả các kết quả
lại thành độ lệch trung bình (mean deviations)
∑(x - ) = mean deviations

Bảng 4. Khoảng cách đi từ nhà đến trường của sinh viên
Sinh viên Khoảng cách Sinh viên Khoảng cách

(km) (km)
1 2 9 11
2 4 10 13
3 4 11 13
4 4 12 14
5 5 13 15
6 7 14 19
7 9 15 20
8 10
= 10
= 10
∑(x - ) = (2-10) + (4-10) + (4-10) + (4-10) + (5-10) + (7-10) + (9-10) +
(10-10) + (11-10) + (13-10) + (13-10) + (14-10) +(15-10) +
(19-10) + (20-10)
=0
✓ Vấn đề đặt ra đối với phương pháp này là tổng các độ lệch của dữ liệu luôn
bằng 0.
✓ Trong khi đó, giá trị 0 thì không có ý nghĩa trong việc đo lường độ phân tán.
➢ Để khắc phục vấn đề này, các giá trị lệch giữa giá trị quan sát và giá
trị trung bình sẽ được bình phương (làm cách này, những giá trị âm sẽ
không còn nữa)→ sau đó cộng tất cả các giá trị bình phương này lại.
❑ Phương sai là giá trị đo lường độ biến thiên (của các quan sát) xung quanh giá
trị trung bình.
→Phương sai là phép đo mức chênh lệch giữa các số liệu trong một tập dữ liệu trong thống
kê. Nó đo khoảng cách giữa mỗi số liệu với nhau và đến giá trị trung bình của tập dữ liệu.
❑ Phương sai được tính bằng cách lấy tổng các biến thiên giữa từng quan sát với
giá trị trung bình đã được bình phương chia cho tổng số quan sát
Công thức:
Phương sai tổng thể (population variance)
 2 = ∑(x - )2 / n
Phương sai mẫu (sample variance)

S2 = ∑(x - )2 / (n-1)
(x - ) (x - )2 (x - ) (x - )2
2-10 =-8 64 11-10 =+1 1
4-10 =-6 36 13-10 =+3 9
4-10 =-6 36 13-10 =+3 9
4-10 =-6 36 14-10 =+4 16
5-10 =-5 25 15-10 =+5 25
7-10 =-3 9 19-10 =+9 81
9-10 =-1 1 20-10 =+10 100
10-10 =0 0
∑=0 ∑ = 448
n=15
S2= 448 /14 = 32,0
➢ Mặc dù phương sai được xem như là một trong những phép tính thống kê
để đo lường độ phân tán, tuy nhiên nó không có ý nghĩa nhiều.
➢ Giá trị này chỉ thực sự có ý nghĩa khi nó được chuyển hóa thành một giá
trị khác gọi là độ lệch chuẩn (Standard Deviation)
5. Độ lệch chuẩn (Standard Deviation) – s
❑ Độ lệch chuẩn chính là giá trị căn bậc hai của phương sai. SD được dùng để
đo lường độ phân tán của các quan sát xung quanh giá trị trung bình.
s = √ S2 = √32 = 5,660
❑ Độ lệch chuẩn tương ứng với các giá trị quan sát trong tập dữ liệu càng lớn thì
độ biến thiên của tập dữ liệu càng lớn.
Giải thích SD:
 Ứng với khoảng cách trung bình từ nhà đến trường của các sinh
viên là 10 km, các giá trị quan sát có độ lệch chuẩn là 5,66 km.
6. IQV (Index of Qualitative Variation)
➢ Sử dụng để đo lường độ phân tán của dữ liệu định tính
k = số các giá trị của biến

N = số trường hợp nghiên cứu
f2 = tổng của bình phương tần số
➢ Đại lượng IQV nhận các giá trị từ 0 đến 1
0 → cho thấy không có sự biến thiên trong mẫu

1 → có sự phân bổ đều nhau giữa các giá trị (không tồn tại yếu vị mode)
Đo lường Đo lường
Thang đo độ tập trung độ phân tán
Danh nghĩa Yếu vị IQV
Thứ bậc Yếu vị, Trung vị IQV
Khoảng cách – Yếu vị, trung vị, Trung bình Độ lệch chuẩn (s)
Tỉ lệ
42

BÀI 4 - THỐNG KÊ MÔ TẢ

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

BÀI 4 - THỐNG KÊ MÔ TẢ

Uploaded by

Copyright:

Available Formats

❑ Các thành phần (giá trị) của biến phải:

❑ Bảng phân phối tần suất nên bao gồm:

1. Coca – Cola 4 0,133 13,3

Nguồn: Khảo sát lớp học TKXH, tháng 11, 2007

hocluc4 Hoc luc

Học lực Tần suất Phần trăm (%) % Luỹ tuyến

Nguồn: khảo sát sv lớp TKXH, 12/2021

Mệt Buồn Thích thú Vui

Nguồn: Khảo sát lớp học TKXH, tháng 12, 2021

✓ Bước 1: Sắp xếp thứ tự tập dữ liệu

✓ Bước 2: Xác định vị trí trung vị

hocTKXH Taâm traïng khi hoïc Thoáng keâ xaõ hoäi

Nguồn: Khảo sát lớp học TK04, tháng 11, 2007

❑ Ví dụ: - Trung bình của 2, 5 và 8 là 5 vì (2+5+8)/3=5

Nguồn: Số liệu điều tra của Khoa XHH

1. Giá trị lớn nhất (Max)

Sinh viên Khoảng cách Sinh viên Khoảng cách

∑(x - ) = mean deviations

Sinh viên Khoảng cách Sinh viên Khoảng cách

Phương sai mẫu (sample variance)

k = số các giá trị của biến

➢ Đại lượng IQV nhận các giá trị từ 0 đến 1

0 → cho thấy không có sự biến thiên trong mẫu

Danh nghĩa Yếu vị IQV

Thứ bậc Yếu vị, Trung vị IQV

You might also like