You are on page 1of 27

8/7/2022

Chương 3
TRÌNH BÀY DỮ LIỆU THỐNG KÊ

Nội dung chính

I II III

PHÂN TỔ BẢNG ĐỒ THỊ


THỐNG KÊ THỐNG KÊ THỐNG KÊ

1
8/7/2022

Dữ liệu thu thập được sau điều tra

Phân tổ thống kê

• Khái niệm chung

• Các loại phân tổ thống kê

• Các bước phân tổ thống kê

• Dãy số phân phối

2
8/7/2022

Khái niệm chung


Phân tổ thống kê là căn cứ vào một hay một số tiêu thức nào đó để tiến
hành phân chia các đơn vị của hiện tượng nghiên cứu thành các tổ (hoặc
tiểu tổ) có tính chất khác nhau.
 Ý nghĩa: Phân tổ thống kê đóng vai trò quan trọng trong cả 3 giai đoạn của
quá trình nghiên cứu thống kê.
 Nhiệm vụ:
• Phân chia các loại hình kinh tế xã hội của hiện tượng nghiên cứu
• Biểu hiện kết cấu của hiện tượng nghiên cứu
• Biểu diễn mối liên hệ giữa các tiêu thức

Các loại phân tổ thống kê


 Căn cứ vào nhiệm vụ của phân tổ:
• Phân tổ phân loại
• Phân tổ kết cấu
• Phân tổ liên hệ
 Căn cứ vào số lượng tiêu thức dùng để phân tổ:
• Phân tổ theo một tiêu thức
• Phân tổ theo nhiều tiêu thức
 Căn cứ vào loại tiêu thức dùng để phân tổ:
• Phân tổ theo tiêu thức thuộc tính
• Phân tổ theo tiêu thức số lượng

3
8/7/2022

Các bước phân tổ thống kê

Phân phối các đơn vị vào từng tổ Bước 4

Xác định số tổ và khoảng cách tổ


Bước 3

Lựa chọn tiêu thức phân tổ


Bước 2

Xác định mục đích


phân tổ Bước 1

Lựa chọn tiêu thức phân tổ

• Dựa trên cơ sở phân tích lý luận để chọn ra tiêu thức bản chất nhất, phù
hợp với mục đích nghiên cứu

• Căn cứ vào điều kiện lịch sử cụ thể của hiện tượng nghiên cứu

4
8/7/2022

Xác định số tổ và phân phối các đơn vị


vào từng tổ
 Mỗi biểu hiện của tiêu thức có thể hình thành một tổ.
• Số lượng đơn vị được sắp xếp vào mỗi tổ được gọi là tần số (frequency).
• Khi lấy tần số của mỗi tổ chia cho tổng số đơn vị trong tổng thể, ta được
tần suất của tổ đó (relative frequency).
• Khi lấy tần suất của mỗi tổ nhân với 100, ta được tỷ trọng của tổ đó trong
tổng thể (tần suất tính theo đơn vị %) (percentage frequency)

Phân tổ theo tiêu thức thuộc tính


Ví dụ: Phỏng vấn 50 sinh viên về loại đồ uống ưa thích nhất.

Coca Coca Coca Coca Fanta


Coca ăn kiêng Fanta Coca ăn kiêng Sprite Coca
Pepsi Sprite Coca Fanta Coca ăn kiêng
Coca ăn kiêng Coca Sprite Pepsi Pepsi
Coca Coca ăn kiêng Sprite Coca ăn kiêng Pepsi
Coca Coca Pepsi Pepsi Pepsi
Fanta Coca Coca Coca Pepsi
Coca ăn kiêng Sprite Coca Coca Coca
Pepsi Coca Coca Coca Fanta
Pepsi Coca ăn kiêng Pepsi Pepsi Pepsi

10

5
8/7/2022

Phân tổ theo tiêu thức thuộc tính

Loại đồ uống Tần số Tần suất (lần) Tần suất (%)


Coca 19 0,38 38
Coca ăn kiêng 8 0,16 16
Fanta 5 0,10 10
Pepsi 13 0,26 26
Sprite 5 0,10 10
Tổng số 50 1 100

11

Đồ thị phân bố với dữ liệu định tính

40 38

35
30
26
Tần suất (%)

25 10%
Coca
20
16 38% Coca ăn kiêng
15 26%
Fanta
10 10
10 Pepsi
5 Sprite
10%
16%
0
Coca Coca ăn Fanta Pepsi Sprite
kiêng
Loại đồ uống

Đồ thị hình cột (bar chart) Đồ thị hình tròn (pie chart)

12

6
8/7/2022

Phân tổ theo tiêu thức số lượng


 Khi mỗi lượng biến hình thành 1 tổ: phân tổ không có khoảng cách tổ.
 Khi nhiều lượng biến cùng nằm trong 1 tổ: phân tổ có khoảng cách tổ
 Khoảng cách tổ bằng nhau
 Khoảng cách tổ không bằng nhau
 Khoảng cách tổ mở

13

Phân tổ không có khoảng cách tổ


Áp dụng với dữ liệu định lượng có ít các lượng biến rời rạc.
• Ví dụ: Có số lượng đơn hàng đã thực hiện của 20 nhân viên giao hàng
của Tiki trong 1 giờ đồng hồ như sau
7, 7, 10, 8, 5, 4, 5, 6, 4, 9, 8, 7, 6, 4, 8, 5, 7, 10, 10, 9
• Phân tổ số lượng nhân viên trên theo số lượng đơn hàng đã giao trong 1
giờ.

14

7
8/7/2022

Phân tổ không có khoảng cách tổ


 Sắp xếp dữ liệu theo thứ tự từ thấp đến cao
 Xác định các tổ và đếm số lượng nhân viên trong từng tổ đó.
Số lượng đơn hàng Số nhân viên
4 3 Tần số
5 3
6 2
7 4
8 3
9 2
10 3
Tổng số 20

15

Phân tổ có khoảng cách tổ


Áp dụng
• Dữ liệu định lượng có nhiều lượng biến rời rạc
• Dữ liệu định lượng có lượng biến liên tục
 Các bước xây dựng
• Sắp xếp dữ liệu theo thứ tự từ thấp đến cao
• Xác định lượng biến lớn nhất, lượng biến nhỏ nhất và khoảng biến thiên của
lượng biến (R)
R = Lượng biến lớn nhất – lượng biến nhỏ nhất
• Xác định số tổ
• Xác định khoảng cách tổ
• Xác định giới hạn dưới của tổ đầu tiên
• Xây dựng dãy số phân phối

16

8
8/7/2022

Phân tổ có khoảng cách tổ


 Các thuật ngữ:
• Giới hạn dưới: giá trị thấp nhất trong một tổ
• Giới hạn trên: giá trị cao nhất trong một tổ
→ Giới hạn dưới và giới hạn trên của một tổ thường được làm tròn
• Khoảng cách tổ: khoảng cách từ giới hạn dưới đến giới han trên của một tổ
• Tổ mở: tổ đầu tiên không có giới hạn dưới và/hoặc tổ cuối cùng không có
giới hạn trên
→ Tổ mở thường được áp dụng khi có các dữ liệu không bình thường (quá
thấp hoặc quá cao)

17

Phân tổ có khoảng cách tổ bằng nhau


 Xác định khoảng cách tổ
 Khoảng cách tổ bằng nhau
 Khoảng cách tổ xấp xỉ bằng:
𝑳ượ𝒏𝒈 𝒃𝒊ế𝒏 𝒍ớ𝒏 𝒏𝒉ấ𝒕 𝑳ượ𝒏𝒈 𝒃𝒊ế𝒏 𝒏𝒉ỏ 𝒏𝒉ấ𝒕
𝑺ố 𝒕ổ

18

9
8/7/2022

Phân tổ có khoảng cách tổ bằng nhau


• Ví dụ: Có số liệu về doanh số bình quân một tháng (triệu đồng) trong năm
2021 của 50 nhân viên trong một doanh nghiệp như sau

91 78 93 57 75 52 99 80 97 62
71 69 72 89 66 75 79 75 72 76
104 74 62 68 97 105 77 65 80 109
85 97 88 68 83 68 71 69 67 74
62 82 98 101 79 105 79 69 62 73

19

Phân tổ có khoảng cách tổ bằng nhau


 Giả sử, chia thành 6 tổ
 Khoảng cách tổ = (109 - 52)/6 = 9.5 ≈ 10

Doanh số bq (Trđ) Số nhân viên


Khoảng cách tổ 50-<60 2
=60‐50=10 60-<70 13
Giới hạn
70-<80 trên 16
80-<90 7
90-<100 7
Giới hạn 100-110 5
dưới Tổng số 50

20

10
8/7/2022

Phân tổ có khoảng cách tổ không bằng nhau


• Ví dụ: Lương bình quân tháng (triệu đồng) năm 2021 của 25 nhân viên có
độ tuổi từ 25-30 trong một doanh nghiệp như sau
Lương bq tháng (trđ) Số nhân viên
4 - <6 4
6-<8 6
8-<9 6
9 - < 12 6
12 - 15 3
Tổng số 25

Mỗi tổ phản ánh sự khác biệt trong bản chất của dữ liệu
21

Phân tổ có khoảng cách tổ mở


Áp dụng với dữ liệu định lượng có lượng biến liên tục
• Ví dụ: Có tài liệu về mức thu nhập bình quân năm (triệu đồng) của 30
nhân viên trong một ngân hàng như sau
202 277 654 145 361
457 67 44 240 144
310 391 362 437 429
176 325 221 374 216
480 120 274 398 282
153 470 303 338 209

22

11
8/7/2022

Phân tổ có khoảng cách tổ mở

Thu nhập (trđ) Số người


<100 2
100 - <200 5
Tổ mở, không
có giới hạn 200 - <300 8
dưới
300 - <400 9
400 - <500 5
≥500 1
Tổng số 30
Tổ mở, không
có giới hạn trên

23

Dãy số phân phối (Bảng tần số phân bố)

Dãy số phân phối là kết quả của phân tổ thống kê theo một tiêu thức nào đó.
Các loại dãy số phân phối
 Dãy số phân phối thuộc tính: là kết quả của phân tổ thống kê theo tiêu thức
thuộc tính
 Dãy số phân phối lượng biến: là kết quả của phân tổ thống kê theo tiêu
thức số lượng
• Được sắp xếp theo trình tự biến động của lượng biến tiêu thức phân tổ

24

12
8/7/2022

Các thành phần của dãy số lượng biến


tổng quát
𝒙𝒊 𝒇𝒊 𝒇𝒊 𝑺𝒊 𝒇𝒊
𝒅𝒊 𝟏𝟎𝟎 𝒎𝒊
∑ 𝒇𝒊 𝒉𝒊

Lượng biến Tần số Tần suất Tần số tích lũy Mật độ phân phối

Là biểu hiện bằng Là số lần xuất hiện Là tần số được biểu Là tần số cộng dồn Dùng để so sánh
số của tiêu thức số của lượng biến hiện bằng số tương các tần số khi
lượng dùng để phân hoặc số đơn vị phân đối (lần, %) khoảng cách tổ
tổ phối vào mỗi tổ không bằng nhau
x1 f1 d1 S1 = f1 m1

… … … … …
xn fn dn Sn = f1 + f2 + … + fn mn

Tổng
𝒇𝒊 𝒅𝒊

25

Dãy số lượng biến tổng quát: các tính


toán khác
 Tần số tích lũy – cho biết số lượng đơn vị có giá trị nhỏ hơn hoặc bằng
giới hạn trên của một tổ, là tổng tần số của tổ đó và các tổ trước đó.
 Tần suất tích lũy – cho biết tỷ lệ số đơn vị (tính theo đơn vị lần) có giá trị
nhỏ hơn hoặc bằng giới hạn trên của một tổ, là tổng tần suất của tổ đó và
các tổ trước đó
 Tần suất (tỷ trọng) tích lũy – cho biết phần trăm số đơn vị có giá trị nhỏ
hơn hoặc bằng giới hạn trên của một tổ, là tổng tỷ trọng của tổ đó và các
tổ trước đó.

26

13
8/7/2022

Ví dụ
Doanh số Tần số Tần suất Tỷ trọng Tần số tích Tần suất Tần suất
bq (Tr.đ) (%) lũy tích lũy (Tỷ trọng)
(lần) tích lũy (%)
50-<60 2 0.04 4 2 0.04 4

60-<70 13 0.26 26 15 0.30 30

70-<80 16 0.32 32 31 0.62 62

80-<90 7 0.14 14 38 0.76 76

90-<100 7 0.14 14 45 0.90 90

100-110 5 0.10 10 50 1.00 100

Tổng 50 1.00 100

7/50 0.14x100 38+7 0.76+0.14 76+14

27

Đồ thị phân bố với dữ liệu định lượng

• Đồ thị điểm (Dot plot)

• Biểu đồ tần số phân bố (Histogram)

• Đa giác tần số (Polygon)

• Đa giác tần số tích lũy (Ogive)

28

14
8/7/2022

Đồ thị điểm (Dot plot)


• Trục hoành biểu diễn biến động của các lượng biến.
• Mỗi giá trị được thể hiện bằng một điểm trên trục.

Doanh số bình quân


.
. .. . . .
. .. .. .. .. . .
. . . ..... .......... .. . .. . . ... . .. .
50 60 70 80 90 100 110

Doanh số (Tr.đ)

29

Biểu đồ tần số phân bố (Histogram)


Doanh số bình quân
18 Biểu đồ hình cột (Histogram)
16
14
• Không có khoảng cách giữa các
12
cột mà là giới hạn giữa hai tổ.
Tần số

10
• Tổ cao thấp biểu thị tần số của
8
mỗi tổ.
6
• Độ rộng cột là khoảng cách tổ
4
2
Doanh số bq
(trđ)
50 60 70 80 90 100-110

30

15
8/7/2022

Hình dáng của Histogram


 Đối xứng
 Ví dụ: chiều cao và cân nặng (phân phối chuẩn)

.35
.30
.25
Tần suất

.20
.15
.10
.05
0

31

Hình dáng của Histogram


 Lệch trái
 Ví dụ: điểm thi

.35
.30
.25
Tần suất

.20
.15
.10
.05
0

32

16
8/7/2022

Hình dáng của Histogram


 Lệch phải
 Ví dụ: giá nhà

.35
.30
.25
Tần suất

.20
.15
.10
.05
0

33

Hình dáng của Histogram


 Rất lệch phải
 Ví dụ: thu nhập

.35
.30
.25
Tần suất

.20
.15
.10
.05
0

34

17
8/7/2022

Tầm quan trọng của Histogram

• Cho biết hình dáng phân phối của dữ liệu

• Cho biết vị trí trung tâm của dữ liệu

• Cho biết sự biến thiên của dữ liệu

• Dùng để xác định dữ liệu đột xuất (outliers)

35

Đa giác tần số (Polygon)


Polygon
18
16 16
14
13
12
Tần số

10
8
7 7
6
5
4
2 0 2
0
0 10 20 30 40 50 60 70 80 90 100 110 120
Trị số giữa của tổ

Trị số giữa của tổ = (Giới hạn trên + Giới hạn dưới) / 2


36

18
8/7/2022

Đa giác tần số tích lũy (Ogive)

100

Trục tung: 80

- Tần số tích lũy 60 (90, 76)

- Tần suất tích lũy 40


- Tần suất (%) tích lũy
20 Doanh số
bq (Trđ)

50 60 70 80 90 100 110

Trục hoành: Giới hạn trên của tổ


37

Bảng dữ liệu chéo (cross tabulation -


contingency table)
 Bảng chéo: biểu diễn mối liên hệ giữa hai biến.

Cột 1 Cột 2 Cột 3 … Cột c Tổng dòng


Dòng 1 O11 O12 O13 O1c ΣO1j
Dòng 2 O21 O22 O23 O2c ΣO2j

Dòng d Od1 Od2 Od3 Odc Σodj
Tổng cột ΣOi1 ΣOi2 ΣOi3 ΣOic n=ΣOij

38

19
8/7/2022

Bảng dữ liệu chéo


 Ví dụ. Bảng chéo cho biết mối liên hệ giữa giá tiền của một suất ăn và
đánh giá chất lượng suất ăn đó.
Giá tiền một suất ăn (Nghìn đồng)
Đánh giá Tổng số
50‐60 60‐70 70‐80 80‐90
Tạm được 42 40 2 0 84
Ngon 34 64 46 6 150
Rất ngon 2 14 28 22 66
Tổng số 78 118 76 28 300

→Từ kết quả trên, có thể tính được kết cấu theo các tiêu thức khác nhau

39

Bảng dữ liệu chéo


 Ví dụ. Phần trăm trong tổng chung.

Giá tiền một suất ăn (Nghìn đồng)


Đánh giá Tổng số
50‐60 60‐70 70‐80 80‐90
Tạm được 14.00 13.33 0.67 0.00 28.00
Ngon 11.33 21.33 15.33 2.00 50.00
Rất ngon 0.67 4.67 9.33 7.33 22.00
Tổng số 26.00 39.33 25.33 9.33 100.00

40

20
8/7/2022

Bảng dữ liệu chéo


 Ví dụ. Phần trăm trong tổng dòng.

Giá tiền một suất ăn (Nghìn đồng)


Đánh giá Tổng
50‐60 60‐70 70‐80 80‐90
Tạm được 50.00 47.62 2.38 0.00 100.00
Ngon 22.67 42.67 30.67 4.00 100.00
Rất ngon 3.03 21.21 42.42 33.33 100.00
Tổng số 26.00 39.33 25.33 9.33 100.00

41

Bảng dữ liệu chéo


 Ví dụ. Phần trăm trong tổng cột.

Giá tiền một suất ăn (Nghìn đồng)


Đánh giá Tổng
50‐60 60‐70 70‐80 80‐90
Tạm được 53.85 33.90 2.63 0.00 28.00
Ngon 43.59 54.24 60.53 21.43 50.00
Rất ngon 2.56 11.86 36.84 78.57 22.00
Tổng số 100.00 100.00 100.00 100.00 100.00

42

21
8/7/2022

Biểu đồ nhiều thanh ngang (Side-by-side


bar charts or Clustered bar chart)

Đánh giá chất lượng

70
60
• Thường dùng để 50
biểu diễn dữ liệu 40
30
của một bảng chéo
20
10
0
50‐60 60‐70 60‐80 80‐90
Meal Price (thousand dong)
Good Very Good Excellent

43

Clustered Bar Chart & Stacked Bar Chart

44

22
8/7/2022

Bảng thống kê khác - Kết cấu bảng

TIÊU ĐỀ BẢNG
Phần giải thích
Các chỉ tiêu giải thích
(Tên cột)
Phần chủ đề
(a) (1) (2) (…) (n)
Tên chủ đề
(Tên hàng)

Cộng

45

Bảng thống kê khác – Yêu cầu khi xây dựng


 Quy mô của bảng không nên quá lớn
 Các tiêu đề, tiêu mục cần được ghi chính xác, ngắn gọn và dễ hiểu
 Các hàng, cột thường được ký hiệu bằng chữ hoặc bằng số
 Các chỉ tiêu giải thích trong bảng cần được sắp xếp theo thứ tự hợp lý, phù
hợp mục đích nghiên cứu
 Cách ghi các số liệu vào trong bảng thống kê
• Nếu hiện tượng không có số liệu thì ghi dấu gạch ngang ( - )
• Nếu số liệu còn thiếu, sau này bổ sung thì ghi ký hiệu 3 chấm (…)
• Ký hiệu gạch chéo (x): ô cấm
• Các số liệu trong cùng một cột, có đơn vị tính toán giống nhau phải ghi
theo trình độ chính xác như nhau
• Các số cộng và tổng cộng có thể ghi ở đầu hoặc cuối hàng và cột

46

23
8/7/2022

Đồ thị thống kê khác


• Đồ thị phân tán (scatter plot): biểu diễn mối liên hệ giữa hai biến

Mối liên hệ giữa giá bán đất ở ngoại


thành Hà Nội với diện tích đất
450
400
Giá bán (Triệu đồng)

350
300
250
200
150
100
50
0
0 500 1000 1500 2000 2500 3000
Diện tích (m2)

47

Đồ thị thống kê khác


• Đồ thị phát triển (time series plot): biểu diễn sự biến động của hiện
tượng qua thời gian

Doanh thu của cửa hàng A giai đoạn


2014‐2021
1.65
1.63
Doanh thu (Tỷ đồng)

1.6
1.57
1.55
1.53
1.5
1.49
1.47
1.45 1.45
1.42
1.4 1.41

1.35

1.3
1 2 3 4 5 6 7 8

Thời gian

48

24
8/7/2022

Sử dụng SPSS
• Lập bảng tần số phân bố cho 1 biến định tính
Analyze  Descriptive Statistics  Frequencies…
Đưa các biến cần
tóm tắt dữ liệu
sang ô Variable(s)

Tính toán các


tham số thống kê

Vẽ đồ thị Bar,
Pie, Histogram

Hiện thị bảng tần số

49

Sử dụng SPSS
• Lập bảng kết hợp các biến định tính và các biến định lượng (Bảng tùy biến)
Analyze > Tables > Custom Tables...

Đưa các biến chủ đề vào Rows các


biến giải thích vào Columns

Nhấn vào biến đã đưa sang sau đó


chọn Catagories and Total để
thêm tổng số hoặc thêm/bớt biểu
hiện nào đó không cần thiết

Đối với biến định lượng, chọn Summary Statistic...


để tính các tham số thống kê của biến

50

25
8/7/2022

Sử dụng SPSS
• Lập bảng cho biến tuỳ chọn (Multiple Answer)
Analyze > Tables > Multiple Response Sets

Đưa các biến của câu trả lời sang ô


Variables in Set
Chọn Dichotomies nếu biến có 2 biểu
hiện hoặc Categories nếu biến có nhiều
biểu hiện
Nhập giá trị cần đếm vào Counted Value
Đặt tên biến Name và nhãn biến Label
Nhấn Add > OK

51

Sử dụng SPSS
• Đồ thị thống kê

52

26
8/7/2022

Sử dụng SPSS
• Vẽ đồ thị thanh, cột (bar)
Graphs > Lagacy > Dialogs > Bar...
Simple đồ thị thanh cho 1 biến
Clustered đồ thị thanh kết hợp 2 biến (theo nhóm với nhiều cột cạnh
nhau)
Stacked Đồ thị thanh kết hợp 2 biến (biến được biệu hiện trên 1 cột)
Summaries for groups cases Mỗi thanh của đồ thị thể hiện số lượng
các quan sát có cùng 1 giá trị của biến
Summaries for separate variables Mỗi thanh của đồ thị thể hiện giá
trị thống kê của biến
Value of individual cases Mỗi thanh của đồ thị thể hiện giá trị 1 quan
sát của biến

53

Sử dụng SPSS
• Vẽ đồ thị thanh, cột (bar)
Graphs > Lagacy > Dialogs > Bar...

Bars Represent tham số thống kê thể hiện trên đồ thị


Category Axis Trục hoành
Define Clusters by biến phân loại
Có thể vẽ theo dòng hay cột (theo biến phân loại thứ 2)
 đưa biến vào Panel by Rows (Columns)

54

27

You might also like