You are on page 1of 10

1/27/2022

Chương 2

BIÊN TẬP VÀ PHÂN


TÍCH MÔ TẢ DỮ LIỆU

Nội dung

I. Một số đại lượng đặc trưng của dữ liệu


II. Xây dựng bảng hỏi và kết cấu bộ dữ liệu
III.Biên tập dữ liệu
IV.Mô tả dữ liệu
V. Phân tích dữ liệu bằng biểu đồ

1/27/2022 2

Một số đại lượng đặc trưng của dữ liệu

1/27/2022 3

1
1/27/2022

Số trung bình

a) Khái niệm: Số trung bình (bình quân) trong thống kê là


mức độ đại biểu theo một tiêu thức nào đó của một
tổng thể thống kê bao gồm nhiều đơn vị cùng loại
- Là mức độ phổ biến nhất (dùng với các lượng biến có
quan hệ tổng)
- Chịu ảnh hưởng bởi giá trị đột biến

1/27/2022 4

b) Các loại số trung bình


▪ Số trung bình cộng (vận dụng khi các lượng biến có quan hệ
tổng)
𝑡ổ𝑛𝑔 𝑙ượ𝑛𝑔 𝑏𝑖ế𝑛 𝑐ủ𝑎 𝑡𝑖ê𝑢 𝑡ℎứ𝑐
𝑠ố 𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ =
𝑇ổ𝑛𝑔 𝑠ố đơ𝑛 𝑣ị 𝑐ủ𝑎 𝑡ô𝑛𝑔 𝑡ℎể
- Trung bình cộng giản đơn
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑥ҧ =
𝑛
- Trung bình cộng gia quyền (vận dụng khi các 𝑓𝑖 khác nhau)
𝑥1 𝑓1+𝑥2 𝑓2 +⋯+𝑥𝑛 𝑓𝑛 σ 𝑥𝑖𝑓𝑖
𝑥ҧ = hay 𝑥ҧ = ൗσ 𝑓𝑖
𝑓1 + 𝑓2 + …+ 𝑓𝑛

1/27/2022 5

▪ VD. Tính năng suất lao động bình quân

Phân xưởng Năng xuất lao động (m/ công Số công nhân
nhân)
A 50 3
B 55 5
C 60 10
D 65 7
σ 𝑥𝑖 𝑓𝑖 50 ∗ 3 + 55 ∗ 5 + 60 ∗ 10 + 65 ∗ 7
𝑥ҧ = = = 59,2 (𝑚/𝑐𝑛)
σ 𝑓𝑖 3 + 5 + 10 + 7
Trong t/h này số bình quân trùng với số tương đối cường độ

1/27/2022 6

2
1/27/2022

▪ VD
Năng suất LĐ (sp) Số công nhân (𝒇𝒊) 𝒙𝒊

40-60 10 50
60-80 30 70
80-100 70 90
100-120 25 110
120-140 10 130
>140 5 150

▪ 𝑁𝑆𝐿Đ𝑏𝑞 =?
→ số trung bình được tính từ việc phân tổ có khoảng cách
thì giá trị của nó chỉ mang tính gần đúng
1/27/2022 7

Tính tỷ lệ bình quân hoàn thành kế hoạch của 3 phân xưởng sau:

PX NSLĐ Số CN % ht kế hoạch sl (𝒙𝒊 ) Sản lượng (𝑴𝒊 )

1 50 10 103 500
2 60 30 106 1800
3 30 20 102 600

▪ 𝑥𝑖 : % ℎ𝑜à𝑛 𝑡ℎà𝑛ℎ 𝑘ế ℎ𝑜ạ𝑐ℎ 𝑠ả𝑛 𝑙ượ𝑛𝑔 𝑐ủ𝑎 𝑡ừ𝑛𝑔 𝑝ℎâ𝑛 𝑥ưở𝑛𝑔


▪ 𝑓𝑖 : 𝑘ế ℎ𝑜ạ𝑐ℎ 𝑠ả𝑛 𝑙ượ𝑛𝑔 = 𝑀𝑖ൗ𝑥𝑖

→𝑥ҧ = σ 𝑀𝑖
ൗσ 𝑀𝑖 /𝑥𝑖 = 104,63%
(Số trung bình điều hòa)

1/27/2022 8

▪ Số trung bình điều hòa khi được biết tổng các


lượng biến 𝑀𝑖 và 𝑥𝑖
● Trung bình điều hòa giản đơn
𝑛
𝑥ҧ =
σ 1/𝑥𝑖
● Trung bình điều hòa gia quyền

𝑀1 + 𝑀2 + ⋯ + 𝑀𝑛
𝑥ҧ =
𝑀1 𝑀2 𝑀
+ + ⋯+ 𝑛
𝑥1 𝑥2 𝑥𝑛

1/27/2022 9

3
1/27/2022

▪ VD: Có 3 công nhân cùng sản xuất 1 loại sản phẩn trong 8h;
- CN1: sản xuất 1 sản phẩm hết 6 phút
- CN2: sản xuất 1 sản phẩm hết 8 phút
- CN3: sản xuất 1 sản phẩm hết 5 phút
→ Tính thời gian hao phí bình quân để sản xuất hết 1 sản phẩm.
● 𝑥𝑖 : 𝑡ℎờ𝑖 𝑔𝑖𝑎𝑛 ℎ𝑎𝑜 𝑝ℎí 𝑠ả𝑛 𝑥𝑢ấ𝑡 1 𝑠ả𝑛 𝑝ℎẩ𝑚 𝑐ủ𝑎 1 𝑛𝑔ườ𝑖
● 𝑓𝑖 : 𝑆ố 𝑠ả𝑛 𝑝ℎẩ𝑚 đã 𝑠ả𝑛 𝑥𝑢ấ𝑡 𝑐ủ𝑎 𝑡ừ𝑛𝑔 𝑛𝑔ườ𝑖
● 𝑀𝑖 : 𝑇ổ𝑛𝑔 𝑡ℎờ𝑖 𝑔𝑖𝑎𝑛 𝑙à𝑚 𝑣𝑖ệ𝑐 𝑐ủ𝑎 𝑡ổ𝑛𝑔 𝑛𝑔ườ𝑖

σ 𝑀𝑖 8∗60∗3
→ Tg SXTB = 𝑀 = 8∗60 8∗60 8∗60 = 6,10 (𝑝ℎú𝑡)
σ 𝑖 6
+
8
+
5
𝑥𝑖

1/27/2022 10

10

VD cho tốc độ tăng trưởng thu nhập của doanh nghiệp A như sau
𝐷𝑇2013 𝐷𝑇2012
𝑘1 = ൗ𝐷𝑇2012 = 1,1 ; 𝑘2 = ൗ𝐷𝑇2011 = 1,2; .. ; 𝑘𝑛
→Các phân số này không có quan hệ trung bình cộng
→Với quan hệ tích?
→Tốc độ phát trưởng trung bình = 𝑛 𝑘1 𝑘2 … . 𝑘𝑛
❖ Số trung bình nhân được vận dụng khi các lượng biến có quan hệ
tích với nhau
❖ Số bình quân nhân giản đơn
𝒏

𝒙= 𝒌𝟏 𝒌𝟐 … . 𝒌𝒏
❖ Số bình quân nhân gia quyền

σ 𝑓𝑖
ෑ 𝑥𝑖 𝑓𝑖

1/27/2022 11

11

c) Đặc điểm của số trung bình

▪ Mang tính tổng hợp, khái quát cao


▪ San bằng các chênh lệch giữa các đơn vị về trị
số của tiêu thức nghiên cứu

▪ Chịu ảnh hưởng của lượng biến đột xuất

1/27/2022 12

12

4
1/27/2022

Trung vị
▪ Là mức độ quan trọng
▪ Trong dãy số đã được sắp xếp theo thứ tự trung vị là
số ở vị trí giữa.
▪ Nếu n lẻ: trung vị ở vị trí giữa
▪ Nếu n chẵn: trung vị là bình quân của 2 số đứng ở vị trí
giữa
▪ Không chịu ảnh hưởng của giá trị đột xuất

1/27/2022 13

13

Mốt (Mode)

▪ Là một mức độ điển hình


▪ Là giá trị phổ biến nhất
▪ Không chịu ảnh hưởng của giá trị đột xuất
▪ Có thể không có Mốt nhưng cũng có thể có vài mốt
▪ Được sử dụng với cả biến định tính và định lượng

1/27/2022 14

14

Các phân vị

• Là vị trí phân chia tổng thể thành các nhóm khác nhau
• Tứ phân vị: chia dữ liệu được sắp xếp thành 4 phần

25% 25% 25% 25%


Q1 Q2 Q3
• Q1 - tứ phân vị thứ nhất: 25% tổng thể có giá trị dưới Q1 và 75% trên Q1
• Q2 – tứ phân vị thứ hai: % 50% trên và 50% dưới
• …
VD: điều tra nhu cầu sử dụng phương tiện giao thông bằng hàng không → tập
chung vào Q3 – trong trường hợp tổng thể điều tra là thu nhập

𝑖(𝑛+1)
Vị trí của tứ phân vị thứ tại điểm 𝑄𝑖 =
4
1/27/2022 15

15

5
1/27/2022

▪ Ví dụ

Dữ liệu đã được sắp xếp theo thứ tự

11 12 13 16 16 17 18 21 22
1(1+9)
Vị trí tại điểm Q1 = 4
= 2,5 →

Điểm Q1 = 12,5
Tương tự có Q2 = 16; Q3 = 19,5

1/27/2022 16

16

Các chỉ tiêu đo độ biến thiên

1/27/2022 17

17

Khoảng biến thiên

▪ Là chỉ tiêu đo độ biến thiên


▪ Là sự chênh lệch giữa giá trị nhỏ nhất và giá trị
lớn nhất

▪ Quan sát: Range = Xmax – Xmin


▪ Không phụ thuộc vào sự phân bố của dữ liệu

1/27/2022 18

18

6
1/27/2022

Phương sai
▪ Là một trong những thước đo quan trọng của độ biến
thiên
▪ Cho biết độ biến thiên xung quanh giá trị trung bình
2
σ 𝑥𝑖 −𝜇
● Đối với tổng thể chung: 𝜎 2 = 𝑁

2
σ 𝑥𝑖 −𝑥ҧ
● Đối với tổng thể mẫu: 𝑠 2 =
n−1

● hạn chế
▪ Vì dùng bình phương → khuếch đại trị số
▪ Không có đơn vị tính

1/27/2022 19

19

Độ lệch chuẩn

▪ Là thước đo của độ biến thiên


▪ Cho biết độ biến thiên xung quanh giá trị trung
bình

σ 𝑥𝑖 −𝜇 2
▪ Tổng thể chung 𝜎 = 𝑁

σ 𝑥𝑖 −𝑥ҧ 2
▪ Tổng thể mẫu s = 𝑛−1

1/27/2022 20

20

▪ So sánh các độ lệch chuẩn

1/27/2022 21

21

7
1/27/2022

Độ biến thiên

▪ Là thước đo độ biến thiên tương đối


▪ Đơn vị luôn là %
▪ Cho biết độ biến thiên tương đối xung quanh gt
trung bình
▪ So sánh 2 hoặc nhiều hơn 2 các giá trị biến
thiên
𝑠
𝑣=
𝑥ҧ

1/27/2022 22

22

Ví Dụ
▪ Cổ phiếu A giá bình quân năm trước = 50$;
Độ lệch chuẩn 5$
▪ Cổ phiếu B giá bình quân năm trước = 100$
Độ lệch chuẩn 5$
→Cổ phiếu A biến động 10%; cổ phiếu B biến
động 5%
→Đầu tư cho loại nào?

1/27/2022 23

23

Hình dáng phân phối


▪ Mô tả sự phân bố của dữ liệu
▪ Các mức độ của hình dáng: đối xứng hoặc lệch

1/27/2022 24

24

8
1/27/2022

Đồ thị hộp ria mèo (box plot)

1/27/2022 25

25

Hình dáng của phân phối


và đồ thị hộp ria mèo

1/27/2022 26

26

Tác dụng của đồ thị hộp ria mèo

▪ Nhận biết vị trí của bộ dữ liệu trên cơ sở trung vị


(Me)
▪ Nhận biết sự dàn trải của dữ liệu thông qua độ dài
của hộp (khoảng tứ phân vị và độ dài của ria mèo)
▪ Nhận biết lượng biến đột xuất và nghi ngờ là đột
xuất
▪ So sánh hai hay nhiều bộ dữ liệu trên cùng một
thước đo

1/27/2022 27

27

9
1/27/2022

Nhận biết lượng biến đột xuất

1/27/2022 28

28

10

You might also like