You are on page 1of 28

16/07/2023

CHƯƠNG 2: TRÌNH BÀY VÀ MÔ TẢ DỮ LIỆU

 II.1. TRÌNH BÀY VÀ MÔ TẢ DỮ LIỆU ĐỊNH TÍNH


CHƯƠNG 2: TRÌNH BÀY VÀ MÔ TẢ DỮ
LIỆU  II.2. TRÌNH BÀY VÀ MÔ TẢ DỮ LIỆU ĐỊNH LƯỢNG

 II.3. CÁC ĐẠI LƯỢNG THỐNG KÊ VÀ HÌNH DÁNG

Nội dung:
 Hướng dẫn cách thức trình bày & mô tả dữ liệu;
 Tóm tắt dữ liệu bằng một số các đại lượng (đặc trưng) cơ
bản.

II.1. TRÌNH BÀY VÀ MÔ TẢ DỮ LIỆU ĐỊNH TÍNH Ví dụ 1. Dưới đây là kết quả của 40 câu trả lời từ một khảo sát về
1. Bảng tần số, tần suất việc liệu người xem TV quan tâm đến một chương trình
Gameshow hay kinh doanh:
 Bảng tần số, tần suất là một bảng tổng hợp, trình bày dữ liệu
bằng cách phân chia chúng thành từng nhóm (lớp) khác nhau.
Bảng tần số, tần suất thường bao gồm ba cột:

- Cột thứ nhất mô tả các biểu hiện của dữ liệu.

- Cột thứ hai mô tả tần số tương ứng với các biểu hiện đó.

- Cột thứ ba là các tần suất (tỉ lệ %).

1
16/07/2023

Bảng tần số, tần suất tương ứng: 2. Đồ thị thống kê cho dữ liệu định tính
2.1 Biểu đồ dạng thanh
(Bar Chart: thanh đứng hay thanh ngang)

 Để mô tả dữ liệu dạng định tính được tóm tắt trong phân phối tần số,
tần suất hoặc tần suất phần trăm.
 Trên một trục (thường là trục ngang), chúng ta đặt các nhãn đại diện
cho các nhóm.
 Trên trục đứng, ta biểu diễn tần số, tần suất.
 Sau đó, sử dụng một thang có chiều rộng cố định để vẽ cho mỗi
nhóm.
 Do dữ liệu định tính, nên các thanh nên được tách ra để nhấn mạnh
𝐭ầ𝐧 𝐬ố
𝐓ầ𝐧 𝐬𝐮ấ𝐭 = sự khác biệt.
𝒏

VÍ DỤ 2
 Ví dụ 3. Dữ liệu về việc
sử dụng các trang mạng
xã hội để mua một mặt
hàng có bảng tần số sau:

2
16/07/2023

 Ví dụ 3. Từ bảng tần số, tần suất ta có biểu đồ dạng thanh sau 2.2 Biểu đồ hình tròn (Pie chart): Thường dùng để mô tả kết
cấu (%) của vấn đề đang nghiên cứu.
 Ví dụ 4. Biểu đồ hình tròn của dữ liệu về việc sử dụng các
trang mạng xã hội để mua một mặt hàng.
Giả sử Google có
thị phần là 57.36%,
thì phần được dán
nhãn Google chiếm
bao nhiêu độ?

Lưu ý: các giá trị


số biểu diễn cho
từng phần có thể
là tần số, tần suất
hoặc tần suất %.

Ví dụ 5. Điều tra về các thương hiệu ĐTDĐ được sinh viên Hoa
Sen sử dụng năm 2011, ta được bảng số liệu sau

Thương hiệu Tần số Tần suất


Nokia 37 37%
Samsung 25 25%
Sony Ericsson 12 12%
HTC 7 7%
LG 10 10%
Iphone 9 9%
Tổng cộng 100 100%

3
16/07/2023

2.3. Bảng kết hợp nhiều biến định tính  Để thấy được việc
 Ví dụ 6. Bảng dưới đây được khảo sát từ 1008 thanh niên ở lựa chọn chương
Mỹ về việc quan tâm đến một chương trình Gameshow hay trình để xem và
các quảng cáo xuất hiện trong chương trình: giới tính có mối
liên hệ như thế
nào, chúng ta có
thể lập biểu đồ
dạng thanh như
sau:

II.2 TRÌNH BÀY VÀ MÔ TẢ DỮ LIỆU ĐỊNH LƯỢNG


1. Lý thuyết phân nhóm (tổ)

Có hai trường hợp: dữ liệu có ít giá trị và dữ liệu có nhiều giá


trị.

Hướng dẫn vẽ các biểu đồ  Trường hợp dữ liệu có ít giá trị: Mỗi giá trị quan sát hình
định tính bằng Excel thành một nhóm.

 Trường hợp dữ liệu có nhiều giá trị: Trước hết ta phân nhóm
cho các giá trị rồi mới lập bảng tần số trên cơ sở dữ liệu đã
phân nhóm.

4
16/07/2023

Ví dụ 1.
LƯU Ý
Điểm thi Tần số Tần suất Chiều Tần số Tần suất (%)
cao (cm) (người)
(số SV) (%)  Khoảng cách của các nhóm không nhất thiết đều nhau.
< 150 173 17,3
3 3 3,75
4 12 15 150 – 160 243 24,3  Người ta thường xác định số nhóm k và khoảng cách giữa các
nhóm h bởi công thức
5 15 18,75
6 20 25
160 – 170 325 32,5 X  X min
k  3 2n , h  max
k
7 16 20 170 – 180 197 19,7
8 8 10  Có thể xử lý linh động để đảm bảo tính khoa học và mỹ thuật.
≥ 180 62 6,2
9 4 5
10 2 2,5  Quy ước: mỗi khoảng thể hiện sự tồn tại của các giá trị quan
Tổng 1000 100
sát xi sao cho: Cận dưới  xi < Cận trên.
Tổng 80 100

VÍ DỤ 2 VÍ DỤ 2 (TIẾP)
 𝑛 = 40, 𝑥 = 179, 𝑥 = 153.
 Năng suất (tạ/ha) của một loại cây thu hoạch được tại 40 vùng  Ta có số nhóm 𝑘 = 2 × 40 ≈ 4,3.
như sau:
 Khoảng cách giữa các nhóm ℎ = = 6,5
153 154 156 157 158 159 159 160 160 160  Ta chọn 𝑘 = 4 và ℎ = 7, ta được các nhóm
161 161 161 162 162 162 163 163 163 164
164 164 165 165 166 166 167 167 168 168 [153, 160); [160, 167); [167,174); [174,181)
170 171 172 173 174 175 176 177 178 179
Hoặc có thể viết lại:
153 – 160; 160 – 167; 167 – 174; 174 – 181
Hoặc:
153 – 160; 160 – 167; 167 – 174; 174 – 179

5
16/07/2023

VÍ DỤ 2. (TIẾP)  Một số điều kiện phải tuân thủ khi phân nhóm:
- Không được giao nhau.
Năng suất Tần số Tần suất (%) - Bao quát hết tất cả các giá trị của mẫu số liệu.
- Không có nhóm rỗng.
153 – 160 5 12,5
 Ví dụ 3. Một doanh nghiệp có 28 cửa hàng bán lẻ. Số tiền
160 – 167 19 47,5 (triệu đồng) bán được trong ngày của các cửa hàng được ghi
lại như sau:
167 – 174 9 22,5
57,8 57,5 52,4 50,9 50,2 53,3 50,1 43,3 42,5 41,7
41,1 45,8 47,2 46,9 56,9 45 38,8 50,3 37,6 38,9
174 – 181 7 17,5
52,3 49,2 47,5 47 49,6 46,2 49,8 36,8

Tổng 40 100

VÍ DỤ 3. PHÂN NHÓM (TỔ) Ví dụ 5. Ta có bảng tần số/ tần suất tích luỹ sau đây. Từ bảng ta
thấy có 15 cửa hàng, chiếm 53,6%, có số tiền bán hàng trong
ngày dưới 48 triệu đồng.
Tiền bán Tần số Tần số tích Tần suất Tần suất
Tiền bán hàng (triệu đồng) Tần số Tần suất (%)
hàng (triệu lũy (%) tích luỹ
36 – 40 4 14,3 đồng) (%)
40 – 44 4 14,3 36 – 40 4 4 14,3 14,3
44 – 48 7 25 40 – 44 4 8 14,3 28,6
48 – 52 7 25 44 – 48 7 15 25 53,6
52 – 56 3 10,7
48 – 52 7 22 25 78,6
56 – 60 3 10,7
52 – 56 3 25 10,7 89,3
Tổng 28 100
56 – 60 3 28 10,7 100
Tổng 28 100

6
16/07/2023

PHÂN NHÓM MỞ VÍ DỤ VỀ PHÂN NHÓM MỞ

 Ngoài cách phân nhóm như trên ta còn có thể phân nhóm mở,  Ví dụ 6. Bảng năng suất lúa của một số hộ gia đình như sau:
trong đó nhóm đầu tiên không có giới hạn dưới và nhóm cuối
cùng không có giới hạn trên, các nhóm còn lại có khoảng cách Năng suất lúa (tạ/ha) Số gia đình
đều hoặc không đều. <35 6
 Mục đích của phân nhóm mở là để nhóm đầu tiên và nhóm 35 – 40 10
cuối cùng chứa được các đơn vị có giá trị đột biến và tránh
40 – 45 20
việc lập quá nhiều lớp.
 Khi tính toán đối với phân nhóm mở người ta quy ước lấy 45 – 50 12
khoảng cách của nhóm mở bằng khoảng cách của nhóm gần 50 – 55 3
nó nhất. Tổng 50
Nhóm < 35 (tạ/ha) được quy ước có khoảng cách nhóm ℎ = 5.

2. Đồ thị thống kê các loại  Ví dụ 7. Biểu đồ phân phối tần số của bảng tần số ở ví dụ 4
a) Biểu đồ phân phối tần số như sau. (Trục hoành thể hiện biến khảo sát - năng suất. Trục
tung thể hiện tần số).
 Biểu đồ phân phối tần số (Histogram) được sử dụng để chuyển
hoá thông tin trên bảng tần số thành hình ảnh trực quan. Năng suất Tần số Tần suất (%)

152 - 159 5 12,5


 Đây là một loại đồ thị biểu diễn sự phân phối tần số bằng các
cột sao cho diện tích của cột tỉ lệ với tần số. 159 - 166 19 47,5

166 - 173 9 22,5

173 - 180 7 17,5

Tổng 40 100

7
16/07/2023

20
19 SỰ KHÁC BIỆT CỦA BIỂU ĐỒ
18

16 HISTOGRAM
14

12
Tần số

10 9  Không nên nhầm lẫn giữa Histogram với biểu đồ thanh đứng.
8 7 Đây là hai công cụ thống kê khác nhau, thể hiện hai loại dữ
6 5 liệu định lượng, định tính.
4

2  Giữa các thanh của Histogram không có khoảng cách, còn


0 giữa các thanh của biểu đồ dạng thanh phải có khoảng cách vì
152 - 159 159 - 166 166 - 173 173 - 180
mỗi thanh là một biểu hiện của biến phân loại.
Năng suất

Biểu đồ phân phối tần số

ĐA GIÁC TẦN SỐ 20
19
18

16

14

 Phương pháp thứ hai để biểu diễn phân phối tần số bằng đồ thị 12

Tần số
là dùng đa giác tần số. 10 9

8 7

6 5
 Để vẽ đa giác này, ta nối các trung điểm của cạnh đỉnh của các
4
cột trong Histogram lại với nhau bằng các đoạn thẳng.
2

0
 Muốn đường biểu diễn không có vẻ lơ lửng trên không, ta 152 - 159 159 - 166 166 - 173 173 - 180

thêm vào hai bên của Histogram hai nhóm có tần số bằng 0. Năng suất

Biểu đồ phân phối tần số

8
16/07/2023

Ví dụ 8. Đa giác tần số
20
18
16
14
12
Hướng dẫn vẽ các biểu đồ
Tần số

10
8 định tính bằng Excel
6
4
2
0

152 - 159 166 - 173 159 - 166 173 - 180

Năng suất

CÁC THAM SỐ THỐNG KÊ TRUNG BÌNH CỘNG

 Đối với dữ liệu định lượng, chúng ta có thể tóm tắt tốt hơn khi  Trung bình tổng thể
số lượng dữ liệu lớn, đó là dùng các đại lượng thống kê mô tả. ∑ 𝑥
Các đại lượng này được chia thành hai nhóm: 𝜇=
𝑁
 Nhóm các đại lượng thể hiện mức độ tập trung của dữ liệu;  Trung bình mẫu
 Nhóm thể hiện độ phân tán của dữ liệu. ∑ 𝑥 ∑ 𝑥𝑓
𝑥= =
𝑛 𝑛
 Ở nhóm thứ nhất ta có trung bình cộng (được sử dụng nhiều Trong đó, 𝑓 là tần số tương ứng với 𝑥 và 𝑘 là số giá trị quan sát
nhất), mốt (hay yếu vị), trung vị. khác nhau của mẫu.
 Ở nhóm thứ hai ta có khoảng biến thiên, độ lệch tuyệt đối bình
quân, phương sai, độ lệch chuẩn (được sử dụng nhiều nhất) và
hệ số biến thiên.

9
16/07/2023

VÍ DỤ TRUNG BÌNH CỦA MẪU CÓ KHOẢNG CÁCH


 Trung bình cộng của mẫu là
156,5 × 5 + 163,5 × 19 + 170,5 × 9 + 177,5 × 7
 Trung bình cộng của mẫu 40
153 154 156 157 158 159 159 160 160 160 = 166,65 Năng suất 𝑥 Tần số 𝑓 Trị số giữa
161 161 161 162 162 162 163 163 163 164 𝑚
164 164 165 165 166 166 167 167 168 168
170 171 172 173 174 175 176 177 178 179 153 – 160 5 156,5

153 + 154 + 156 + 157 + ⋯ + 179 160 – 167 19 163,5
30
153 + 154 + 156 + 157 + 158 + 159 × 2 + 160 × 3 + ⋯ + 179 167 – 174 9 170,5
=
30
= 165,075 174 – 181 7 177,5

Tổng 40 100

 Ví dụ 2. Trong một đợt sản xuất người ta chọn 50 sản phẩm


và ghi nhận khối lượng. Sản phẩm được phân nhóm theo khối
Đặc điểm của trung bình cộng
lượng như sau:
 Trung bình cộng được sử dụng để so sánh giữa hai hay nhiều
Khối lượng (gam) Trị số giữa (𝑚 ) Số sản phẩm (fi)
tổng thể.
484 – 490 487 5
490 – 496 493 10
 Tổng độ lệch giữa các giá trị 𝑥 với trung bình cộng 𝑥 bằng 0,
496 – 502 499 15
nghĩa là:
502 – 508 505 13
508 – 514 511 7 𝑥 −𝑥 = 0
Cộng 50
 Trung bình cộng thường rất nhạy cảm với các đột biến (giá trị
 Lúc đó, ta có trung bình mẫu là quá lớn hoặc quá nhỏ), giá trị trung bình sẽ kém tiêu biểu nếu
𝑥=
1
487 × 5 + 493 × 10+. . . +511 × 7 = 499,84 trong dãy số có các giá trị đột biến.
50

10
16/07/2023

 Ví dụ: Ta có thu nhập bình quân đầu người của 2 ngôi làng
như sau
MODE (MỐT – SỐ YẾU VỊ)
Khái niệm
Làng A Làng B  Mốt là giá trị xuất hiện nhiều nhất trong dữ liệu.

1000 USD/người/năm 1200/người/năm  Kí hiệu là M0, hoặc Mod(𝑥).

Kết luận: Làng B có mức sống khá hơn làng A.


Cách xác định mode
Tình huống: Sau đó, tỉ phú Phạm Nhật Vượng đến làng A sinh  Mode là giá trị có tần số lớn nhất.
sống làm cho thu nhập bình quân đầu người của làng A tăng lên
1500 USD/người/năm.  Ví dụ. Số yếu vị của dữ liệu sau là 6.
Làng A Làng B Điểm thi 0 1 2 3 4 5 6 7 8 9 10
1500 USD/người/năm 1200/người/năm
Số SV 0 3 5 4 12 18 29 16 10 2 1
Lấy đại lượng nào đại diện cho mức sống (thu nhập) của 2 làng?

Trường hợp dữ liệu khoảng đều (VD 1.17) DỮ LIỆU CÓ KHOẢNG CÁCH KHÔNG
 Xác định nhóm chứa Mode. Là nhóm có
ĐỀU (VD 1.18)
tần số lớn nhất. Trong VD này là nhóm Khối lượng Số sản
(496-502). (gam) phẩm (fi)  Sử dụng công thức tương tự như trường hợp
 Giới hạn dưới của nhóm này là 484 – 490 5 khoảng cách đều, nhưng các tần suất 𝑓 , 𝑓 ,
𝑥 ( ) = 496. 490 – 496 10 𝑓 sẽ thay bằng mật độ phân phối tổ 𝑑 ,
 Khoảng cách của nhóm này là ℎ = 496 – 502 15
502 − 496 = 6. 𝑑 ,𝑑 . Trong đó
502 – 508 13
 Tần số của nhóm trước (nhóm 490-496), 𝑓
nhóm chứa, và nhóm sau (502-508) lần 508 – 514 7 𝑑 =
lượt là: 𝑓 = 10 , 𝑓 = 15 , và Cộng 50

𝑓 = 13.  Tức là:
𝑓 −𝑓 𝑑 −𝑑
Mod 𝑥 = 𝑥 ( ) +ℎ × Mod 𝑥 = 𝑥 ( ) +ℎ ×
2𝑓 −𝑓 −𝑓 2𝑑 −𝑑 −𝑑

11
16/07/2023

Doanh thu Số cửa hàng Khoảng cách tổ Mật độ phân


(triệu VND) (𝒇𝒊 ) (nhóm) (𝒉𝒊 ) phối tổ
𝒇
ĐẶC ĐIỂM CỦA MODE
𝒅𝒊 = 𝒊
𝒉𝒊

200-400 8 200 0,04


400-500 12 100 0,12  Mode là đặc trưng đo lường khuynh hướng tập trung
500-600 25 100 0,25 không bị ảnh hưởng bởi các giá trị đột biến.
600-800 25 200 0,125
800-1000 9 200 0,045
Tổng 79
 Mode có thể xác định cho cả dữ liệu định lượng và định
tính.
 Yếu vị nằm ở tổ (nhóm) 500-600 (do có mật
độ phân phối tổ lớn nhất).  Khác với trung bình cộng và trung vị, một tập dữ liệu có
0,25 − 0,12 thể không xác định được mode vì không có giá trị nào
Mode = 500 + 100 × xuất hiện nhiều nhất. Ngược lại, có một số trường hợp có
2 × 0,25 − 0,12 − 0,125
nhiều mode.

TRUNG VỊ (MEDIAN) TRUNG VỊ


 Ví dụ 6.
 Trong một tập dữ liệu đã được sắp xếp theo thứ tự tăng dần thì a) Trong dãy số liệu 4, 6, 7, 9, 10, 13, 18, 19, 21 (có 9 phần
trung vị, kí hiệu Me, là giá trị đứng giữa của tập dữ liệu. tử), thì số đứng giữa là 10 (ở vị trí thứ 5) nên 𝑀 = 10.
 Nói cách khác, trung vị chia dãy số làm hai phần, mỗi phần có b) Trong dãy số 1, 2, 4, 5, 6, 9, 10, 15, 18, 20 (có 10 phần tử)
số đơn vị tổng thể bằng nhau. thì hai số đứng giữa là 6 và 9 (ở vị trí thứ 5 và thứ 6) nên
 Trường hợp số phần tử của mẫu n là số lẻ: 6+9
𝑀 = = 7,5
𝑀 = 𝑋( )/ 2
 Ví dụ 7. Tính trung vị của dãy số liệu sau
 Trường hợp n là số chẵn:
/ /
a) 12,4 14,6 13,1 16,8 16,5 16,2 17,4 17,5
𝑀 = 13,6 14,9 13,2 12,8.
b) 144,3 98,7 89,5 123,4 146,0 138,8 154,1
145,7 136,3 147,9 139,2.

12
16/07/2023

TRUNG VỊ CHO DỮ LIỆU KHOẢNG VÍ DỤ 1.15

Trong một mẫu gồm 𝑛 phần tử, Khối lượng Số sản Tần số

(gam) phẩm (fi) tích lũy
 Nhóm chứa trung vị là
 Tính tần số tích lũy, (𝑺𝒊 ) nhóm 496-502.
 Xác định nhóm chứa Med(𝑥) là nhóm gần nhất có tần số tích 484 – 490 5 5
lũy ≥ (𝑛 + 1)/2. 490 – 496 10 15
𝑛/2 − 𝑆 496 – 502 15 30
 Suy ra
Med 𝑥 = 𝑥 ( ) + ℎ × Med 𝑥
𝑓 502 – 508 13 43
Trong đó, 𝑥 ( ) là giới hạn dưới của nhóm chứa Med(𝑥); 50
508 – 514 7 50 − 15
ℎ là trị số khoảng cách của nhóm đó; và 𝑆 là tần số tích Cộng 50 = 496 + 6 × 2
lũy của nhóm đứng trước nhóm chứa Med(𝑥). 15
= 500

ĐẶC ĐIỂM CỦA TRUNG VỊ TỨ PHÂN VỊ

 Trung vị luôn tồn tại và duy nhất.  Tứ phân vị, thập phân vị là chỉ tiêu đo lường độ phân tán chứ
không phải chỉ tiêu đo lường khuynh hướng tập trung. [Thập
phân vị: đọc thêm giáo trình]
 Trung vị là đặc trưng đo lường khuynh hướng
tập trung ít bị ảnh hưởng bởi các giá trị đột
biến.

 Trung vị có thể tính cho dữ liệu sử dụng thang


đo tỉ lệ, thang đo khoảng và thang đo thứ bậc.

13
16/07/2023

CÁCH XÁC ĐỊNH TỨ PHÂN VỊ VÍ DỤ VỀ TỨ PHÂN VỊ

 Nếu 4 ∣ (𝑛 + 1), thì  Ví dụ 8. Cho dãy số:


𝑄 =𝑥 ,𝑄 = 𝑥 = Med, Q = 𝑥 ( ) 0,9 1,2 1,4 1,5 1,8 2,0 2,4 2,7 3,1 3,3 3,8
 Nếu 4 ∤ (𝑛 + 1), thì tứ phân vị được xác định bằng cách thêm vào.
Chẳng hạn, với 𝑛 = 12 (đơn vị), ta có Dãy số này có số phần tử là 𝑛 = 11 nên
= 3,25;
( )
= 9,75 𝑛+1 2(𝑛 + 1) 3(𝑛 + 1)
=3; =6; =9
Do đó,
4 4 4
𝑄 = 𝑥 + 0,25 𝑥 − 𝑥 , Vậy
𝑄 = 𝑥 + 0,5 𝑥 − 𝑥 , 𝑄 = 1,4 ; 𝑄 = 2,0 ; 𝑄 = 3,1
𝑄 = 𝑥 + 0,75 𝑥 − 𝑥 .

VÍ DỤ VỀ TỨ PHÂN VỊ TỨ PHÂN VỊ CHO DỮ LIỆU THEO KHOẢNG

 Ví dụ 9. Cho dãy số:  Tứ phân vị thứ nhất


1800, 1900, 2000, 2100, 2200, 2500, 2700, 2800 𝑛
−𝑆
có số phần tử là n = 8 nên 𝑄 =𝑋 ( ) +ℎ ×4
𝑓
𝑛+1 2(𝑛 + 1) 3(𝑛 + 1)
= 2,25 ; = 4,5 ; = 6,75  Tứ phân vị thứ ba
4 4 4
3𝑛
−𝑆
 Do đó 𝑄 =𝑋 ( ) +ℎ × 4
𝑓
𝑄 = 1900 + 0,25(2000 − 1900) = 1925
𝑄 = 2100 + 0,5(2200 − 2100) = 2150 Trong đó, nhóm chứa 𝑄 là nhóm gần nhất có tần số tích lũy
𝑄 = 2500 + 0,75(2700 − 2500) = 2650 ≥ (𝑛 + 1)/4. Tương tự, nhóm chứa 𝑄 là nhóm có tần số
tích lũy ≥ 3(𝑛 + 1)/4.

14
16/07/2023

VÍ DỤ 1.21 Hướng dẫn Mức lương khởi điểm

tính trung Mean 36,88


 𝑛 = 79, nên = 20. Nhóm chứa Doanh thu Số cửa Tần số tích
bình (average), Standard Error 0,217054
𝑄 là 400-500. (triệu VND) hàng (𝒇𝒊 ) lũy trung vị Median 36,65
Vì = 60, nên nhóm chứa 𝑄 200-400 8 8

là 600-800. 400-500 12 20
(MEDIAN), tứ Mode 36,4
Standard Deviation 1,188856
 Suy ra 500-600 25 45 phân vị Sample Variance 1,413379
79
𝑄 = 400 + 500 − 400 × 4
−8 600-800 25 70 (Quantile.exc) Kurtosis -0,46487
12 800-1000 9 79
& Mode Skewness 0,428087
Tổng 79
2 × 79 Range 4,5
𝑄 = Med = 500 + 100 × 4
− 20 (MODE) bằng
Minimum 34,9
25
Excel Maximum 39,4
3 × 79
− 45 Sum 1106,4
𝑄 = 600 + 200 × 4
25 Count 30

ĐỒ THỊ BOXPLOT VẼ BOXPLOT TRONG STATA


 Hướng dẫn vẽ
Boxplot trong Excel:

2013 2014 2015


Min 100 120 100
Q1 114,5 129 116,5
Q2 133 177 125
Q3 154,5 194 155
Max 189 199 176 2013 2014
2015

15
16/07/2023

200 ĐỌC BIỂU ĐỒ BOXPLOT TẦN SỐ TÍCH LŨY

Năng suất lúa Số gia đình Năng suất Tần số Tần số


180

(tạ/ha) (tần số) lúa (tạ/ha) tích lũy tích lũy


160

%
140

<35 2 <35 2 10
35 – 40 6
120

< 40 8 40
40 – 45 3
100

2013 2014 < 45 11 55


2015 45 – 50 4
2013 2014 2015 50 – 55 5 < 50 15 75
Min
Q1
100
114.5
120
129
100
116.5
Tổng 20 < 55 20 100
Q2 133 177 125
Q3 154.5 194 155
Max 189 199 176

ĐỒ THỊ OGIVE TẦN SỐ TÍCH LŨY BIỂU ĐỒ NHÁNH – LÁ (STEM – LEAF)

25
ĐỒ THỊ OGIVE NĂNG SUẤT LÚA
 Nội dung cơ bản của biểu đồ nhánh – lá là
ta tách dữ liệu thành 2 phần là nhánh và lá
20 20
theo một quy ước nào đó.
TẦN SỐ TÍCH LŨY

15 15

11
 Trong đó, bên phải là nhánh, còn bên trái là
10

8 lá.
5

0
35 40 45 50 55
NĂNG SUẤT LÚA (TẠ/HA)

16
16/07/2023

VÍ DỤ LƯU Ý
 Dữ liệu về độ tuổi của 30 người học tại chức
tại một lớp học như sau:  Đồ thị nhánh và lá có thể biểu thị thêm tần số
(số lần xuất hiện của nhánh) và có thể tách
28 23 30 24 19 21 39 22 22 31
thành nhiều nhánh nếu nhánh khá dài.
21 26 27 25 29 27 21 25 28 26
37 33 20 30 35 29 29 22 32 27
 Đơn vị ở lá có thể thay đổi tùy từng trường
 Biểu đồ nhánh - lá
hợp

VÍ DỤ VÍ DỤ 1565 1852 1644 1766 1888 1912 2044 1812


28 23 30 24 19 21 39 22 22 31 1790 1679 2008 1852 1967 1954 1733
21 26 27 25 29 27 21 25 28 26
37 33 20 30 35 29 29 22 32 27 Đơn vị lá = 10 Đơn vị lá = 1

“tuổi”: biến 15 6
Frequency: tần số 16 4 7
Stem: nhánh 17 3 6 9
Leaf: lá
18 1 5 5 8
Stem width: đơn vị của
nhánh. 19 1 5 6
Each leaf: số quan sát 20 0 4
cho mỗi leaf.
Đơn vị của lá luôn nhỏ
hơn 1 đơn vị của nhánh.

17
16/07/2023

Các đặc trưng đo lượng sự phân tán KHOẢNG BIẾN THIÊN (RANGE)
 Các đặc trưng đo lường khuynh hướng tập trung: mean (giá trị
trung bình), mode (yếu vị), median (trung vị).  𝑅=𝑥 −𝑥
 Ví dụ. Có hai tổ công nhân, mỗi tổ có 5 người với
 Các đặc trưng đo lường độ phân tán: khoảng biến thiên R, độ mức năng suất lao động như sau:
trãi giữa 𝑅 , độ lệch tuyệt đối MAD, phương sai, phương sai
Tổ I: 200, 250, 300, 350, 400
mẫu hiệu chỉnh, độ lệch chuẩn, hệ số biến thiên.
Tổ II: 280, 290, 300, 310, 320
 Hình dáng của dữ liệu.  Khoảng biến thiên của hai tổ là:
Tổ I: 𝑅 = 400 − 200 = 200
Tổ II: 𝑅 = 320 − 280 = 40

KHOẢNG BIẾN THIÊN ĐỘ TRÃI GIỮA (IQR)


 Khoảng biến thiên càng nhỏ thì tổng thể càng  𝑅 =𝑄 −𝑄
đồng đều, số trung bình càng có tính đại diện  Tứ phân vị
cao và ngược lại. Min
2013
100
2014
120
2015
100

Nhược điểm của khoảng biến thiên là chỉ phụ


Q1 114.5 129 116.5
 Q2 133 177 125

thuộc vào giá trị lớn nhất và giá trị nhỏ nhất
Q3 154.5 194 155
Max 189 199 176

của dãy lượng biến.  Độ trãi giữa:


 Do 𝑅 > 𝑅 , nên mức năng suất lao động của 2013: 𝑅 = 40; 2014:
tổ I biến thiên nhiều hơn của tổ II, suy ra số 𝑅 = 65; và 2015: 𝑅 =
trung bình của tổ II đại diện tốt hơn so với tổ I. 38.5;

18
16/07/2023

ĐỘ TRÃI GIỮA ĐỘ TRÃI GIỮA

 Độ trải giữa thể  Ví dụ. Tiền lương của hai tổ, mỗi tổ có 11 công nhân, được cho
trong bảng sau đây:
hiện độ phân

200
Tổ I: 0,9 1,2 1,5 1,8 2,1 2,4 2,7 3,0 3,3 3,6 3,9
tán của 50% dữ

180
Tổ II: 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9
liệu giữa của

160
Q1 Q2 Q3
dãy số.
 Độ trãi giữa: 140
 Độ trải giữa của tổ I:𝑅 = 𝑄 − 𝑄 = 2,7 − 2,1 = 0,6;
120

2013: 𝑅 = 40;  Độ trải giữa của tổ II:𝑅 = 𝑄 − 𝑄 = 3,3 − 1,5 = 1,8 ;


100

2014: 𝑅 = 65; 2013 2014  Độ trải giữa của tổ I lớn hơn của tổ II nên các mức lương trong tổ I
2015
2015: 𝑅 = 38.5; biến thiên nhiều hơn trong tổ II.

ĐỘ LỆCH TUYỆT ĐỐI TRUNG BÌNH PHƯƠNG SAI

∑  Phương sai tổng thể:


 MAD =
1
 Ví dụ. Tiền lương của hai tổ, mỗi tổ có 11 công nhân, được cho Var = 𝜎 = (𝑥 − 𝜇)
𝑁
trong bảng sau đây:
Tổ I: 0,9 1,2 1,5 1,8 2,1 2,4 2,7 3,0 3,3 3,6 3,9  Phương sai mẫu (hiệu chỉnh):
Tổ II: 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 ∑ 𝑥 −𝑥
𝑠̂ =
 Độ lệch tuyệt đối trung bình của hai tổ là 𝑛−1
Tổ I: MAD = 0,8181
 Phương sai mẫu:
Tổ II: MAD = 0,2727
∑ 𝑥 −𝑥
 Tiền lương của tổ 1 dao động nhiều hơn tiền lương của tổ 2, tiền 𝑠 =
𝑛−1
lương của tổ 2 đồng đều hơn.

19
16/07/2023

PHƯƠNG SAI MẪU CHO DỮ ĐỘ LỆCH CHUẨN


LIỆU NHÓM
∑ 𝑚 −𝑥 𝑓 Độ lệch chuẩn: là căn bậc hai của phương sai.
𝑠 =
𝑛−1
 Độ lệch chuẩn của tổng thể :
 𝑚 là giá trị (hay trị số) giữa của nhóm và
𝜎 = Var
bằng trung bình của nhóm.  Độ lệch chuẩn của mẫu :
 𝑥 là giá trị trung bình của mẫu. 𝑠= 𝑠
 𝑓 là tần số của nhóm tương ứng với 𝑚 .  Sự khác biệt giữa độ lệch chuẩn và phương sai: độ lệch chuẩn
sử dụng cùng một đơn vị với các quan sát nên dễ giải thích
 Phương sai tổng thể hơn.
∑ 𝑚 −𝜇 𝑓
𝜎 =
𝑁

HỆ SỐ BIẾN THIÊN  Ví dụ 6. Trong ngành tài chính, hệ số biến thiên thường được sử
dụng để đo mức độ rủi ro tương đối của các danh mục vốn đầu
tư. Chẳng hạn, một nhà kinh doanh xem xét hai danh mục đầu
tư: danh mục A bao gồm các khoản đầu tư có lợi nhuận trung
 Hệ số biến thiên đo lường độ phân tán tương đối bình 16% với độ lệch tiêu chuẩn là 4%; danh mục B có lợi
của dữ liệu khi so sánh với giá trị trung bình. nhuận trung bình 9% với độ lệch tiêu chuẩn 3%. Ta có
𝑠 4 3
CV = × 100% 𝐶𝑉 = . 100% = 25% ; 𝐶𝑉 = . 100% = 33%
𝑥 16 9
 Hệ số biến thiên dùng để so sánh độ phân tán của
 Mặc dù danh mục B có độ lệch tiêu chuẩn bé hơn, khiến ta có
hai tập dữ liệu với giá trị trung bình khác nhau. cảm giác lợi nhuận ít biến động hơn. Nhưng khi xem xét giá trị
 Khi hệ số biến thiên của hai tập dữ liệu được so CV lại cho kết luận danh mục B biến thiên nhiều hơn A.
sánh với nhau, hệ số biến thiên của tập nào lớn  Ngoài ra, hệ số biến thiên cũng hữu dụng khi so sánh hai tập dữ
liệu có đơn vị đo khác nhau vì hệ số biến thiên không phụ thuộc
hơn thì tập đó biến động nhiều hơn. vào đơn vị đo và được tính bằng %.

20
16/07/2023

Hướng dẫn sử dụng máy tính Casio fx-500MS, 570MS


HỆ SỐ BIẾN THIÊN – BÀI TẬP
1. Chọn phép tính thống kê: ấn MODE 2.
2. Xóa các bài thống kê cũ: ấn SHIFT CLR 1 =
 Ví dụ: Thống kê về cân nặng và chiều cao của lớp chúng ta, 3. Nhập dữ liệu: ấn liên tiếp
thu được số liệu như sau: x1 SHIFT ; n1 DT
x2 SHIFT ; n2 DT
Trung bình Độ lệch chuẩn
... ...
Cân nặng (kg) 50 3
xm SHIFT ; nm DT
Chiều cao (cm) 160 5 4. Gọi kết quả:
Tìm số Trung bình: SHIFT S-VAR 1 =
 Hỏi: Lớp này có chiều cao đồng đều hơn hay cân nặng đồng Độ lệch mẫu: SHIFT S-VAR 2 =
đều hơn? Độ lệch mẫu hiệu chỉnh: SHIFT S-VAR 3 =
(Phương sai: Ta lấy độ lệch bình phương).

Hướng dẫn sử dụng máy tính Casio fx-570ES Plus BÀI TẬP
 Bấm: Shift mode  4 (stat)
 Chọn: 1 (On)  Chọn ngẫu nhiên một số doanh nghiệp của hai ngành kinh doanh A
 Bấm: On và B, tỉ lệ lãi trên vốn (%) của các doanh nghiệp đó ghi nhận được
như sau:
 Bấm: mode 3 1(1-var)
 Màn hình hiện ra bảng nhập dữ liệu Ngành A 10,5 9 12 10 8,5 12,5 9,5
x1 n1 (Ta dùng dấu mũi tên Ngành B 8 12 15 10 16 5 6
x2 n2 di chuyển giữa 2 cột)
... ... a) Hãy tính tỉ lệ lãi trung bình của các doanh nghiệp ở mỗi ngành.
xm nm. b) Tìm khoảng biến thiên, độ trải giữa cho từng ngành.
 Bấm AC. c) Tìm độ lệch chuẩn, hệ số biến thiên cho từng ngành.
 Gọi kết quả: Shift 1 4(Var) màn hình hiện ra: d) Từ các kết quả trên, theo bạn, nếu là nhà đầu tư ta nên đầu tư vào
n, X TB, σ (độ lệch) S (độ lệch hiệu chỉnh) ngành nào?

21
16/07/2023

HÌNH DẠNG CỦA DỮ LIỆU PHƯƠNG PHÁP 1 SO SÁNH


TRUNG BÌNH VÀ TRUNG VỊ
Phương pháp 1: so sánh số trung bình và trung vị
 Ta có ba dạng phân phối sau đây: a) Đối xứng b) Lệch trái c) Lệch phải

a) Phân phối đối xứng (cân đối) khi 𝜇 = Med (hoặc 𝑋 = Med).

b) Phân phối lệch phải khi 𝜇 > Med > Mod (hoặc 𝑋 > Med >
Mod).

 = M e = Mo  < M e < Mo M o < Me < 


c) Phân phối lệch trái khi 𝜇 < Med < Mod (hoặc 𝑋 < Med < Mod).

 Ví dụ 10. Dưới đây là phân bố điểm thi THPT Quốc gia năm  Ví dụ 10. Dưới đây là phân bố điểm thi THPT Quốc gia năm
2018 tại TPHCM ở hai môn Toán và Anh. Hãy nhận xét hình 2018 tại TPHCM ở hai môn Toán và Anh. Hãy nhận xét hình
dáng phân phối của tập dữ liệu điểm thi này. dáng phân phối của tập dữ liệu điểm thi này.

22
16/07/2023

PHƯƠNG PHÁP 2: TÍNH ĐỘ HỆ SỐ SKEWNESS


LỆCH (SKEWNESS)
 Hệ số lệch Pearson (thứ hai)
3 𝑥 − Med
𝑠 =
𝑠
 Hệ số bất đối xứng
𝑛 𝑥 −𝑥
skewness = ∑
(𝑛 − 1)(𝑛 − 2) 𝑠

HỆ SỐ LỆCH PEARSON GIÁ TRỊ z (z-SCORES) – đọc thêm

 Có giá trị trong khoảng từ −3 đến 3.  Ví dụ: Thống kê về cân nặng và chiều cao của
 Hệ số lệch có giá trị gần −3 thì dữ liệu lệch lớp chúng ta, thu được số liệu như sau:
trái. Trung bình Độ lệch chuẩn
Cân nặng (kg) 50 3
 Hệ số lệch có giá trị gần với 3 thì dữ liệu lệch
Chiều cao (cm) 160 5
phải.
 Hệ số lệch có giá trị gần với 0 thì dữ liệu đối  Hỏi: Một bạn A có chiều cao là 165 cm và có cân
xứng. nặng 57 kg, hỏi so với trung bình chung của cả
lớp bạn A nặng nhiều hơn hay cao nhiều hơn
BAO NHIÊU?

23
16/07/2023

GIÁ TRỊ z (đọc thêm) VÍ DỤ GIÁ TRỊ z (đọc thêm)

 Giá trị 𝑧 cho ta biết vị trí tương đối của các  Ví dụ 8. Một học sinh có điểm thi môn Toán là 8,9 (thang điểm 10)
và điểm thi Anh văn là 89 (thang điểm 100). Ta muốn biết em đó
giá trị trong dữ liệu so với giá trị trung bình. học môn nào khá hơn so với các học sinh trong lớp.

𝑧 =
 Toán: 𝑋 = 5,7 và 𝑠 = 1,6; Anh văn: 𝑋 = 6,5 và 𝑠 = 17.
 Giá trị 𝑧 thường được gọi là giá trị chuẩn  Ta có thể tính được
hóa. Giá trị 𝑧 cho ta biết 𝑥 chênh lệch so với 8,9 − 5,7 89 − 65
𝑧 = =2; 𝑧 = = 1,4
1,6 17
trung bình bao nhiêu lần độ lệch chuẩn.
 Như vậy, so với học sinh trong lớp thì em học sinh đó học Toán khá
hơn.

VÍ DỤ (đọc thêm) VÍ DỤ (đọc thêm)


Phân xưởng I Phân xưởng II
 Một xí nghiệp có hai phân xưởng sản suất.
Năng suất Số công nhân Năng suất Số công nhân
Phân xưởng I Phân xưởng II lao động lao động
Năng suất Số công nhân Năng suất Số công nhân 15 12 15 4
lao động lao động 16 18 16 12
15 12 15 4 17 10 17 24
16 18 16 12 18 5 18 24
17 10 17 24 19 3 19 12
18 5 18 24 20 2 20 4
19 3 19 12
20 2 20 4
 Kết quả bấm máy tính cầm tay hoặc dùng Excel ta được:
 Đối với những công nhân của hai phân xưởng có năng suất lao 𝜇 = 16,5; 𝜎 = 1,33 𝜇 = 17,5; 𝜎 = 1,204
động 18, công nhân của phân xưởng nào được xem là có năng  Kết quả chuẩn hóa dữ liệu:
suất lao động cao hơn so với các công nhân trong phân xưởng , ,
của mình? 𝑧 = ,
= 1,128 𝑧 = ,
= 0,415

24
16/07/2023

QUY TẮC THỰC NGHIỆM QUY TẮC THỰC NGHIỆM

Đối với dữ liệu có phân phối hình chuông:


 Khoảng 66,67% của các dữ liệu sẽ nằm trong khoảng ±1 độ
lệch chuẩn so với giá trị trung bình (tức là các dữ liệu này có
− 1 ≤ 𝑧 ≤ 1.
 Khoảng 68,2% dữ liệu nằm trong khoảng
 Khoảng 95% của các dữ liệu sẽ nằm trong khoảng ±2 độ lệch (−𝜎, 𝜎).
chuẩn so với giá trị trung bình.
 Khoảng 95,2% dữ liệu nằm trong khoảng
 Khoảng 99% của các dữ liệu sẽ nằm trong khoảng ±3 độ lệch −2𝜎, 2𝜎 .
chuẩn so với giá trị trung bình.
 Khoảng 99,9% dữ liệu nằm trong khoảng
(−3𝜎, 3𝜎).

QUY TẮC THỰC NGHIỆM – VÍ DỤ QUY TẮC CHEBYSHEV (đọc thêm)

 Trọng lượng đóng gói của hộp carton đựng Ít nhất là (1 − 1/𝑧 ) số lượng giá trị dữ liệu
nước giặt thường có phân phối hình chuông. nằm trong 𝑧 độ lệch chuẩn so với trung bình.
Giả sử 𝜇 =16 ounce và 𝜎 =0,25 ounce. Thì  Áp dụng cho 𝑧 = 2, thì ta rút ra là có ít nhất
 Khoảng 67,67% các hộp sẽ có trọng lượng 0,75 (hay 75%) các giá trị dữ liệu nằm trong
nằm giữa 15,75 và 16,25 ounce. khoảng ±2 độ lệch chuẩn so với giá trị trung
 Khoảng 95% các hộp sẽ có trọng lượng nằm bình.
giữa 15,50 và 16,50 ounce.  Áp dụng cho 𝑧 = 3, 𝑧 = 4.

 Hầu hết các hộp sẽ có trọng lượng nằm giữa  Quy tắc Chebyshev không yêu cầu dữ liệu có
15,25 và 16,75 ounce. dạng hình chuông.

25
16/07/2023

II.4. TƯƠNG QUAN GIỮA HAI BIẾN 1. Khái niệm


(ôn tập)  Tương quan cho thấy mối liên hệ của các biến kinh tế. Để đơn
giản, trong mục này chúng ta chỉ xét quan hệ giữa hai biến. Có
3 dạng quan hệ tuyến tính sau:
1. Hiệp phương sai mẫu

2. Hệ số tương quan

3. Bảng tương quan mẫu

4. Hệ số tương quan mẫu

 Ví dụ 1. Để xem xét mối liên hệ giữa số lượng các quảng cáo  Biểu diễn dữ liệu trên đồ thị phân tán, chúng ta nhận thấy rằng
được chiếu trên TV và doanh số bán hàng của một mặt hàng, số lượng các quảng cáo xuất hiện trên TV và doanh số bán
người ta thu thập dữ liệu trong 10 tuần và cho kết quả sau: hàng của mặt hàng này có mối liên hệ tuyến tính thuận. Điều
đó có nghĩa là việc xuất hiện càng nhiều lần quảng cáo thì
doanh số bán hàng càng cao.

26
16/07/2023

HIỆP PHƯƠNG SAI HỆ SỐ TƯƠNG QUAN

 Đối với một mẫu kích thước 𝑛 với các quan  Đối với một mẫu kích thước 𝑛 với các quan
sát 𝑥 , 𝑦 , (𝑥 , 𝑦 ), …, hiệp phương sai mẫu sát 𝑥 , 𝑦 , (𝑥 , 𝑦 ), …, hệ số tương quan
được định nghĩa như sau mẫu được định nghĩa như sau
∑ 𝑥 −𝑥 𝑦 −𝑦 𝑠
𝑠 = 𝑟 =
𝑛−1 𝑠 𝑠
 Hiệp phương sai tổng thể  Hiệp phương sai tổng thể
∑ 𝑥 −𝜇 𝑦 −𝜇 𝜎
𝜎 = 𝜌 =
𝑁 𝜎 𝜎

HỆ SỐ TƯƠNG QUAN 3. Bảng tương quan mẫu


 Cho một mẫu kích thước n. Quan sát đồng thời X và Y ta được
bảng sau đây, được gọi là bảng tương quan mẫu

Y y1 y2 ... yh ni
 Với mọi đại lượng ngẫu nhiên, ta có −1 ≤ 𝑟 ≤ 1. X
 Trường hợp 𝑟 = 0 ta nói 𝑥 và 𝑦 không tương quan với x1 n11 n12 ... n1h n1
nhau. x2 n21 n22 ... n2h n2
 Trường hợp 𝑟 = ±1 ta nói 𝑥 và 𝑦 có tương quan tuyến ... ... ... ... ... ...
tính. xk nk1 nk2 ... nkh nk
mj m1 m2 ... mk Σ=n

27
16/07/2023

 Ví dụ 2. Cho lượng nước mưa ở hai địa phương quan sát 


tại 10 thời điểm khác nhau, ta được bảng số liệu sau đây

xi 87 47 74 86 38 15 41 8 79 75
yj 86 56 84 72 47 17 43 19 88 78 (Sử dụng để
tính 𝒓𝑿𝒀 xem tài
liệu trang 31)
Hãy tính 𝑟 . .

X
Y

Củng cố KEYWORDS
 Các đại lượng đo lường khuynh hướng tập trung:
Trung bình cộng, mode, trung vị  Trung bình (mean)  Biểu đồ tròn
 Trung vị (median)  Biểu đồ histogram
 Các đại lượng đo độ phân tán: Khoảng biến thiên, độ  Mod (mode)  Phân cụm (nhóm) dữ
trải giữa, tứ phân vị, phương sai, độ lệch chuẩn, hệ số  Phương sai (var) liệu
biến thiên, chuẩn hóa dữ liệu Các hàm thông dụng
 Độ lệch chuẩn 

(deviation) trong Excel


 Khảo sát hình dáng tập dữ liệu
 Hệ số tương quan
(correlation coeff.)
 Tương quan giữa hai biến
 Biểu đồ thanh

28

You might also like