You are on page 1of 77

NỘI DUNG HỌC PHẦN

 Bài 1. Khái niệm cơ bản


 Bài 2. Thống kê mô tả
 Bài 3. Phân phối Mẫu
 Bài 4. Ước lượng điểm
 Bài 5. Ước lượng khoảng
 Bài 6. Kiểm định giả thuyết một tham số
 Bài 7. Suy diễn trên hai mẫu
 Bài 8. Phân tích phương sai
 Bài 9. Kiểm định phi tham số
 Bài 10. Giới thiệu thống kê Bayes
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 1
BÀI 2. THỐNG KÊ MÔ TẢ
 Descriptive Statistics
 Trực quan hóa dữ liệu qua Bảng biểu, đồ thị: (Data
Vizualization: tabling, graphing)
 Thống kê mô tả bằng số (Numerical statistics)
• Nhóm định vị
• Nhóm đo độ phân tán
• Nhóm thể hiện hình dáng
• Nhóm đo mức độ tương quan

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 2


2.1. BẢNG & ĐỒ THỊ
 Bảng Tần số, tần suất, tích lũy
 Đồ thị tròn
 Đồ thị cột
 Đồ thi phân phối giá trị
 Đồ thị đường
 Đồ thị ra đa
 Đồ thị rải điểm
 Đồ thị bong bóng

PROBABILITY & STATISTICS– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 3


Dữ liệu thô
VD 2.1. Dữ liệu về khách hàng n = 50 quan sát
No. Sex (Male / Age Waiting time Evaluation
Female) (year) (Minute) (VG, G, F, B)
1 Female 43 15 to 20 Bad
2 Male 23 0 to 5 Good
3 Female 36 5 to 10 Very Good

50 Female 28 10 to 15 Fair

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 4


Tần số & Tần suất (Frequency)
 Tần số của giới tính (Frequency table of Gender)
Sex Male Female
Frequency 20 30

 Tần suất (proportion):

Sex Male Female


Relative frequency 0.4 0.6
Proportion, percent 40% 60%

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 5


Đồ thị tròn - Pie chart
Gender
Sex Male Female
Male
Freq. 20 30 20
Female
% 40% 60% 30
60%
40%

Evaluation
Evalua Very
Good Fair Bad
tion Good Very Good Good 6
12% 10
20%
Freq. 10 25 9 6 Fair Bad
9
18%
% 20% 50% 18% 12%
25
50%

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 6


Đồ thị cột - Column chart

Evaluation
Evaluation Freq. % 30
Very Good 10 20%
25
Good 25 50% 25

Fair 9 18% 20
Bad 6 12%
TOTAL 50 100% 15

10
10 9
6
5

0
Very Good Good Fair Bad

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 7


Bảng hai chiều & Đồ thị cột
Evaluation Very Good Good Fair Bad Sum
Male 6 11 2 1 20
Female 4 14 7 5 30
Sum 10 25 9 6 50

Evaluation by Gender Gender by Evaluation


16
14
14 14
12 11
10 11

8 7
6 7
6 5
4 6
4 5
2 4
2 1
2
0 1
MALE FEMALE Very Good Good Fair Bad

Very Good Good Fair Bad Male Female

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 8


Bảng hai chiều – Stacked column
Evaluation Very Good Good Fair Bad Sum
Male 6 11 2 1 20
Female 4 14 7 5 30
Sum 10 25 9 6 50

Evaluation by Gender Gender by Evaluation


35
30
5 14
25
7
20 1
2
15
11 14 11
10 4 7
5 6 5
6 4
0 2 1
MALE FEMALE Very Good Good Fair Bad

Very Good Good Fair Bad Male Female

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 9


Bảng hai chiều: % theo tổng số
Evaluation Very Good Good Fair Bad Sum
Male 12% 22% 4% 2% 40%
Female 8% 28% 14% 10% 60%
Sum 20% 50% 18% 12% 100%

Evaluation by Gender Gender by Evaluation


70%
28%
60%
10%
50% 22%
14%
40% 2%
4%
30% 14%
22% 12%
20% 28% 10%
8%
10%
12% 8% 4%
0% 2%
MALE FEMALE Very Good Good Fair Bad

Very Good Good Fair Bad Male Female

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 10


Bảng hai chiều: % theo cột
Evaluation Very Good Good Fair Bad TOTAL
Male 60% 44% 22% 17% 40%
Female 40% 56% 78% 83% 60%
Sum 100% 100% 100% 100% 100%

Gender by evaluation Gender by Evaluation


100% 40% 56% 78% 83%
90% 83%
80% 78%
70%
60%
60% 56%
60%
50% 44%
40%
40% 44%
30% 22%
20% 17%
22%
10% 17%
0%
Very Good Good Fair Bad Very Good Good Fair Bad

Male Female Male Female

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 11


Bảng hai chiều: % theo dòng
Evaluation Very Good Good Fair Bad Sum
Male 30% 55% 10% 5% 100%
Female 13% 47% 23% 17% 100%
GRAND 20% 50% 18% 12% 100%

Evaluation by Gender Evaluation by Gender


60% 55% 5%
10% 17%
50% 47%
23%
40%
30% 55%
30%
23%
17% 47%
20%
13%
10%
10% 5% 30%
13%
0%
MALE FEMALE MALE FEMALE

Very Good Good Fair Bad Very Good Good Fair Bad

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 12


Biến định lượng: Đồ thị cột
Age 23 26 28 32 35 36 38 40 43 47 50 54 58 63 Sum
Freq. 1 2 2 2 4 3 5 8 7 4 5 4 2 1 50
% 2% 4% 4% 4% 8% 6% 10% 16% 14% 8% 10% 8% 4% 2% 100%

9 Age of customer
8
8
7
7
6
5
5 5
4
4 4 4
3
3
2
2 2 2 2
1
1 1
0
23 26 28 32 35 36 38 40 43 47 50 54 58 63

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 13


Biến định lượng: Đồ thị cột
Age 23 26 28 32 35 36 38 40 43 47 50 54 58 63 Sum
Freq. 1 2 2 2 4 3 5 8 7 4 5 4 2 1 50
% 2% 4% 4% 4% 8% 6% 10% 16% 14% 8% 10% 8% 4% 2% 100%

9 Age of customer
8
8
7
7
6
5
5 5
4
4 4 4
3
3
2
2 2 2 2
1
1 1
0
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 14


Đồ thị cột: số liệu theo nhóm
Age 20 – 25 – 30 – 35 – 40 – 45 – 50 – 55 – 60 –
Sum
24 29 34 39 44 49 54 59 64
Freq. 1 4 2 12 15 4 9 2 1 50
% 2% 8% 4% 24% 30% 8% 18% 4% 2% 100%

Age of customer

30%

24%

18%

8% 8%
4% 4%
2% 2%
20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 15


Đồ thị phân phối giá trị (Histogram)
Age 20 – 29 30 – 39 40 – 49 50 – 59 60 – 69 Sum
Freq. 5 14 19 11 1 50
% 10% 28% 38% 22% 2% 100%

Age of customer
38%

28%

22%

10%

2%
20-29 30-39 40-49 50-59 60+

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 16


Histogram – Đồ thị tích lũy
Age Freq. % Cumula Customer’s Age
tive
40% 38% 100%100%
98%
20-29 5 10% 10% 35%
90%

80%
30% 76%
30-39 14 28% 38% 28%
70%
25%
22% 60%
40-49 19 38% 76% 20% 50%

40%
50-59 11 22% 98% 15% 38%

10% 30%
10%
60+ 1 2% 100% 20%
5% 10%
2% 10%

 Also called: Ogive, 0%


20-29 30-39 40-49 50-59 60+
0%

Pareto chart % Cumulative %

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 17


Histogram
Waiting time (minute)
Waiting Cumula 25 100%100%
time Freq % tive 96% 90%
20 86%
20 80%
[0 – 5) 15 30% 30%
70% 70%
15
[5 – 10) 20 40% 70% 15 60%

50%
[10 – 15) 8 16% 86% 10 40%
8
30% 30%
[15 – 20) 5 10% 96% 5
5 20%

2 10%
20+ 2 4% 100%
0 0%
0-5 5 - 10 10 -15 15 - 20 20 +

Freq. Cummulative %

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 18


Dạng phân phối (Shape)
 Symmetric and Asymmetric distribution

Lệch trái (âm) Đối xứng Lệch phải (dương)


Left skewed Hình chuông Positively skewed
Negatively skewed Right skewed
(Bell shaped)

Bất đối xứng


THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 19
Đồ thị đường cho chuỗi thời gian
Sales of product A and B over time
A B
70

60

50

40

30

20

10
q 1 q2 2q3 2q4 3q1 3q2 3q3 3q4 4q1 4q2 4q3 4q4 5q1 5q2 5q3 5q4 6q1 6q2 6q3 6q4
12 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
20 2 0 2 0 2 0 2 0 20 2 0 2 0 20 2 0 2 0 20 2 0 2 0 2 0 20 2 0 2 0 20 2 0

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 20


Kết hợp các đồ thị
 VN Index and Volume of transaction

Vietnam Stock Exchange


700 1060
1040
600
1020
500 1000
400 980
960
300 940
200 920
900
100
880
0 860
7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8
2/1 2/1 2/1 2/1 2/1 2/1 2/1 2/1 2/1 2/1 2/1 201 201 201 201 201 201 201 201 201
/1 8/1 9/1 0/1 1/1 2/1 5/1 6/1 7/1 8/1 9/1 /1/ /1/ /1/ /1/ /1/ /1/ /1/ /1/ /1/
15 1 1 2 2 2 2 2 2 2 2 2 3 4 5 8 9 10 11 12

Volume (VND. Bil.) VN Index

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 21


Đồ thị Radar (Spider web)
 Các biến có có cùng độ đo
Staff Employee Evaluation
Dimension
A B Knowledge

Knowledge 50 80 Loyalty 80 Skill


85 50
Skill 50 90 50 90

Learning 60 80 30
60
50 80
Discipline 65 75 Harmony 90 60 65 Learning

Attitude 80 60 80
75

Harmony 90 50 Attitude Discipline

Loyalty 85 30
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 22
Đồ thị rải điểm
 Với số liệu theo cặp (pair data)

Labor Output Labor Output Output – Labor relationship


11 80 15 250 300

11 130 16 220 250

12 150 17 210 200

Output
13 110 18 240 150

100
13 150 18 200
50
13 200 17 260
0
15 170 19 240 10 11 12 13 14 15 16 17 18 19 20

Labor
14 180 19 280
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 23
Mối quan hệ - Tương quan (correlation)
 Giữa hai biến định lượng
r = 0.5 Positively
Week
Strong r = 0.8

Negatively r=0

No
r = – 0.5 correlated

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 24


Đồ thị bong bóng

Project R&D Adv. Profit Profit vs R&D and Advertising


60

A 30 35 50 50 C, [BUBBLE SIZE]
D, [BUBBLE SIZE]
B 40 25 40 40
A, [BUBBLE SIZE]

Advertising
F, [BUBBLE SIZE]
C 45 50 18 30
B, [BUBBLE SIZE]
20
D 15 45 22
10 E, [BUBBLE SIZE]
E 50 10 15
0
5 10 15 20 25 30 35 40 45 50 55
F 10 30 20 R&D

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 25


2.2. CÁC THỐNG KÊ MÔ TẢ
 Nhóm xu thế trung tâm (Central Tendency)
 Nhóm định vị (Location)
 Nhóm đo độ phân tán (Variability)
 Nhóm hình dạng (Shape)
 Nhóm mối liên hệ (Relationship)

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 26


Ví dụ (so sánh)
Profit of Project A (million)
Ví dụ 2.2.
30%
 Lợi nhuận hai
20% 20%
dự án A và B 15%
10%
 Đơn vị: triệu 5%
USD 1 2 3 4 5 6

Profit of Project B (million)


30%

20% 20%
15%
10%
5%

1 2 3 4 5 6

PROBABILITY & STATISTICS– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 27


So sánh
Profit of Project C (million)
30%

20% 20%
15%

8%
5%
2%
0% 0%
1 2 3 4 5 6 7 8 9

Profit of Project D (million)


30%

20% 20%
15%

8%
5%
2%
0% 0%
1 2 3 4 5 6 7 8 9

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 28


So sánh
Profit of Project E (million)

20% 20%
15% 15%
10% 10%
5% 5%

-1 0 1 2 3 4 5 6

Profit of Project F (million)


40% 40%

10% 10%

0% 0% 0% 0%
-1 0 1 2 3 4 5 6

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 29


Các đại lượng
 Xu thế trung tâm (central tendency)
• Trung bình, Trung vị, Mốt
 Giá trị định vị (location)
• Giá trị tối thiểu, tối đa, Tứ phân vị
 Độ dao động (variability)
• Khoảng giá trị, khoảng tứ phân vị
• Phương sai, Độ lệch chuẩn, hệ số biến thiên
 Dạng phân phối (shape)
• Hệ số bất đối xứng, Hệ số nhọn
 Đo mối quan hệ (relationship)
• Hiệp phương sai, hệ số tương quan
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 30
2.2.1. Trung bình (Mean)
 Cho biến định lượng

Tổng thể Mẫu


Số liệu: Số liệu:

 Cùng đơn vị với biến gốc

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 31


Trung bình có trọng số (weighted mean)
 Giá bán ($) trong bốn quý 1, 2, 3, 4 là 10, 12, 18, 14.

 Trung bình nếu lượng bán trong bốn quý lần lượt là
70, 90, 110, 130?
Q1 Q2 Q3 Q4 Value xi
Price 10 12 18 14
Volume 70 90 110 130 Weight wi

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 32


Weighted Mean
 Tổng quát, các nhóm với trọng số:

 Ví dụ trên

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 33


Trung bình số liệu theo nhóm
 Mỗi nhóm có tần số, tần suất, phần trăm

Wage ($) 7 8 9
Number of worker 4 10 6
(Frequency)
Proportion 0.2 0.5 0.3
(Relative frequency)
Percent 20% 50% 30%

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 34


So sánh các trung bình
Ví dụ 2.3. So sánh trung bình của hai số liệu sau
 Data 1: {10, 10, 11, 12, 12}
 Data 2: {5, 5, 6, 6, 100}

 Trung bình dễ bị ảnh hưởng bởi các giá trị cực trị của
số liệu, các giá trị ngoại lai (extreme values, outliers)
 Có thể dẫn đến đánh giá chệch (bias)

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 35


2.2.2. Trung vị (Median)
 Trung vị, ký hiệu là me, là điểm giữa của số liệu đã
được xếp thứ tự
 Trung vị có thể dùng cho biến thứ bậc

Ví dụ 2.4. Data: { 5, 6, 9, 5, 6 }
Ordered data: { 5, 5, 6, 6, 9 } : Median =
Ordered Data {6, 6, 7, 8, 9, 11} : Median =
 Data: {XXS, XS, S, S, S, M, L, XL, XXL}: Median =

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 36


Trung vị
 Median is the ‘cutoff point’ of lower 50% - upper 50%
parts
Discrete vs Continous

Lower
50%
Upper
50%

Discrete Continuous

Median
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 37
2.2.3. Mốt (Mode)
 Mốt, kí hiệu m0, là giá trị xảy ra với tần số, tần suất lớn
nhất trong số liệu.
 Có thể không có Mốt, hoặc có nhiều Mốt.
 Mốt có thể áp dụng cho biến định danh

 Ví dụ 2.5. Tìm mốt?


• Data 1: { 5, 6, 6, 7, 7, 7, 9 }
• Data 2: { 5, 6, 7, 8, 9 }
• Data 3: { 5, 6, 9, 5, 6 }
• Data 4: { Yellow, Yellow, Red, Blue, Green}
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 38
Mean, Median, Mode
No Mode
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Median = 3 Mean = 3 Median = 3 Mean = 4

0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10

Mean = 4.8 Mode: 7


Mean = Median =
Mode = 5 Median = 5.5
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 39
Mean, Median, Mode
Left skewed Symmetric Right skewed

Mean
Median
Mean < Median < Mode Mode Mode < Median < Mean

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 40


Số liệu nhóm theo khoảng (Grouped
data)
Ví dụ 2.6.
 Customer’s waiting time
Waiting time 0–5 5 – 10 10 – 15 15 – 20 20 +
Frequency 15 20 8 5 2

 Trung vị nằm trong nhóm [5 – 10)


 Nhóm mốt:
 Trung bình: sử dụng giá trị ở giữa
Waiting time 2.5 7.5 12.5 17.5 22.5
Frequency 15 20 8 5 2

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 41


2.2.4. Phân vị (Quantile)
 Ý tưởng: chia số liệu làm 4 phần bằng nhau bởi 3 điểm
chia  3 Tứ phân vị

25% 25% 25% 25%


 Tứ phân vị thứ hai là trung vị

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 42


Phân vị
 Chia làm 5 phần bởi 4 điểm: 4 Ngũ phân vị (quintile)
 Chia làm 10 phần bởi 9 điểm: 9 Thập phân vị (decile)
 100 phần: 99 bách phân vị (percentile)

• 10th percentile = 1st decile


• 20th percentile = 2nd decile = 1st quintile
• 25th percentile = 1st quartile
• 50th percentile = 2nd quartile = median

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 43


Cách tính Phân vị
 Số liệu xếp theo thứ tự tăng dần
 Phân vị mức , kí hiệu , được tính
 Vị trí

Ví dụ 2.7. Tìm tứ phân vị của số liệu:


10, 10, 12, 13, 16, 18, 20, 26

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 44


Hàm Excel và R
Measures Excel R
Mean average(data) mean(data)
Median median(data) median(data)
Mode mode(data) mode(data)
Tứ phân vị quartile(data, k)
Phân vị percentile(data, ) quantile(data, )

In R:
> data <- c(10, 10, 12, 13, 16, 18, 20, 26)
> quantile(data, 0.25)
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 45
Đo độ phân tán
Ví dụ 2.8.
 So sánh giá trị trung 0 1 2 3 4 5 6 7 8 9
tâm, giá trị định vị
 Cùng trung bình, trung 0 1 2 3 4 5 6 7 8 9
vị; nhưng khác nhau ở
độ phân tán 0 1 2 3 4 5 6 7 8 9

0 1 2 3 4 5 6 7 8 9

Mean = Median = 5

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 46


2.2.5. Khoảng giá trị (Range)
 Hay khoảng biến thiên

 Đơn giản nhưng ít thông tin

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Range = 7 Range = 6

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 47


2.2.6. Phương sai (Variance)
 Số liệu mẫu:  mean
 Chênh lệch (deviation): : (+), (–) hoặc (=0)
 Tổng bình phương (Sum of Squares):

 Phương sai (Variance):

 Đơn vị của Variance là bình phương đơn vị của

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 48


Phương sai mẫu
 Chứng minh được:

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 49


Độ lệch chuẩn mẫu (Standard
Deviation)
 Độ lệch chuẩn là căn của phương sai

 Độ lệch chuẩn có cùng đơn vị với


 Phương sai và độ lệch chuẩn đo độ biến động “tuyệt
đối” của biến
 Nếu thì:
• là dao động, biến động, phân tán hơn
• đồng đều, ổn định hơn

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 50


Phương sai và độ lệch chuẩn
 Khác biệt giữa Tổng thể và Mẫu
Population Sample
Data

Mean

SS
Variance

Std. Dev.

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 51


So sánh biến động
Ví dụ 2.9. So sánh 3 mẫu về độ biến động
 Firm A: Profit ($ mil.): ( 5, 6, 7, 8, 9 )
 Firm B: Profit ($ mil.): ( 51, 53, 55, 57, 59 )
 Firm C: Price ($): ( 15, 16, 17, 18, 19 )

Mean SS S2 S CV
A
B
C
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 52
2.2.7. Hệ số biến thiên
 Coefficient of Variation

 CV đơn vị là %.
 CV đo độ biến động “tương đối”
 CV có thể dùng so sánh các biến không cùng đơn vị

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 53


Tính chất
 Với là hằng số, số liệu

Trung bình

Phương sai

Độ lệch chuẩn

Hệ số biến thiên

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 54


Ví dụ
Ví dụ 2.10. Tính trung bình, phương sai của 2 mẫu sau:
 Mẫu 1: (901, 902, 903, 904, 905)
 Mẫu 2: (1300, 1400, 1500, 1600, 1700)
Ví dụ 2.11. Điều tra hai mẫu 1 và 2, với kích thước , thu
được trung bình mẫu và phương sai .
 Nếu gộp hai mẫu lại, thì trung bình, phương sai mẫu
gộp bằng bao nhiêu?
 Tổng quát, có mẫu kích thước, trung bình, phương
sai , khi gộp lại thì trung bình, phương sai bao nhiêu?

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 55


2.2.8. Khoảng tứ phân vị (IQR)
 (Interquartile Range)

 IQR là độ rộng khoảng chứa 50% giá trị ở giữa

25% 25% 25% 25%

IQR
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 56
Giá trị ngoại lai (Outlier)
 Có hai ngưỡng dưới và trên (lower limit, upper limit)
 Giá trị nhỏ hơn ngưỡng dưới, lớn hơn ngưỡng trên là
Outlier
 Tính theo Tứ phân vị:
• Ngưỡng dưới (LL)
• Ngưỡng trên (UP)

 5 điểm định vị cho số liệu

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 57


Đồ thị hộp (Box plot)
 Xác định các điểm định vị, và giá trị ngoại lai
Salary 10 11 12 13 14 15 16 17 18
No. of Worker 10 16 30 19 14 10 0 0 1

 Boxplot

𝑚𝑖𝑛 𝑄1 𝑄2 𝑄3 𝑚𝑎𝑥
𝑜𝑢𝑡𝑙𝑖𝑒𝑟
1.5 𝐼𝑄𝑅 1.5 𝐼𝑄𝑅
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 58
Table, Histogram, Boxplot
Value Freq.
Salary
10 10 35

11 16 30

12 30 25

20
13 19 15

14 14 10

15 10 5

0
16 0 10 11 12 13 14 15 16 17 18

17 0
18 1
10 11 12 13.75
18
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 59
Boxplot : Key values and Whiskers
A B C D E F

Max 6 6 7 9 6 4

Q3 5 4 6 6 4 3

Q2 4.5 2.5 5.5 4.5 2.5 2.5

Q1 3 2 4 4 1 2

Min 1 1 1 3 -1 1

4.2 2.8 5.16 4.84 2.5 2.5

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 60


Boxplot
2017 2018 2019 2020

Max

Q3

Q2

Q1

Min

Mean

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 61


2.2.9. Hệ số bất đối xứng (Skewness)
 Đo độ bất đối xứng (lệch) của phân phối, trong mẫu

 : lệch phải, lệch dương (right skewed, positively


skewed), đuôi phải
 : lệch trái, lệch âm (left skewed, negatively skewed),
đuôi trái
 : đối xứng, hai đuôi

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 62


Hệ số bất đối xứng (Skewness - Sk)

Sk = – 0.3 Sk = 0 Sk = 0.3
Left short tail Two-tail Right short tail

Sk = – 1.3 Sk = 1.3
Left long tail Right long tail
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 63
2.2.10. Hệ số nhọn (Kurtosis)
 Đo độ nhọn so với phân phối chuẩn

 : nhọn hơn Chuẩn


 : tù hơn Chuẩn
 : độ nhọn như Chuẩn

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 64


2.2.11. Hiệp phương sai (Covariance)
 Hiệp phương sai mẫu:

Positive covariance Negative covariance


Mean of Y

Mean of Y

Mean of X Mean of X

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 65


Hệ số tương quan (Correlation coefficient)

 , không có đơn vị
 đo mức độ tương quan tuyến tính của và
• : tuyến tính âm
• : tương quan âm
• : không tương quan
• : tương quan dương
• : tuyến tính dương

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 66


Hệ số tương quan
 Độ tương quan
r = 0.5 Positively
Week
Strong r = 0.8

Negatively r=0

No
r = – 0.5 correlated

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 67


Correlation Coefficient
Ví dụ 2.12. X: Advertising; Y: sales

Jan 5 10
Feb 6 15
Mar 8 10
Apr 9 18
May 12 32
Sum 40 85
Mean 8 17
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 68
2.2.12. Giá trị chuẩn hóa (Standardized)
 Còn gọi là - của một giá trị

Ví dụ 2.13. So sánh tiền công và thời gian lao động

Người I Trung bình Độ lệch chuẩn


Tiền công 24 20 2.5
Thời gian 44 40 1.6

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 69


2.2.13. Số liệu theo nhóm
Giá trị :
Tần số:


THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 70


Số liệu theo nhóm
Ví dụ 2.14.
10 12 14 16 18 20
3 7 8 10 8 4

 Đồ thị histogram
 Kích thước mẫu, tối thiểu, tối đa
 Trung bình, trung vị, mốt?
 Phương sai, độ lệch chuẩn, hệ số biến thiên?
 Tứ phân vị, khoảng tứ phân vị, boxplot
 Hệ số bất đối xứng, hệ số nhọn
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 71
Số liệu theo nhóm

10 3
12 7
14 8
16 10
18 8
20 4

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 72
Số liệu theo nhóm
 Histogram & Box plot Statistics
 =
Series 1
12  =
10
10
 =
8 8
8
7  =
6

4
 =
4
3
 =
2

0
 =
10 12 14 16 18 20
 =
 =
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 73
R: Statistic Functions for Sample
Statistic Excel R
Kích thước = count(var) > length(var)
Tổng = sum(var) > sum(var)
Trung bình = average(var) > mean(var)
Trung vị = median(var) > median(var)
Mốt = mode(var)
Tứ phân vị = quartile.exc(var, )
Phân vị = percentile(var, > quantile(var, )
Phương sai mẫu = var(var) > var(var)
Độ lệch chuẩn mẫu = stdev(var) > sd(var)
Hiệp phương sai mẫu = covariance.s(var1, var2) > cov(var1, var2)
Hệ số tương quan = correl(var1, var2) > cor(var1, var2)

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 74


Tổng hợp - Excel X
Mean 7.8
 Data Analysis Standard Error 1.2
Median 8
  Descriptive Statistics Mode 8
Standard Deviation 2.683
Sample Variance 7.2
Kurtosis 1.238
Jan 5 Skewness 0.999
Range 7
Feb 6 Minimum 5
Maximum 12
Mar 8 Sum 39
Count 5
Apr 8 Confidence (95.0%) 3.332
May 12

THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 75


Tổng hợp - R
> x <- c(5, 6, 8, 8, 12)
> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
5.0 6.0 8.0 7.8 8.0 12.0

> y <- c(10, 12, 15, 11, 8)


> cor(x,y)
[1] -0.3887408
> data <- data.frame(x,y)
> install.packages("pastecs") # from R 4.0.2
> library(pastecs)
> stat.desc(data)
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 76
Tổng hợp - R
x y
nbr.val 5.0000000 5.0000000
nbr.null 0.0000000 0.0000000
nbr.na 0.0000000 0.0000000
min 5.0000000 8.0000000
max 12.0000000 15.0000000
range 7.0000000 7.0000000
sum 39.0000000 56.0000000
median 8.0000000 11.0000000
mean 7.8000000 11.2000000
SE.mean 1.2000000 1.1575837
CI.mean.0.95 3.3317341 3.2139676
var 7.2000000 6.7000000
std.dev 2.6832816 2.5884358
coef.var 0.3440105 0.2311103
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 77

You might also like