Professional Documents
Culture Documents
Thống Kê Toán - Lec02
Thống Kê Toán - Lec02
Evaluation
Evalua Very
Good Fair Bad
tion Good Very Good Good 6
12% 10
20%
Freq. 10 25 9 6 Fair Bad
9
18%
% 20% 50% 18% 12%
25
50%
Evaluation
Evaluation Freq. % 30
Very Good 10 20%
25
Good 25 50% 25
Fair 9 18% 20
Bad 6 12%
TOTAL 50 100% 15
10
10 9
6
5
0
Very Good Good Fair Bad
8 7
6 7
6 5
4 6
4 5
2 4
2 1
2
0 1
MALE FEMALE Very Good Good Fair Bad
Very Good Good Fair Bad Very Good Good Fair Bad
9 Age of customer
8
8
7
7
6
5
5 5
4
4 4 4
3
3
2
2 2 2 2
1
1 1
0
23 26 28 32 35 36 38 40 43 47 50 54 58 63
9 Age of customer
8
8
7
7
6
5
5 5
4
4 4 4
3
3
2
2 2 2 2
1
1 1
0
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63
Age of customer
30%
24%
18%
8% 8%
4% 4%
2% 2%
20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64
Age of customer
38%
28%
22%
10%
2%
20-29 30-39 40-49 50-59 60+
80%
30% 76%
30-39 14 28% 38% 28%
70%
25%
22% 60%
40-49 19 38% 76% 20% 50%
40%
50-59 11 22% 98% 15% 38%
10% 30%
10%
60+ 1 2% 100% 20%
5% 10%
2% 10%
50%
[10 – 15) 8 16% 86% 10 40%
8
30% 30%
[15 – 20) 5 10% 96% 5
5 20%
2 10%
20+ 2 4% 100%
0 0%
0-5 5 - 10 10 -15 15 - 20 20 +
Freq. Cummulative %
60
50
40
30
20
10
q 1 q2 2q3 2q4 3q1 3q2 3q3 3q4 4q1 4q2 4q3 4q4 5q1 5q2 5q3 5q4 6q1 6q2 6q3 6q4
12 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
20 2 0 2 0 2 0 2 0 20 2 0 2 0 20 2 0 2 0 20 2 0 2 0 2 0 20 2 0 2 0 20 2 0
Learning 60 80 30
60
50 80
Discipline 65 75 Harmony 90 60 65 Learning
Attitude 80 60 80
75
Loyalty 85 30
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 22
Đồ thị rải điểm
Với số liệu theo cặp (pair data)
Output
13 110 18 240 150
100
13 150 18 200
50
13 200 17 260
0
15 170 19 240 10 11 12 13 14 15 16 17 18 19 20
Labor
14 180 19 280
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 23
Mối quan hệ - Tương quan (correlation)
Giữa hai biến định lượng
r = 0.5 Positively
Week
Strong r = 0.8
Negatively r=0
No
r = – 0.5 correlated
A 30 35 50 50 C, [BUBBLE SIZE]
D, [BUBBLE SIZE]
B 40 25 40 40
A, [BUBBLE SIZE]
Advertising
F, [BUBBLE SIZE]
C 45 50 18 30
B, [BUBBLE SIZE]
20
D 15 45 22
10 E, [BUBBLE SIZE]
E 50 10 15
0
5 10 15 20 25 30 35 40 45 50 55
F 10 30 20 R&D
20% 20%
15%
10%
5%
1 2 3 4 5 6
20% 20%
15%
8%
5%
2%
0% 0%
1 2 3 4 5 6 7 8 9
20% 20%
15%
8%
5%
2%
0% 0%
1 2 3 4 5 6 7 8 9
20% 20%
15% 15%
10% 10%
5% 5%
-1 0 1 2 3 4 5 6
10% 10%
0% 0% 0% 0%
-1 0 1 2 3 4 5 6
Trung bình nếu lượng bán trong bốn quý lần lượt là
70, 90, 110, 130?
Q1 Q2 Q3 Q4 Value xi
Price 10 12 18 14
Volume 70 90 110 130 Weight wi
Ví dụ trên
Wage ($) 7 8 9
Number of worker 4 10 6
(Frequency)
Proportion 0.2 0.5 0.3
(Relative frequency)
Percent 20% 50% 30%
Trung bình dễ bị ảnh hưởng bởi các giá trị cực trị của
số liệu, các giá trị ngoại lai (extreme values, outliers)
Có thể dẫn đến đánh giá chệch (bias)
Ví dụ 2.4. Data: { 5, 6, 9, 5, 6 }
Ordered data: { 5, 5, 6, 6, 9 } : Median =
Ordered Data {6, 6, 7, 8, 9, 11} : Median =
Data: {XXS, XS, S, S, S, M, L, XL, XXL}: Median =
Lower
50%
Upper
50%
Discrete Continuous
Median
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 37
2.2.3. Mốt (Mode)
Mốt, kí hiệu m0, là giá trị xảy ra với tần số, tần suất lớn
nhất trong số liệu.
Có thể không có Mốt, hoặc có nhiều Mốt.
Mốt có thể áp dụng cho biến định danh
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
Mean
Median
Mean < Median < Mode Mode Mode < Median < Mean
In R:
> data <- c(10, 10, 12, 13, 16, 18, 20, 26)
> quantile(data, 0.25)
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 45
Đo độ phân tán
Ví dụ 2.8.
So sánh giá trị trung 0 1 2 3 4 5 6 7 8 9
tâm, giá trị định vị
Cùng trung bình, trung 0 1 2 3 4 5 6 7 8 9
vị; nhưng khác nhau ở
độ phân tán 0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
Mean = Median = 5
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Range = 7 Range = 6
Mean
SS
Variance
Std. Dev.
Mean SS S2 S CV
A
B
C
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 52
2.2.7. Hệ số biến thiên
Coefficient of Variation
CV đơn vị là %.
CV đo độ biến động “tương đối”
CV có thể dùng so sánh các biến không cùng đơn vị
Trung bình
Phương sai
Độ lệch chuẩn
Hệ số biến thiên
IQR
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 56
Giá trị ngoại lai (Outlier)
Có hai ngưỡng dưới và trên (lower limit, upper limit)
Giá trị nhỏ hơn ngưỡng dưới, lớn hơn ngưỡng trên là
Outlier
Tính theo Tứ phân vị:
• Ngưỡng dưới (LL)
• Ngưỡng trên (UP)
Boxplot
𝑚𝑖𝑛 𝑄1 𝑄2 𝑄3 𝑚𝑎𝑥
𝑜𝑢𝑡𝑙𝑖𝑒𝑟
1.5 𝐼𝑄𝑅 1.5 𝐼𝑄𝑅
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 58
Table, Histogram, Boxplot
Value Freq.
Salary
10 10 35
11 16 30
12 30 25
20
13 19 15
14 14 10
15 10 5
0
16 0 10 11 12 13 14 15 16 17 18
17 0
18 1
10 11 12 13.75
18
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 59
Boxplot : Key values and Whiskers
A B C D E F
Max 6 6 7 9 6 4
Q3 5 4 6 6 4 3
Q1 3 2 4 4 1 2
Min 1 1 1 3 -1 1
Max
Q3
Q2
Q1
Min
Mean
Sk = – 0.3 Sk = 0 Sk = 0.3
Left short tail Two-tail Right short tail
Sk = – 1.3 Sk = 1.3
Left long tail Right long tail
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 63
2.2.10. Hệ số nhọn (Kurtosis)
Đo độ nhọn so với phân phối chuẩn
Mean of Y
Mean of X Mean of X
, không có đơn vị
đo mức độ tương quan tuyến tính của và
• : tuyến tính âm
• : tương quan âm
• : không tương quan
• : tương quan dương
• : tuyến tính dương
Negatively r=0
No
r = – 0.5 correlated
Jan 5 10
Feb 6 15
Mar 8 10
Apr 9 18
May 12 32
Sum 40 85
Mean 8 17
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 68
2.2.12. Giá trị chuẩn hóa (Standardized)
Còn gọi là - của một giá trị
Đồ thị histogram
Kích thước mẫu, tối thiểu, tối đa
Trung bình, trung vị, mốt?
Phương sai, độ lệch chuẩn, hệ số biến thiên?
Tứ phân vị, khoảng tứ phân vị, boxplot
Hệ số bất đối xứng, hệ số nhọn
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 71
Số liệu theo nhóm
10 3
12 7
14 8
16 10
18 8
20 4
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 72
Số liệu theo nhóm
Histogram & Box plot Statistics
=
Series 1
12 =
10
10
=
8 8
8
7 =
6
4
=
4
3
=
2
0
=
10 12 14 16 18 20
=
=
THỐNG KÊ TOÁN– Bui Duong Hai – NEU – www.mfe.edu.vn/buiduonghai 73
R: Statistic Functions for Sample
Statistic Excel R
Kích thước = count(var) > length(var)
Tổng = sum(var) > sum(var)
Trung bình = average(var) > mean(var)
Trung vị = median(var) > median(var)
Mốt = mode(var)
Tứ phân vị = quartile.exc(var, )
Phân vị = percentile(var, > quantile(var, )
Phương sai mẫu = var(var) > var(var)
Độ lệch chuẩn mẫu = stdev(var) > sd(var)
Hiệp phương sai mẫu = covariance.s(var1, var2) > cov(var1, var2)
Hệ số tương quan = correl(var1, var2) > cor(var1, var2)