Professional Documents
Culture Documents
THỐNG KÊ MÔ TẢ VÀ
TRỰC QUAN DỮ LIỆU
A - Thống kê mô tả
5 4 3 2 1 3 5 4 3 2
2 3 2 1 2 3 2 3 2 1
1 5 3 5 5 3 1 5 3 5
5 3 2 4 4 2 1 5 1 5
1 2 2 3 4 3 2 3 3 2
VD2.2: Có số liệu về lợi nhuận tháng 12/2023 của 50 cửa hàng của công ty A. Hãy chia thành
các tổ như sau: <100 trđ ; 100 – dưới 200 trđ; 200 – dưới 300 trđ; từ 300 trđ trở lên và NX
Thứ
tự 1 2 3 4 5 6 7 8 9 10
Giới
tính Nam Nữ Nam Nam Nữ Nữ Nữ Nữ Nữ Nữ
Điểm 7.2 9.1 8.5 4.7 6.9 7.8 5.4 5 9.5 8.8
Thứ
tự 16 17 18 19 20 21 22 23 24 25
Giới
tính Nam Nữ Nữ Nam Nam Nữ Nam Nữ Nữ Nữ
Điểm 7.6 8.7 7.6 7.3 7.5 8.2 6.6 7.8 7.8 8.5
Dãy số phân phối (bảng tần số phân bố)
KN : Là dãy số được tạo ra khi tiến hành phân chia các đơn vị của 1
hiện tượng KT-XH theo một biến.
Các loại dãy số phân phối :
-Dãy số thuộc tính : Tổng thể được phân tổ theo biến định tính.
-Dãy số lượng biến : Tổng thể được phân tổ theo biến định lượng.
6
TH tóm tắt dữ liệu theo 2 biến được gọi là
bảng chéo
Bảng 2.1: Bảng chéo thể hiện phân tổ kết hợp giữa giới tính và
tuổi lao động trong 1 doanh nghiệp
Tuổi
Tổng
<30 30 đến 40 đến 50 đến Từ 60
Giới
dưới dưới dưới trở lên
tính
40 50 60
Nam 10 22 15 10 8 65
Nữ 8 20 10 5 2 45
Tổng 18 42 25 15 10 110
Sử dụng excel để xây dựng dãy số phân phối
- Frequency
- Countif
- PivotTable
fi
di
f i
Tần suất
Số SP A bán
Số ngày Tần suất tích lũy
trong ngày
(Tần số) (%) (%)
(chiếc)
0 – 10 84 42 42
11 – 20 60 30 72
21 – 30 30 15 87
31 – 40 16 8 95
41 - 50 10 5 100
200 100
Đồ thị tần suất tích lũy
120
100
80
Tần suât tích lũy (%)
60
40
20
0
0 10 20 30 40 50 60
Số sản phẩm bán được trong ngày
Tác dụng của tần số, tần số tích lũy và tần suất tích lũy (TH dãy số
thuộc tính) – VD: Biểu đồ pareto
x i fi
Bình quân cộng
x i 1
n gia quyền
f
i 1
i
Số bình quân nhân
(Bình quân hình học – geometric mean)
b/ CT:
- Số bq nhân giản đơn x n x 1 . x 2 .......x n
f 1 f 2 ... f n
-Số bq nhân gia quyền x x 1f 1 . x f2
2 .....x fn
n
Mốt (mode) – M0
Khái niệm
-Đối với dãy số không có khoảng cách tổ:
Mốt là lượng biến hoặc biểu hiện được gặp nhiều nhất trong
dãy số phân phối.
Cách xác định M0
Xác định lượng biến hoặc biểu hiện có tần số lớn nhất trong
dãy số phân phối, đó chính là M0.
Đặc điểm của M0 :
+ Dễ xác định và có khả năng xác định nhanh
+ Không bị ảnh hưởng bởi các giá trị đột xuất (quá lớn hoặc
quá nhỏ) của dãy số phân phối), vì vậy kém nhạy bén với sự
biến thiên của tiêu thức.
Tác dụng:
+ Dùng để bổ sung hoặc thay thế số bình quân trong TH tính
số bình quân gặp khó khăn.
+ Dùng nhiều trong lý thuyết phục vụ đám đông.
Trung vị (Median) – Me
(Chỉ dùng với dãy số lượng biến)
Khái niệm
Trung vị là lượng biến của đơn vị đứng vị trí chính
giữa trong dãy số lượng biến, chia số đơn vị trong
dãy số thành 2 phần bằng nhau.
CT : R* = Xmax – Xmin
Phương sai (Variance)
2
i
( x x ) 2
i
x 2
( x )2 (a )
n n
2 i
( x x ) 2
.f i
i .f i
x 2
(x) 2
(b)
f i f i
- Phương sai mẫu
s 2
(x i x) 2
(a )
n 1
s 2 (x i x ) .f i
2
( b)
f i 1
Độ lệch tiêu chuẩn ( , s)
(Standard deviation)
a/ KN : Là căn bậc hai của phương sai
b/ Tác dụng:
-Là một trong những chỉ tiêu hoàn thiện nhất để đo
độ biến thiên tiêu thức của một tổng thể hoặc so
sánh độ biến thiên của các tổng thể cùng loại
-Dùng nhiều trong các phân tích thống kê.
-Cho biết sự phân phối của các lượng biến trong
một tổng thể (dựa vào định lý Chebyshev và qui tắc
thực nghiệm)
Hệ số biến thiên (V)
(Coefficient of variation).
a/ TH sử dụng :
-Giá trị bình quân của 2 tổng thể đưa ra so sánh khác nhau
nhiều.
-So sánh độ biến thiên của 2 hiện tượng khác nhau (đơn vị tính
khác nhau).
Khái niệm: Là số tương đối được tính bằng cách so sánh giữa
độ lệch tiêu chuẩn với số bình quân cộng.
( Trường hợp không có số bình quân cộng có thể thay bằng
Mốt)
Công thức :
V 100 (%)
x
V 100 (%)
M0
Chú ý:
- Khi so sánh 2 hiện tượng phải sử dụng cùng 1 công thức.
- TH dùng V để đánh giá tính chất đại biểu của số bình quân, nếu V vượt quá
40% thì tính chất đại biểu của số bình quân quá thấp, không nên sử dụng số
bình quân đó.
SỬ DỤNG EXCEL TÍNH MỘT SỐ THAM SỐ THỐNG KÊ MÔ TẢ
• Q1: tứ phân vị thứ nhất: là lượng biến của đơn vị đứng ở vị trí
thứ (n+1)/4
• Q2: tứ phân vị thứ hai: chính là trung vị: là lượng biến của
đơn vị đứng ở vị trí thứ 2(n+1)/4
• Q3: tứ phân vị thứ ba: là lượng biến của đơn vị đứng ở vị trí
thứ 3(n+1)/4
Bài tập vận dụng
8 10 12 17 18 20 23 25
Xác định vị trí và giá trị của các tứ phân vị, nêu ý nghĩa
Sử dụng Excel tính tứ phân vị
• Trong bách phân vị: Số phân vị Pth là một giá trị mà tại đó
ít nhất có P% số đơn vị trong tổng thể có giá trị thấp hơn
hoặc bằng giá trị này và ít nhất là (100 – P)% số đơn vị của
tổng thể có giá trị lớn hơn hoặc bằng giá trị này."
VD :
- Bách phân vị 10th là giá trị mà tại đó ít nhất là 10% số đơn vị
có giá trị nhỏ hơn hoặc bằng giá trị này
- Các bước:
+ Bôi đen dữ liệu cần vẽ
+ Insert
+ Chart – All charts
+ Box & Whisker
Xác định các giá trị ngoại lệ (outliers) dựa
vào biểu đồ hộp râu
Khoảng trải giữa ( RQ ) – (InterQuartile Range - IQR)
Công thức : RQ = Q3 – Q1
Tác dụng :
- Đánh giá mức độ biến thiên của tiêu thức.
- Có thể dùng để xác định các giá trị ngoại lệ (outliers) trong
tập hợp số liệu.
B – TRỰC QUAN HÓA DỮ LIỆU
(SV tự nghiên cứu và làm bài tập nhóm)
2.44