You are on page 1of 44

CHƯƠNG 2

THỐNG KÊ MÔ TẢ VÀ
TRỰC QUAN DỮ LIỆU
A - Thống kê mô tả

Dãy số Các tham số Các tham số đo Phân tích


phân phối đo mức độ độ biến thiên vị trí tương đối
đại biểu

Số bq cộng Khoảng biến thiên Giá trị z


XD bảng phân bố
tần số, biểu đồ Số bq nhân Phương sai Định lý Chebyshev
histogram qui tắc thực nghiệm

Mốt Độ lệch tiêu chuẩn Bách phân vị,


Tứ phân vị
Trung vị Hệ số biến thiên
Các giá trị
bất thường (outliers)
Dãy số phân phối (Bảng tần số phân bố)
Trường hợp 1 biến:
Có dãy số liệu sau, hãy xây dựng dãy số phân phối và đưa ra 1 số NX cơ bản
VD 2.1: Một cửa hàng khảo sát ý kiến của 50 khách hàng về vị kem ưa thích, thu được dữ liệu sau. Hãy tổng
hợp và đưa ra những NX cơ bản
(1: vị dâu; 2: vị vani; 3: socola; 4: Dứa; 5: Sầu riêng)

5 4 3 2 1 3 5 4 3 2

2 3 2 1 2 3 2 3 2 1

1 5 3 5 5 3 1 5 3 5
5 3 2 4 4 2 1 5 1 5

1 2 2 3 4 3 2 3 3 2
VD2.2: Có số liệu về lợi nhuận tháng 12/2023 của 50 cửa hàng của công ty A. Hãy chia thành
các tổ như sau: <100 trđ ; 100 – dưới 200 trđ; 200 – dưới 300 trđ; từ 300 trđ trở lên và NX

200 80 162 284 266 100 300 250 350 180

422 400 72 210 185 460 110 320 253 275

500 95 480 290 70 235 272 275 150 275

90 380 164 222 286 260 115 66 248 196

148 346 90 255 198 248 170 235 245 88


TH từ 2 biến trở lên
VD2.3: Có số liệu điểm môn A và giới tính của 30 sinh viên như sau.
Hãy xây dựng bảng tổng hợp và đưa ra một số NX cơ bản

Thứ
tự 1 2 3 4 5 6 7 8 9 10

Giới
tính Nam Nữ Nam Nam Nữ Nữ Nữ Nữ Nữ Nữ

Điểm 7.2 9.1 8.5 4.7 6.9 7.8 5.4 5 9.5 8.8

Thứ
tự 16 17 18 19 20 21 22 23 24 25

Giới
tính Nam Nữ Nữ Nam Nam Nữ Nam Nữ Nữ Nữ

Điểm 7.6 8.7 7.6 7.3 7.5 8.2 6.6 7.8 7.8 8.5
Dãy số phân phối (bảng tần số phân bố)
KN : Là dãy số được tạo ra khi tiến hành phân chia các đơn vị của 1
hiện tượng KT-XH theo một biến.
Các loại dãy số phân phối :
-Dãy số thuộc tính : Tổng thể được phân tổ theo biến định tính.
-Dãy số lượng biến : Tổng thể được phân tổ theo biến định lượng.

Trình độ Số người Mức lương Số người


(triệu đ/tháng)
Trung cấp 5 20 – 25 4
Cao đẳng 12 25 – 30 12
Đại học 28 30 – 45 18
Sau đại học 10 35 - 40 6

6
TH tóm tắt dữ liệu theo 2 biến được gọi là
bảng chéo
Bảng 2.1: Bảng chéo thể hiện phân tổ kết hợp giữa giới tính và
tuổi lao động trong 1 doanh nghiệp

Tuổi
Tổng
<30 30 đến 40 đến 50 đến Từ 60
Giới
dưới dưới dưới trở lên
tính
40 50 60

Nam 10 22 15 10 8 65
Nữ 8 20 10 5 2 45
Tổng 18 42 25 15 10 110
Sử dụng excel để xây dựng dãy số phân phối

- Frequency

- Countif

- PivotTable

- Data Analysis - Histogram


Một số khái niệm khác
+ Tần suất (di) : Là tần số được biểu hiện bằng số
tương đối (%, lần).
Ý nghĩa : Cho biết số đơn vị mỗi tổ chiếm bao nhiêu
% trong toàn bộ tổng thể.

fi
di 
f i

Nếu di tính bằng lần : ∑ di = 1


Nếu di tính bằng % : ∑ di = 100
9
+ Tần số tích luỹ (Si)
-Tần số tích luỹ tiến là tổng các tần số khi ta cộng
dồn từ trên xuống
xi fi di Si
x1 f1 f1 / ∑ f i f1
x2 f2 f2 / ∑ f i f 1 + f2
x3 f3 f3 / ∑ f i f 1 + f2 + f3
… … … …
xn fn. fn / ∑ f i ∑fi

+ Tần suất tích luỹ


-Tần suất tích luỹ tiến là tổng các tần suất khi ta cộng
dồn từ trên xuống
10
VD: Có số liệu về số sản phẩm A bán trong 1 ngày của cửa
hàng X, thổng kê trong 200 ngày

Tần suất
Số SP A bán
Số ngày Tần suất tích lũy
trong ngày
(Tần số) (%) (%)
(chiếc)

0 – 10 84 42 42
11 – 20 60 30 72
21 – 30 30 15 87
31 – 40 16 8 95
41 - 50 10 5 100
200 100
Đồ thị tần suất tích lũy
120

100

80
Tần suât tích lũy (%)

60

40

20

0
0 10 20 30 40 50 60
Số sản phẩm bán được trong ngày
Tác dụng của tần số, tần số tích lũy và tần suất tích lũy (TH dãy số
thuộc tính) – VD: Biểu đồ pareto

THỐNG KÊ NGUYÊN NHÂN PHÀN NÀN CỦA KHÁCH


HÀNG TẠI QUÁN ĂN X TRONG THÁNG 12/2017
CÁC THAM SỐ ĐO MỨC ĐỘ
ĐẠI BIỂU CỦA HIỆN TƯỢNG
Số bình quân cộng
(Bình quân số học – arithmetic mean)
Công thức tổng quát:

Tổng các lượng biến của tiêu thức


Số bình quân nghiên cứu
cộng =
Tổng số đơn vị của tổng thể
Cụ thể:
-TH các đơn vị không được phân tổ
n

x i Bình quân cộng


x i 1
giản đơn
n
- TH các đơn vị được phân tổ :
n

x i fi
Bình quân cộng
x i 1
n gia quyền
f
i 1
i
Số bình quân nhân
(Bình quân hình học – geometric mean)

a/ Điều kiện vận dụng : Các lượng biến có QH tích số.

b/ CT:
- Số bq nhân giản đơn x  n x 1 . x 2 .......x n

f 1  f 2  ...  f n
-Số bq nhân gia quyền x  x 1f 1 . x f2
2 .....x fn
n
Mốt (mode) – M0
Khái niệm
-Đối với dãy số không có khoảng cách tổ:
Mốt là lượng biến hoặc biểu hiện được gặp nhiều nhất trong
dãy số phân phối.
Cách xác định M0
Xác định lượng biến hoặc biểu hiện có tần số lớn nhất trong
dãy số phân phối, đó chính là M0.
Đặc điểm của M0 :
+ Dễ xác định và có khả năng xác định nhanh
+ Không bị ảnh hưởng bởi các giá trị đột xuất (quá lớn hoặc
quá nhỏ) của dãy số phân phối), vì vậy kém nhạy bén với sự
biến thiên của tiêu thức.
Tác dụng:
+ Dùng để bổ sung hoặc thay thế số bình quân trong TH tính
số bình quân gặp khó khăn.
+ Dùng nhiều trong lý thuyết phục vụ đám đông.
Trung vị (Median) – Me
(Chỉ dùng với dãy số lượng biến)
Khái niệm
Trung vị là lượng biến của đơn vị đứng vị trí chính
giữa trong dãy số lượng biến, chia số đơn vị trong
dãy số thành 2 phần bằng nhau.

Cách xác định trung vị:


-Xác định vị trí chính giữa trong dãy số lượng biến
-Xác định lượng biến của đơn vị đứng vị trị chính
giữa
Tác dụng của Me :
-Bổ sung hoặc thay thế số bình quân khi cần thiết.
-Khi kết hợp với số bq cộng, mốt, trung vị có thể
nêu lên đặc trưng của dãy số phân phối, cụ thể:
Lệch trái Đối xứng Lệch phải

Mean Median Mode Mean= Median= Mode Mode Median Mean


CÁC THAM SỐ ĐO ĐỘ
BIẾN THIÊN
Khoảng biến thiên ( R ) – (Range)

KN : Là chênh lệch giữa lượng biến lớn nhất và lượng


biến nhỏ nhất của tiêu thức.

CT : R* = Xmax – Xmin
Phương sai (Variance)

Khái niệm: Là số bình quân cộng của bình phương các độ


lệch giữa lượng biến với bình quân các lượng biến đó.
Công thức :
- Phương sai tổng thể

2 
 i
( x  x ) 2


 i
x 2

 ( x )2 (a )
n n

 
2  i
( x  x ) 2
.f i

 i .f i
x 2

(x) 2
(b)
f i f i
- Phương sai mẫu

s 2

 (x i  x) 2

(a )
n 1

s  2  (x i  x ) .f i
2

( b)
f i 1
Độ lệch tiêu chuẩn ( , s)
(Standard deviation)
a/ KN : Là căn bậc hai của phương sai

b/ Tác dụng:
-Là một trong những chỉ tiêu hoàn thiện nhất để đo
độ biến thiên tiêu thức của một tổng thể hoặc so
sánh độ biến thiên của các tổng thể cùng loại
-Dùng nhiều trong các phân tích thống kê.
-Cho biết sự phân phối của các lượng biến trong
một tổng thể (dựa vào định lý Chebyshev và qui tắc
thực nghiệm)
Hệ số biến thiên (V)
(Coefficient of variation).

a/ TH sử dụng :
-Giá trị bình quân của 2 tổng thể đưa ra so sánh khác nhau
nhiều.

-So sánh độ biến thiên của 2 hiện tượng khác nhau (đơn vị tính
khác nhau).
Khái niệm: Là số tương đối được tính bằng cách so sánh giữa
độ lệch tiêu chuẩn với số bình quân cộng.
( Trường hợp không có số bình quân cộng có thể thay bằng
Mốt)
Công thức : 
V 100 (%)
x

V 100 (%)
M0

Chú ý:
- Khi so sánh 2 hiện tượng phải sử dụng cùng 1 công thức.
- TH dùng V để đánh giá tính chất đại biểu của số bình quân, nếu V vượt quá
40% thì tính chất đại biểu của số bình quân quá thấp, không nên sử dụng số
bình quân đó.
SỬ DỤNG EXCEL TÍNH MỘT SỐ THAM SỐ THỐNG KÊ MÔ TẢ

1. Sử dụng các hàm tính trong excel


SỬ DỤNG EXCEL TÍNH MỘT SỐ
THAM SỐ THỐNG KÊ MÔ TẢ

2. Thống kê mô tả trong Tuoi


excel Mean 36.08
- Data Standard Error 1.363919921
Median 33.5
- Data Analysis Mode 29
- Chọn Descriptive Standard Deviation 9.644370252
Statistics Sample Variance 93.01387755
Kurtosis 2.418723749
Skewness 1.673032076
Range 39
Minimum 25
Maximum 64
Sum 1804
Count 50

Confidence Level(95.0%) 2.740899699


PHÂN TÍCH VỊ TRÍ TƯƠNG ĐỐI
Giá trị z (z score)
Còn gọi là giá trị chuẩn hóa
Ý nghĩa: Giúp xác định khoảng cách từ một giá trị cụ thể đến
giá trị trung bình, từ đó xác định được vị trí tương đối của một
giá trị nào đó trong tập dữ liệu.
Công thức:
x x
Với dữ liệu tổng thể: z i  i

Với dữ liệu mẫu: xi  x
zi 
s
VD: 1 sinh viên có điểm thi môn toán là 8,5 (thang điểm 10) và
điểm thi anh văn là 85 (thang điểm 100). Vậy học sinh đó có
điểm môn nào tốt hơn biết điểm trung bình môn toán của lớp là
6,1 với độ lệch chuẩn là 1,2 và điểm trung bình môn anh văn là
70 với độ lệch chuẩn là 10
Định lý Chebyshev và qui tắc thực nghiệm

* Định lý Chebyshev - Sử dụng với phân phối bất kỳ:


Có ít nhất (1 – 1/k2)% số các lượng biến nằm trong
khoảng (x  k) với k là một số bất kỳ lớn hơn 1.

Nghĩa là với 1 phân phối bất kỳ có ít nhất:


x  k

75% số các lượng biến nằm trong khoảng x  2


89% số các lượng biến nằm trong khoảng x  3
…..
* Quy tắc thực nghiệm:
SD với phân phối chuẩn

Có khoảng 68% số các lượng biến nằm trong khoảng ( x )


Khoảng 95% số các lượng biến nằm trong khoảng ( x  2 )
Khoảng 99,8% số các lượng biến nằm trong khoảng ( x  3)
Tứ phân vị

• Chia số đơn vị trong tổng thể thành 4 phần bằng nhau

• Q1: tứ phân vị thứ nhất: là lượng biến của đơn vị đứng ở vị trí
thứ (n+1)/4
• Q2: tứ phân vị thứ hai: chính là trung vị: là lượng biến của
đơn vị đứng ở vị trí thứ 2(n+1)/4
• Q3: tứ phân vị thứ ba: là lượng biến của đơn vị đứng ở vị trí
thứ 3(n+1)/4
Bài tập vận dụng

Có dãy số liệu sau:

8 10 12 17 18 20 23 25

Xác định vị trí và giá trị của các tứ phân vị, nêu ý nghĩa
Sử dụng Excel tính tứ phân vị

• Dùng hàm Quartile


• Lệnh:
= QUARTILE.EXC (Vùng cần tính, tham số)
Tham số: Nhận các giá trị tương ứng 0,1,2,3,4.
(“0” đưa về giá trị nhỏ nhất trong dãy số; “1”, “ 2”, “3”
lần lượt là các tứ phân vị thứ nhất, thứ hai, thứ ba; “4”
đưa về giá trị lớn nhất của dãy số.
VD:
Tứ phân vị thứ 1: = QUARTILE.EXC(A1:A15,1)
(A1:A15: Vùng cần tính: nhập dãy số liệu cần tính)
Bách phân vị

• Trong bách phân vị: Số phân vị Pth là một giá trị mà tại đó
ít nhất có P% số đơn vị trong tổng thể có giá trị thấp hơn
hoặc bằng giá trị này và ít nhất là (100 – P)% số đơn vị của
tổng thể có giá trị lớn hơn hoặc bằng giá trị này."

VD :
- Bách phân vị 10th là giá trị mà tại đó ít nhất là 10% số đơn vị
có giá trị nhỏ hơn hoặc bằng giá trị này

- Bách phân vị 50th còn được gọi là trung vị


Sử dụng Excel tính bách phân vị

• Dùng hàm Percentile


• Lệnh:
PERCENTILE.EXC (Vùng cần tính, tham số)
Tham số: Nhận các giá trị tương ứng từ 0 đến 1
VD:
Bách phân vị thứ 25 =
PERCENTILE.EXC(A1:A15,0.25)

(A1:A15: Vùng cần tính: nhập dãy số liệu cần tính)


Biểu đồ hộp râu (Box plot hay Box and Whisker
plot) và cách xác định giá trị ngoại lệ (outliers)

Biểu đồ hộp râu: Là biểu đồ thể hiện tóm tắt 5 tham số


thống kê mô tả là Min, Max, Q1, Q2, Q3
* Cách vẽ Biểu đồ hộp và râu
(Box plot hay Box and Whisker plot)

- Các bước:
+ Bôi đen dữ liệu cần vẽ
+ Insert
+ Chart – All charts
+ Box & Whisker
Xác định các giá trị ngoại lệ (outliers) dựa
vào biểu đồ hộp râu
Khoảng trải giữa ( RQ ) – (InterQuartile Range - IQR)

Khái niệm : Là chênh lệch giữa tứ phân vị thứ ba và tứ phân vị thứ


nhất của tiêu thức. Thể hiện độ phân tán của 50% dữ liệu ở giữa
của dãy số.

Công thức : RQ = Q3 – Q1
Tác dụng :
- Đánh giá mức độ biến thiên của tiêu thức.
- Có thể dùng để xác định các giá trị ngoại lệ (outliers) trong
tập hợp số liệu.
B – TRỰC QUAN HÓA DỮ LIỆU
(SV tự nghiên cứu và làm bài tập nhóm)

2.44

You might also like