Professional Documents
Culture Documents
Bài Giảng Thống Kê Ứng Dụng
Bài Giảng Thống Kê Ứng Dụng
CHƯƠNG 2: THỐNG KÊ MÔ TẢ
1. Trình bày dữ liệu bằng bảng
Bảng tần số là bảng được lập bằng cách nhóm các dữ liệu các nhóm hoàn toàn xung khắc và
trình bày số quan sát tương ứng ở mỗi nhóm. Hoàn toàn xung khắc có nghĩa là không có giá
trị nào vừa nằm ở nhóm này vừa nằm ở nhóm kia. Mỗi giá trị của biến chỉ được đặt vào 1
nhóm nào đó.
Ta xem bảng tần số biến giới tính trong thí dụ trên hình
Trong bảng tần số, ta có 2 nhóm tương ứng với 2 giá trị của biến giới tính. Tần số của mỗi nhóm được gọi
là tần số nhóm. Trong thí dụ trên, tần số của nhóm “Nam” là 11 và tần số của nhóm “Nữ” là 9.
Tổng quát hơn, ta có bảng tần số như sau:
Gọi Xi là trị số của biến X
Số lần xuất hiện của Xi trong tập dữ liệu của biến X là tần số của Xi, ký hiệu fi.
n là tổng số quan sát.
Lưu ý là khi tính tổng các giá trị tần số fi, ta sẽ có n, tức là tổng số quan sát bằng
tổng tần số.
Bảng tần số không chỉ có tần số mà còn có các giá trị như tần số tương đối và tần
số phần trăm.
Tần số tương đối được tính bằng cách lấy tần số chia cho tổng số quan sát, tức là
lấy fi chia cho n.
o Thí dụ tần số tương đối của nam là 0,55 được tính bằng cách lấy 11 chia cho
20
o Thí dụ tần số tương đối của nữ là 0,45 được tính bằng cách lấy 9 chia cho 20
o Ta có tổng tần số tương đối bằng 1. Trong thí dụ, 0,55 cộng 0,45 bằng 1.
Tần số phần trăm được tính tương tự tần số tương đối, được tính bằng cách lấy tần
số chia cho tổng số quan sát và nhân cho 100, tức là lấy fi chia cho n và nhân 100.
o Thí dụ tần số phần trăm của nam là 55% được tính bằng cách lấy 11 chia
cho 20 rồi nhân cho 100
o Thí dụ tần số phần trăm của nữ là 45% được tính bằng cách lấy 9 chia cho
20 nhân cho 100%
o Ta có tổng tần số phần trăm bằng 100. Trong thí dụ, 55% cộng 45% bằng
100%.
Đối với biến định lượng, ta có thể lập bảng tần số như biến định tính nếu số giá trị của biến định
lượng ít. Khi số giá trị này nhiều ta sẽ lập nhóm các giá trị khi lập bảng tần số.
Cách làm như sau:
Bước 1: Sắp dữ liệu theo thứ tự tăng dần
Bước 2: Xác định số nhóm
Bước 3: Xác định độ rộng của mỗi nhóm
Bước 4: Đặt dữ liệu vào các nhóm tương ứng
Ta có thể tính tần số phần trăm theo hàng cho bảng 2 biến như hình
Ta có thể tính tần số phần trăm theo tổng số quan sát. Trong thí dụ này, tổng số quan sát là tổng
số sinh viên, tức là 220+240 = 460.
2. Các giá trị đại lượng đặc trưng
a. Biểu đồ thanh
Biểu đồ thanh là biểu đồ mà trong đó, các nhóm được biểu diễn ở trục ngang. Tần số các nhóm
được biểu diễn ở trục đứng. Chiều cao của thanh biểu diễn tần số của mỗi nhóm.
Ta có biểu đồ thanh của biến giới tính như hình bên trái
Đối với biến định lượng, ta có thể dùng biểu đồ trình bày tần số của các giá trị hay các khoảng
giá trị của biến như hình bên phải.
b. Biểu đồ tròn
Biểu đồ tròn là biểu đồ mà trong đó, tần số của mỗi nhóm tương ứng với một phần diện tích của
hình tròn. Người ta thường dùng tần số phần trăm để biểu diễn trên biểu đồ tròn.
Biểu đồ thí dụ trong hình là cơ cấu nghề nghiệp của khách hàng.
Ta thấy có 35% khách hàng có nghề công nhân
25% khách hàng có nghề nhân viên
15% khách hàng có nghề tự do
10% khách hàng có nghề kinh doanh
10% khách hàng có nghề buôn bán
5% khách hàng là sinh viên
c. Biểu đồ đường
Biểu đồ đường là biểu đồ dùng đường nối các điểm dữ liệu biểu diễn hình dạng của dữ liệu.
Biểu đồ này thích hợp với dữ liệu thời gian.
Biểu đồ đường giúp ta phát hiện xu hướng biến động của dữ liệu theo thời gian.
Trong hình thí dụ, ta thấy tỷ suất lợi nhuận của trái phiếu có xu hướng giảm theo thời
gian
d. Đa giác tần số
Người ta thường dùng biểu đồ dạng đường thẳng để biểu diễn các giá trị tần số trong bảng tần
số,biểu đồ này thường được gọi là Đa giác tần số.
Hình dáng của đa giác tần số, nó trình bày biến Biểu đồ tần số tích lũy, để biểu diễn tần số
động của tần số của các khoảng giá trị của tương đối phần trăm tích lũy, người ta cũng
biến. dùng biểu đồ đường thẳng để biểu diễn. Biểu
đồ này có thuật ngữ là “Ogive”. Điểm cuối
cùng của biểu đồ luôn ở mức 100, tức là có tần
số tích lũy là 100%.
e. Biểu đồ nhánh và lá
Biểu đồ nhánh và lá là dạng biểu đồ đặc biệt được dùng để thể hiện hình dạng phân bố của dữ
liệu một cách nhanh chóng.
Các bước tạo biểu đồ nhánh và lá:
Bước 1: Khảo sát tập dữ liệu và chọn đơn vị cho nhánh và lá. Thông thường, bạn nên
chọn sao cho số nhánh ít hơn 20.
Bước 2: Đặt các giá trị vào nhánh theo thứ tự từ nhỏ đến lớn theo chiều từ trên xuống.
Bước 3: Đặt các giá trị vào phần lá, tức là các hàng tương ứng trong biểu đồ.
Bước 4: Sắp xếp dữ liệu từ nhỏ đến lớn theo chiều từ trái sang phải cho các lá.
Thí dụ:
Đây là số liệu thu thập của 31 ngày về số lượt khách hàng mang máy điện thoại di động đến bảo
hành trong 1 ngày tại một trung tâm chăm sóc khách hàng.
Trước hết, nên sắp dữ liệu theo chiều tăng dần, còn gọi là tạo dãy dữ liệu. Biểu đồ
nhánh và lá của tập số liệu trên như hình.
Ta thấy, phần nhánh là các số 0, 1, 2, 3. Đây chính là phần ký số hàng chục trong
bộ dữ liệu.
Trong khi đó, phần bên phải được gọi là phần lá biểu diễn các ký số của hàng đơn
vị.
Xét dòng đầu của biểu đồ: 0| 6 9 biểu diễn các giá trị 6 và 9 trong tập dữ
liệu.
Dòng tiếp theo của biểu đồ: 1| 2 2 4 4 4 5 6 8 8 8 9 9 biểu diễn các giá trị 12,
12, 14, 14, 14, 15, 16, 18, 18, 18, 19, 19 trong tập dữ liệu.
Dòng tiếp theo của biểu đồ: 2| 0 0 1 1 1 2 2 2 3 8 8 9 biểu diễn các giá trị 20,
20, 21, 21, 21, 22, 22, 22, 23, 28, 28, 29 trong tập dữ liệu.
Dòng cuối cùng: 3| 2 3 3 7 biểu diễn các giá trị: 32, 33, 33, 37 trong tập dữ
liệu.
Cái hay của biểu đồ này là phần lá biểu diễn được hình dạng phân phối của tập dữ
liệu. Ta thấy như trong thí dụ trên, dữ liệu tập trung nhiều ở khoảng giá trị từ 12
đến 29.
Ta xét thí dụ mối liên hệ giữa biến số năm sử dụng và giá bán như bảng bên trái.
Ta có dữ liệu số năm sử dụng và giá bán của 12 xe trong bảng dữ liệu.
Ta biểu diễn mỗi cặp số giữa số năm sử dụng và giá bán thành 1 điểm trên biểu đồ bên phải.
Kết quả ta có 12 điểm.
Biểu đồ bên phải là biểu đồ phân tán biểu diễn mối liên hệ giữa 2 biến số năm sử dụng và giá
bán.
Một cách tổng quát, ta có 3 dạng tương quan tương ứng với 3 hình
∑ xi
𝜇= i=1
N
∑ xi
x= i=1
n
Trong đó: x là giá trị trung bình của mẫu
n là số phần tử của mẫu
x i là giá trị dữ liệu thứ i trong mẫu
Thí dụ: tính trung bình mẫu với số liệu 42,60,70,75,78 ta có
42+60+70+75+ 78
x= =65
5
Trung bình số học
- Trung bình số học có trọng số được tính theo công thức
k
∑ xi w i
x = i=1
k
∑ wi
i=1
Yêu cầu: tính số cuộc gọi đặt dịch vụ trung bình trong một ngày.
Trường hợp dữ liệu phân nhóm có độ rộng nhóm, ta dùng công thức:
k
∑ mi f i
x = i=1
k
∑ fi
i=1
Trung vị
- Trung vị là giá trị nằm giữa của một tập dữ liệu được sắp thứ tự. Trung vị chia tập dữ liệu
ra thành 2 phần bằng nhau
- Tức là có 50% giá trị dữ liệu nhỏ hơn nó và 50% lớn hơn nó. Ta có thể thấy qua hình
Ta có 2 công thức tìm trung vị tùy theo tổng số quan sát n
Khảo sát số cuộc gọi điện thoại đặt dịch vụ của khách hàng
trong 30 ngày đến một trạm dịch vụ được cho trong bảng
trên hình.
Yêu cầu: tính số cuộc gọi trung vị trong một ngày.
Để tìm giá trị này, ta tiến hành tính cột tần số tích lũy (trong thí dụ này là số ngày)
Tổng số quan sát trong trường hợp này là 30. Giá trị số cuộc gọi trung vị sẽ tương ứng với
Để tính trung vị trong trường hợp dữ liệu phân nhóm có độ rộng nhóm, ta dùng công thức sau:
C Me−1: : tần số tích lũy của nhóm đứng trên nhóm chứa Me
Nhóm chứa Me là nhóm có tần số tích lũy lớn hơn hoặc bằng (n+1)/2.
Trong thí dụ này, nhóm chứa Me là nhóm 45 – 50.
Vậy, ta có giá trị của các số hạng như sau:
X Me(min)= 45
W Me(min)= 5
C Me−1= 19
f Me = 15
Trong thí dụ thứ nhất, ta thấy giá trị 117 xuất hiện 3 lần là nhiều nhất nên mốt bằng 117.
Trong thí dụ thứ hai, ta thấy có 2 giá trị có số lần xuất hiện nhiều nhất bằng nhau là 117
và 129. Vậy mốt bằng 117 và mốt bằng 129. Trường hợp này dữ liệu có 2 số mốt. như
vậy, ta có thể có nhiều giá trị mốt.
Trong thí dụ thứ 3, ta thấy không tồn tại số mốt nào. Do đó, trong trường hợp này không
có số mốt.
- Tóm lại, ta có thể gặp trường hợp không có số mốt, một số mốt và nhiều số mốt khi tính
toán trong thực tế.
- Bây giờ ta xét trường hợp dữ liệu trong một bảng
Thí dụ: Khảo sát số cuộc gọi điện thoại đặt dịch vụ của khách hàng trong 30 ngày đến một trạm
dịch vụ được cho trong bảng như sau
Yêu cầu: tính số cuộc gọi mốt
trong một ngày.
Từ bảng dữ liệu ta có số cuộc gọi
mốt = 8
Vì giá trị 8 có tần số lớn nhất là 9
Trong trường hợp này, số cuộc
gọi là biến và số ngày là tần số.
Để tính số mốt trong trường hợp dữ liệu phân nhóm có độ rộng nhóm, ta dùng công thức sau:
f Mo−f Mo−1
M 0= x Mo (min) +w Mo ×
( f Mo −f Mo−1 ) +¿ ¿
Trong đó: xMo(min): giới hạn dưới của nhóm chứa mốt
wMo : độ rộng nhóm của nhóm chứa mốt
fMo: tần nhóm của nhóm chứa mốt
fMo-1 : tần số của nhóm đứng trên nhóm chứa mốt
fMo+1: tần số của nhóm đứng dưới nhóm chứa mốt
Lưu ý: các nhóm có độ rộng bằng nhau.
Trong thí dụ này, ta có: xMo(min) = 45
wMo = 5
fMo = 15
fMo-1 = 12
fMo+1 = 10
15−12
Thay vào công thức, ta có: M 0= 45 + 5 × = 46,9 (kg)
( 15−12 ) +(15−10)
Ta thấy giá trị dữ liệu nhỏ nhất là 91, giá trị dữ liệu lớn nhất là 134.
Vậy khoảng biến thiên R = 134 – 91 = 43
- Khoảng biến thiên càng lớn thì độ phân tán càng lớn.
Ngoài khoảng biến thiên, người ta thường dùng phương sai và độ lệch chuẩn
để đánh giá độ phân tán
- Phương sai tổng thể được tính bằng công thức
N
∑ (x i−μ)2
σ
2
= i=1
N
Trong đó: σ là phương sai tổng thể
2
∑ (x i−x )2
s
2
= i=1
n−1
- Phương sai và độ lệch chuẩn càng lớn thì độ phân tán của dữ liệu càng lớn.
Thí dụ: tính phương sai và độ lệch chuẩn trong thí dụ sau
- Hệ số biến thiên thường được dùng để so sánh sự phân tán giữa các tập dữ liệu khác nhau.
- Hệ số biến thiên càng cao thì độ phân tán càng cao.
- Thí dụ:
Trong xưởng may, người ta thu được kết quả lỗi phát sinh trong các phân xưởng 1 và 2
như sau:
Phân xưởng 1: 𝑥̄= 134,51 và s=24,94
Phân xưởng 2: 𝑥̄= 22,72 và s=14,08
Tính CV của 2 phân xưởng trên, ta có:
Phân xưởng 1: CV = 100×(24,94)/(134,51) = 19%
Phân xưởng 2: CV = 100×(14,08)/(22,72) = 62%
Ta thấy hệ số biến thiên của phân xưởng 2 cao hơn các phân xưởng 1 hay độ phân tán
tương đối của các lỗi phát sinh trong quá trình sản xuất của phân xưởng 2 cao hơn phân
xưởng 1.
MAD = ∑ | x i−x|
i=1
n
- Độ lệch tuyệt đối trung bình cho ta cách tính đơn giản và nhanh chóng về giá trị trung
bình của các độ lệch của các giá trị trong tập dữ liệu so với giá trị trung bình.
- Thí dụ: ta khảo sát số lượng chai trà xanh bán được tại 2 cửa hàng bán nước giải khát đặt
tại cửa hàng Bắc và cửa hàng Nam. Số chai trà xanh thu thập cùng thời điểm tại 2 nơi
trong 5 ca bán hàng cho kết quả như sau:
Cửa hàng Nam: 20, 40, 50, 60, 80
Cửa hàng Bắc: 20, 49, 50, 51, 80
Yêu cầu tính độ lệch tuyệt đối trung bình của 2 mẫu khảo sát trên.
Ta thấy, đối với cửa hàng Bắc:
20+40+ 50+60+80
Trung bình: x = 5
= 50
Đối với cửa hàng Nam:
20+49+50+ 51+ 80
Trung bình: x = 5
= 50
Độ lệch tuyệt đối trung bình của cửa hàng Bắc:
|20−50|+|40−50|+|50−50|+|60−50|+|80−50|
MAD = = 16
5
Độ lệch tuyệt đối trung bình của cửa hàng Nam:
|20−50|+|49−50|+|50−50|+|51−50|+|80−50|
MAD = = 12,4
5
Ta thấy dù 2 cửa hàng có cùng doanh số trung bình theo ngày là 50 chai. Tuy nhiên, dựa
vào độ lệch tuyệt đối trung bình thì doanh số bán hàng cửa hàng Nam có độ phân tán ít
hơn doanh số bán hàng của cửa hàng Bắc.
4. Tóm tắt các chỉ tiêu thống kê
a. Quy tắc thực nghiệm của dữ liệu
- Hình trên cho thấy:
- Qui tắc thực nghiệm: Đối với tập dữ liệu có dạng phân phối đối xứng, tức là phân phối có
dạng hình quả chuông thì có khoảng 68% giá trị quan sát nằm trong khoảng cộng trừ độ
lệch chuẩn từ giá trị trung bình, có khoảng 95% giá trị quan sát nằm trong khoảng cộng
trừ 2 lần độ lệch chuẩn từ giá trị trung bình và có khoảng 99,7% giá trị quan sát nằm
trong khoảng cộng trừ 3 lần độ lệch chuẩn từ giá trị trung bình.
Ta ứng dụng quy tắc thực nghiệm để tìm các giá trị dị biệt trong dữ liệu được cho
như trên hình.
Trước tiên, ta tính giá trị trung bình và độ lệch chuẩn của dữ liệu.
Ta tính được:
𝑥̄= 22,72 và s = 14,08
Theo qui tắc thực nghiệm, ta có:
𝑥̄± 2𝑠 = 22,72 ± 2(14,08). Tức là có 95,44% số giá trị dữ liệu nằm trong
khoảng -5,4 đến 50,9.
5% số dữ liệu nằm ngoài khoảng này được coi như là giá trị dị biệt. Do đó,
các giá trị như 55, 68, 91 là các giá trị dị biệt của tập dữ liệu trên.
b. Tứ phân vị
- Về định nghĩa, tứ phân vị là bộ ba số Q1, Q2, Q3 chia tập dữ liệu ra làm 4 phần bằng
nhau. Trong đó, Q2 chính là trung vị. Q1 là trung vị của dãy dữ liệu từ Xmin đến Q2 và
Q3 là trung vị của dãy dữ liệu từ Q2 đến Xmax. 3 giá trị Q1, Q2, Q3 chia dãy dữ liệu
Xmin, Xmax thành 4 phần bằng nhau.
- Gọi L1, L2 và L3 là vị trí của Q1, Q2 và Q3 trong tập dữ liệu.
Ta có công thức tính L1, L2 và L3 như sau:
25
L1= (n+1)
100
50
L2= (n+1)
100
75
L3= (n+1)
100
Sau khi xác định được vị trí của các tứ phân vị thì giá trị của dữ liệu tại các vị trí đó là
các tứ phân vị.
Lưu ý, dữ liệu phải được sắp xếp trước khi dùng vị trí xác định giá trị của các tứ phân vị.
- Trong biểu đồ hộp, có độ trải giữa. độ trải giữa được tính bằng công thức Q3 – Q1.
- Biểu đồ hộp được dùng để trình bày hình dáng của phân phối của dữ liệu. khi khoảng
cách giữa Xmin, Q1, Q2, Q3 và Q4 gần bằng nhau, ta có dữ liệu có hình dáng cân đối.
- Biểu đồ hộp được dùng để so sánh hình dáng của dữ liệu giữa các biến với nhau.
- Ta có thể dùng độ trãi giữa của biểu đồ hộp để phát hiện dữ liệu dị biệt.
- Độ trải giữa chứa 50% giá trị dữ liệu nằm ở giữa tập dữ liệu.
- Để xác định các giá trị dị biệt, ta thiết lập cận dưới và cận trên cho tập dữ liệu. Các giá trị
nằm ngoài 2 cận này là các giá trị dị biệt.
Cận dưới = Q1 – 1,5 × độ trải giữa
Cận trên = Q3 + 1,5 × độ trải giữa
Xét dữ liệu thí dụ sau
Do đó: Q1 = 14 + 0,25(14-14) = 14
50 50
L2= (n+1) = (68 + 1) 100 = 34,5
100
Do đó: Q2 = 19 + 0,5(19-19) = 19
75 75
L3= (n+1) = (68 + 1) = 51,75
100 100
Do đó: Q3 = 26 + 0,75(26-26) = 26
Tóm lại: tứ phân vị của tập dữ liệu là: Q1 = 14, Q2 = 19, Q3 = 26
Xmin = 7, xmax = 91
Biểu đồ hộp được trình bày như hình.