You are on page 1of 72

ĐẠI HỌC DUY TÂN

CHƯƠNG 2: PHÂN BỐ TẦN


SỐ VÀ ĐỒ THỊ
Thời lượng trình bày slide: 180 phút
Người trình bày: Nguyễn Đắc Nhân
Thông tin Liên lạc: 0935759462
Người chịu trách nhiệm: Nguyễn Tấn Huy
www.duytan.edu.vn
MỤC LỤC
2.1 Tổ chức dữ liệu
2.2 Nhật đồ, đa giác tần số, hình cung
2.2.1 Nhật đồ
2.2.2 Đa giác tần số
2.2.3 Biểu đồ hình cung
2.2.4 Biểu đồ tần số tương đối
2.2.5 Các dạng phân phối

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
MỤC LỤC
3.1 Các đo lường khuynh hướng định tâm
3.1.1 Trung bình
3.1.2 Trung vị
3.1.3 Mode
3.1.4 Trung bình khoảng
3.2 Các đo lường tính biến thiên
3.2.1 Khoảng biến thiên
3.2.2 Phương sai và độ lệch chuẩn
3.2.3 Hệ số biến thiên
3.2.4 Định lý Chebyshev
3.2.5 Quy tắc kinh nghiệm
Link: https://www.youtube.com/watch?v=zjHfAhcU6kE
ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
3.3 Các đo lường về vị trí
3.3.1 Điểm chuẩn
3.3.2 Điểm bách phân
3.3.3 Điểm thập phân và tứ phân vị
3.3.4 Giá trị ngoại biên

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
2.1 Tổ chức dữ liệu

a. Đối với biến định tính: Ta lập bảng phân bố tần số phân loại
(categorical frequency distribution)
Dạng bảng phân bố tần số phân loại được trình bày như sau:

Lớp (Class) Ghi dấu (Tally) Tần số Phần trăm


(Frequency) (Percent)
𝑋𝑖 ///…. 𝑓𝑖 𝑓𝑖
൘σ 𝑓 × 100%
𝑖

Trong đó: 𝑋𝑖 Là một giá trị xuất hiện trong dữ liệu thu được
𝑓𝑖 Là số lần lặp lại giá trị của lớp 𝑋𝑖

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ 1: Một cuộc khảo sát về nhóm máu của một nhóm 30 sinh
viên bất kỳ thu được dữ liệu được cho dưới đây:
O O A A O B
AB O O A AB B
O O O A O O
A B B B O AB
O O O A A O

a. Hãy lập bảng phân bố tần số phân loại cho dữ liệu trên.
b. Dựa vào kết quả của câu a, hãy ước tính số người thuộc nhóm
máu O trong tất cả 25000 sinh viên của một trường đại học A.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Lời giải:
a.
Lớp Ghi dấu Tần số Phần trăm
Class Tally Frequency Percent
A /////,// 7 23.3
AB /// 3 10.0
B ///// 5 16.7
O /////,/////,///// 15 50.0
Total 30 100.0

b. Số người thuộc nhóm máu O trong tất cả 25000 sinh viên là:
25000 × 50% = 12500.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
b. Đối với biến định lượng
i. Phân bố tần số không ghép lớp: có dạng như sau

Lớp giới Lớp cận biên Ghi dấu Tần số (f) Phần trăm
hạn (Class Boundary) (Tally) (frequency) (Percent)
(Class
Limit)
𝑋𝑖 1 1 ///…. 𝑓𝑖 𝑓𝑖
𝑋𝑖 − đ𝑣đ𝑙 , 𝑋𝑖 + đ𝑣đ𝑙 ൘σ 𝑓 × 100%
2 2 𝑖

Trong đó: đvđl là đơn vị đo lường dữ liệu hay nói cách khác nó là độ
chia nhỏ nhất của dữ liệu.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ 2: Một thống kê về độ tuổi của 35 sinh viên ngẫu nhiên trong
một lớp học thu được dữ liệu sau:
18 18 19 18 19 20 20
18 18 18 19 18 19 18
18 19 20 21 22 19 19
18 18 18 20 19 18 18
19 20 18 19 18 20 22
a. Hãy lập phân bối tần số không ghép lớp cho dữ liệu thu được
trên.
b. Dựa vào kết quả của câu a, hãy ước tính số sinh viên có độ tuổi
18 trong 1000 sinh viên.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Lời giải:
a.
Lớp giới Lớp cận Ghi dấu Tần số Phần trăm
hạn biên

18 17.5 – 18.5 /////,/////,/////,/ 16 45.7

19 18.5 – 19.5 /////,///// 10 28.6


19.5 – 20.5
20 /////,/ 6 17.1
21 20.5 – 21.5 / 1 2.9

22 21.5 – 22.5 // 2 5.7

Tổng 35 100.0

b. Số sinh viên có độ tuổi 18 trong 1000 sinh viên là:


1000 × 45.7% = 457.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
ii. Phân bố tần số ghép lớp: Được sử dụng trong trường hợp số
lượng lớp đơn nhiều và tần số của mỗi lớp nhỏ.
Dạng phân bố tần số ghép được như sau:
Lớp giới hạn Lớp cận biên Ghi dấu Tần số (f) Phần trăm
(Class Limit) (Class Boundary) (Tally) (frequency) (Percent)
𝑋𝑖 , 𝑌𝑖 1 1 ///…. 𝑓𝑖 𝑓𝑖
𝑋𝑖 − đ𝑣đ𝑙 , 𝑌𝑖 + đ𝑣đ𝑙 ൘σ 𝑓 × 100%
2 2 𝑖

Vấn đề đặt ra là: cần bao nhiêu lớp? Mỗi lớp phải được xác định như
thế nào cho hợp lý?

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Cách xác định lớp giới hạn cho phân bố tần số ghép lớp

Bước 1: Tìm giá trị lớn nhất (H), giá trị nhỏ nhất (L)
Bước 2: Xác định phạm vi dữ liệu (Range): 𝑅 = 𝐻 − 𝐿
Bước 3: Chọn số lớp thích hợp (NC)
Bước 4: Tính độ rộng của mỗi lớp (Width): 𝑊 = 𝑅/𝑁𝐶 (sau đó làm
tròn lên đến hàng nhỏ nhất của dữ liệu)
Bước 5: Xác định lớp giới hạn:
 Các cận dưới (Lower Limit), kí hiệu LL và được xác định
𝐿𝐿1 = 𝐿, 𝐿𝐿𝑖 = 𝐿𝐿𝑖−1 + 𝑊, với 𝑖 ≥ 2
 Các cận trên (Upper Limit), kí hiệu UL và được xác định
𝑈𝐿𝑖 = 𝐿𝐿𝑖 + 𝑊 − đvđl.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ 3: Số tầng của 30 tòa nhà cao nhất thế giới được liệt
kê dưới đây:
88 88 110 88 80 69 102 78 70 55

79 85 80 100 60 90 77 55 75 55

54 60 75 64 105 56 71 70 65 72

Hãy xây dựng một phân bố tần số ghép lớp với 7 lớp.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Lời giải:
 𝐻 = 110, 𝐿 = 54
 𝑅 = 𝐻 − 𝐿 = 56
 𝑁𝐶 = 7
 W = 56/7 + 1 = 9
Lớp giới hạn Lớp cận biên Tần số Phần trăm
54 – 62 53.5 – 62.5 7 23.33
63 – 71 62.5 – 71.5 6 20.00
72 – 80 71.5 – 80.5 8 26.67
81 – 89 80.5 – 89.5 4 13.33
90 – 98 89.5 – 98.5 1 3.33
99 – 107 98.5 – 107.5 3 10.00
108 – 116 107.5 – 116.5 1 3.33

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ 4: Một cuộc khảo sát về chiều cao của 27 sinh viên
ngẫu nhiên thu được dữ liệu như sau (đơn vị mét)
1.70 1.62 1.55 1.51 1.54 1.67 1.65 1.63 1.66
1.71 1.73 1.65 1.63 1.60 1.57 1.59 1.52 1.54
1.59 1.57 1.55 1.70 1.58 1.66 1.60 1.75 1.69

Hãy lập phân bố tần số ghép lớp với 5 lớp.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Lời giải:
 𝐻 = 1.51, 𝐿 = 1.75
 𝑅 = 𝐻 − 𝐿 = 0.24
 𝑁𝐶 = 5
 𝑊 = 0.24/5 + 0.01 = 0.048, chọn 𝑊 = 0.05

Lớp giới hạn Lớp cận biên Tần số Phần trăm

1.51 – 1.55 1.505 – 1.555 6 22.2


1.56 – 1.60 1.555 – 1.605 7 25.9
1.61 – 1.65 1.605 – 1.655 5 18.5
1.66 – 1.70 1.655 – 1.705 6 22.2
1.71 – 1.75 1.705 – 1.855 3 11.1

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Câu hỏi:
1. Nêu một vài lý do cần phải tổ chức dữ liệu dưới dạng
phân bố tần số.
2. Phân tích rõ lý do khi nào dùng phân bố tần số phân
loại? Phân bố tần số không ghép lớp? Phân bố tần số
ghép lớp?

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
2.2 Nhật đồ, đa giác tần số, hình cung

2.2.1 Nhật đồ (histogram)


Nhật đồ là một biểu đồ biểu thị dữ liệu bằng cách sử dụng các
thanh dọc chạm sát vào nhau (trừ khi tần số của một lớp bằng 0),
chiều cao của mỗi thanh biểu thị tần số của mỗi lớp, mỗi thanh dọc
trải rộng từ cận biên dưới đến cận biên trên của mỗi lớp và mỗi
trung điểm của mỗi lớp rơi vào chính điểm giữa của thanh dọc.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ 5: Nhật đồ biểu diễn cho nhiệt độ cao kỷ lục (tính
bằng độ F) của 50 tiểu bang

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
2.2.2 Đa giác tần số (frequency polygon)
Đa giác tần số là một biểu đồ hiển thị dữ liệu bằng cách sử
dụng các đường nối các điểm được vẽ ra cho các tần số
trung điểm của các lớp. Chiều cao của các điểm biểu thị tần
số trung điểm của các lớp.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ 6: Đa giác tần số biểu diễn cho nhiệt độ cao kỷ lục
(tính bằng độ F) của 50 tiểu bang

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
2.2.3 Biểu đồ hình cung (ogives)
Để biểu thị cho phân bố tần số tích lũy ta thường sử
dụng biểu đồ hình cung.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ 7: Biểu đồ hình cung
biểu diễn cho nhiệt độ cao kỷ
lục (tính bằng độ F) của 50
tiểu bang.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
2.2.4 Biểu đồ tần số tương đối
Nhật đồ, đa giác tần số và hình cung được xây dựng bằng cách sử
dụng các tần số của dữ liệu thô. Những phân phối này có thể được
chuyển đổi sang phân phối bằng cách sử dụng tỷ lệ thay vì tần số
của dữ liệu thô. Các biểu đồ của phân phối kiểu này được gọi là biểu
đồ tần số tương đối (relative frequency graphs).
Biểu đồ tần số tương đối thay vì sử dụng tần số thì sử dụng tỷ lệ giá
trị dữ liệu rơi vào một lớp nhất định, điều này quan trọng hơn số
lượng thực tế của giá trị dữ liệu rơi vào lớp đó.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
2.2.5 Các dạng phân phối
Khi mô tả dữ liệu thì điều quan trọng là nhận ra dạng của các giá trị
phân phối. Trong các chương sau bạn sẽ thấy rằng dạng của một phân
phối cũng xác định các phương pháp thống kê thích hợp được sử
dụng để phân tích dữ liệu đó.
Một phân phối có thể có nhiều dạng và một trong những phương pháp
phân tích phân phối là vẽ nhật đồ hoặc đa giác tần số.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Một số dạng phân phối

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Một số dạng phân phối (tiếp theo)

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
BÀI HỌC THAM KHẢO

Link YouTube
https://www.youtube.com/watch?v=_q_5ZMNxuzg

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
ĐẠI HỌC DUY TÂN

Chương 3: MÔ TẢ DỮ LIỆU

www.duytan.edu.vn
3.1 Các đo lường khuynh hướng định tâm

3.1.1 Trung bình (Mean)


σ𝑛
𝑖 𝑋𝑖
 Trung bình mẫu: 𝑋ത = ,
𝑛
với 𝑋𝑖 là các giá trị trong mẫu, n là kích thước mẫu.
σ𝑁
𝑖 𝑋𝑖
 Trung bình tổng thể: μ = ,
𝑁
với 𝑋𝑖 là các giá trị trong tổng thể, N là kích thước tổng thể.
 Ý nghĩa của trung bình mẫu:
 Dùng làm đại diện cho mẫu dữ liệu.
 Dùng đánh giá (ước lượng) cho trung bình tổng thể.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ: Tìm trung bình cho mẫu dữ liệu về chiều cao của 10 sinh
viên ngẫu nhiên sau:
1.56 1.67 1.77 1.59 1.60
1.71 1.77 1.58 1.80 1.65

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Lời giải:
Chiều cao trung bình của mẫu 10 sinh viên là:

1.56 + 1.67 + 1.77 + 1.59 + ⋯ + 1.80 + 1.65


𝑋ത = = 1.67
10

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Trung bình cho dữ liệu dưới dạng
phân bố tần số không ghép lớp

Lớp Tần số Trung bình mẫu được xác định:


𝑿𝟏 𝒇𝟏
σ𝑘𝑖=1 𝑿𝒊 𝒇𝒊
𝑿𝟐 𝒇𝟐 𝑋ത = 𝑘
σ𝑖=1 𝒇𝒊
… …
𝑿𝒌 𝒇𝒌

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ: Thống kê về cân nặng của một nhóm sv và thu được kết
quả như sau:
Cân nặng (kg) 50 52 53 55 57
(X)
Số sv (f) 10 5 6 3 5

a. Tìm cân nặng trung bình của nhóm sinh viên trên.
b. Tìm phương sai và độ lệch chuẩn của mẫu trên.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Lời giải:
a. 𝑋ത = 52.69
b. 𝑠 2 = 6.58, s = 2.56

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Trung bình đối với dữ liệu cho dưới dạng ghép lớp
Bước 1: Lập bảng như sau:

Lớp Tần số 𝒇𝒊 Điểm giữa 𝑿𝒊 𝒇𝒊 𝑿𝒊

𝐿𝐿𝑖 +𝑈𝐿𝑖
Bước 2: Tính điểm giữa của mỗi lớp: 𝑋𝑖 = .
2
𝑘

Bước 3: Tính 𝑓𝑖 𝑋𝑖 và෍ 𝑓𝑖 𝑋𝑖


𝑖=1 σ𝑘𝑖=1 𝑓𝑖 𝑋𝑖
Bước 4: Trung bình của tập dữ liệu: 𝑋ത = 𝑘
σ𝑖=1 𝑓𝑖

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ: Cho bảng số liệu về số dặm chạy được trong một tuần của
20 vận động viên. Tìm trung bình của mẫu số liệu.

Lớp Tần số
5.5 – 10.5 1
10.5 – 15.5 2
15.5 – 20.5 3
20.5 – 25.5 5
25.5 – 30.5 4
30.5 – 35.5 3
35.5 – 40.5 2

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
3.1.2 Trung vị (Median)

Định nghĩa: Trung vị của một tập hợp đo lường là trị số rơi
vào chính giữa khi các số đo lường ấy được sắp xếp theo
thứ tự không giảm (hoặc không tăng).

Kí hiệu: MD

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Cách tìm trung vị của tập hợp dữ liệu
 Bước 1: Sắp xếp dữ liệu theo thứ tự không giảm (hoặc không
tăng).
 Bước 2: Xác định vị trí của số trung vị:
 Nếu 𝑛 lẻ thì 𝑀𝐷 = 𝑋1(𝑛+1)
2
𝑋𝑛 +𝑋𝑛+2
2
 Nếu 𝑛 chẵn thì 𝑀𝐷 = 2
2

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
3.1.3 Mode

Định nghĩa: Mode là giá trị của phần tử có số lần xuất hiện lớn
nhất trong mẫu dữ liệu.

Unimodal

Bimodal
Dữ liệu
Multimodal

No mode
Ý nghĩa?

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ: Cho bảng số liệu.

Lớp Tần số
5.5 – 10.5 1 Lớp có tần số lớn nhất
10.5 – 15.5 2
được gọi là lớp mode.
15.5 – 20.5 3
Modal
20.5 – 25.5 5
class
25.5 – 30.5 4
30.5 – 35.5 3
35.5 – 40.5 2

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
3.1.4 Trung bình khoảng (midrange)

Định nghĩa: Trung bình khoảng của một tập dữ liệu, ký hiệu
MR, được xác định bằng công thức:
𝑋𝑚𝑎𝑥 + 𝑋𝑚𝑖𝑛
𝑀𝑅 =
2

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Câu hỏi nhanh?

Hãy xác định câu nào đúng, câu nào sai? Nếu sai thì hãy
giải thích vì sao?
1. Tất cả các số liệu của một dữ liệu mẫu sẽ được sử
dụng để tính giá trị trung bình.
2. Các giá trị của một mẫu dữ liệu không ảnh hưởng
đến giá trị trung vị.
3. Một giá trị cực lớn có thể ảnh hưởng đến trung vị
nhiều hơn trung bình.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
3.2 Các thước đo về độ biến thiên

3.2.1 Khoảng biến thiên (Range):


Khoảng biến thiên của một tập hợp đo lường là hiệu số giữa giá trị
cao nhất và thấp nhất. Kí hiệu là R.

𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
3.2.2 Phương sai và độ lệch chuẩn

Phương sai
(Variance)

σ 𝑛 ത 2
𝑁 2 (𝑥
𝑖=1 𝑖 − 𝑋)
σ (𝑥
𝑖=1 𝑖 − 𝜇) 𝑠2 =
𝜎2 = 𝑛
𝑁
Mẫu
Tổng thể

𝜇: trung bình tổng thể ത trung bình mẫu


𝑋:
N: kích thước tổng thể n: kích thước mẫu
𝑥𝑖 : giá trị dữ liệu 𝑥𝑖 : giá trị dữ liệu

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Phương sai hiệu chỉnh mẫu

Phương sai
(Variance)

𝑁 2 𝑛 ത 2
σ 𝑖=1(𝑥𝑖 − 𝜇) σ (𝑥
𝑖=1 𝑖 − 𝑋)
𝜎2 = 𝑠2 =
𝑁 𝑛−1
Tổng thể Mẫu

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Độ lệch chuẩn
• Định nghĩa: Độ lệch chuẩn bằng căn bậc hai của phương sai.
σ𝑁
𝑖=1(𝑥𝑖 −𝜇)
2
 Tổng thể: 𝜎 = 𝜎 2=
𝑁

σ𝑛 ത 2
𝑖=1(𝑥𝑖 −𝑋)
 Mẫu: 𝑠 = 𝑠 2 =
𝑛−1

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ: Tìm trung bình, phương sai và độ lệch chuẩn của mẫu dữ
liệu về doanh số bán ôtô ở Châu Âu trong 6 năm được cho sau
đây (đơn vị triệu đô).
11.2, 11.9, 12.0, 12.8, 13.4, 14.3

Đáp án:
Trung bình: 𝑋ത = 12.6
Độ lệch chuẩn: 𝑠 = 1.129
Phương sai: 𝑠 2 = 1.276

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ: Cho dữ liệu sau. Xác định phương sai và độ lệch chuẩn
của dữ liệu.

Lớp Tần số
Sử dụng công thức:
5.5 – 10.5 1
10.5 – 15.5 2 σ 𝑘
(𝑋 − ത 2 𝑓𝑖
𝑋)
𝑖=1 𝑖
15.5 – 20.5 3 𝑠2 =
σ𝑘𝑖=1 𝑓𝑖 − 1
20.5 – 25.5 5
25.5 – 30.5 4 trong đó: 𝑋𝑖 là điểm giữa của
30.5 – 35.5 3 mỗi lớp.
35.5 – 40.5 2

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
3.2.3 Hệ số biến thiên (coefficient of variation)

Định nghĩa: Hệ số biến thiên, kí hiệu CVar, được xác định:

Hệ số biến thiên mẫu Hệ số biến thiên tổng


𝑠 thể
𝐶𝑉𝑎𝑟 = . 100% 𝜎
𝑋ത 𝐶𝑉𝑎𝑟 = . 100%
𝜇
Ý nghĩa: Được sử dụng để đo lường mức độ biến động tương
đối của những tập dữ liệu có trung bình khác nhau hoặc đơn vị
đo khác nhau.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Quy tắc tính rợ khoảng

 Ước lượng của độ lệch chuẩn qua khoảng biến thiên là:
𝑅
𝑠≈
4
 Ngoài ra,
𝑋𝑚𝑖𝑛 ≈ 𝑋ത − 2𝑠
𝑋𝑚𝑎𝑥 ≈ 𝑋ത + 2𝑠

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
3.2.4 Định lý Chebyshev

 Định lý:
Tỉ lệ (phần trăm) các giá trị từ tập dữ liệu nằm trong phạm vi
1
𝑋ത − 𝑘𝑠 đến 𝑋ത + 𝑘𝑠 sẽ có ít nhất 1 − , (𝑘 > 1) ,
𝑘2

hay

1
𝑃 𝑋ത − 𝑘𝑠 < 𝑋 < 𝑋ത + 𝑘𝑠 ≥ 1 − 2 .
𝑘

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ: Khảo sát 9 sinh viên trong một lớp về điểm thi kết thúc
môn XSTK thu được dữ liệu:
3 4 5 5 6 7 7 8 9
a. Tìm trung bình và độ lệch chuẩn mẫu.
b. Phần trăm tối thiểu sinh viên lớp đó có điểm trong mức từ
2.12 đến 9.88 bằng bao nhiêu?
c. Tìm phạm vi điểm của sinh viên trong đó có chứa ít nhất 25%
sinh viên?

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ: Thu nhập bình quân của lao động cơ khí ô tô là 54 đô mỗi
giờ. Độ lệch chuẩn là 4 đô. Tìm phần trăm tối thiểu của các giá trị
dữ liệu nằm trong phạm vi từ 48 đến 60 đô.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ: Một tập dữ liệu có trung bình là 57.12 và độ lệch
chuẩn 9.176. Hãy sử dụng định lý Chebyshev, tìm phạm
vi dữ liệu trong đó có ít nhất 25% giá trị dữ liệu nằm
trong đó.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Bài tập thảo luận cuối mục?

Tìm trung bình, phương sai và độ lệch chuẩn cho dữ liệu sau:

Số tiền chi tiêu (ngàn


250 350 450 550
đồng) (𝑥𝑖 )
Số khách hàng (𝑛𝑖 ) 22 26 24 9

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
3.2.5 Quy tắc kinh nghiệm
Riêng với dữ liệu có phân phối hình chuông thì các phát biểu dưới đây
tạo thành “quy tắc kinh nghiệm” luôn đúng:

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
3.3 Các đo lường về vị trí (Measures of Position)

3.3.1 Điểm chuẩn hay z-core (Standard score)

Công thức điểm chuẩn của giá trị X


𝑋−𝜇
Đối với tổng thể: 𝑧=
𝜎
𝑋−𝑋ത
Đối với mẫu: 𝑧 =
𝑠

Ý nghĩa: Điểm chuẩn z cho biết giá trị quan sát X cách xa
trung bình một khoảng bằng bao nhiêu lần độ lệch chuẩn.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
3.3.2 Điểm bách phân vị (percentile)

Định nghĩa: Điểm bách phân vị, kí hiệu P, chia tập dữ liệu thành
100 phần bằng nhau (khi dữ liệu được sắp xếp theo thứ tự từ nhỏ
đến lớn).
Công thức tìm bách phân vị ứng với giá trị X:
(𝑠ố 𝑐á𝑐 𝑔𝑖á 𝑡𝑟ị 𝑐ó 𝑣ị 𝑡𝑟í 𝑛ℎỏ ℎơ𝑛 𝑋) + 0.5
𝑃= 100
𝑛

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Quy trình để tìm giá trị tương ứng với thứ hạng
bách phân vị P cho trước:

Bước 1: Sắp xếp dữ liệu theo thứ tự từ nhỏ đến lớn.

𝑛𝑃
Bước 2: Sử dụng công thức 𝑐 =
100

Bước 3A: Nếu 𝑐 ∉ ℤ thì giá trị cần tìm là giá trị thứ 𝑐 +
1.

Bước 3B: Nếu 𝑐 ∈ ℤ thì giá trị cần tìm là trung bình cộng
giá trị thứ c và 𝑐 + 1.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
3.3.4 Thập phân vị (decide)

 Thập phân vị, kí hiệu 𝐷𝑖 , chia tập dữ liệu ra làm 10 phần bằng
nhau.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
3.3.3 Tứ phân vị (quartile)

 Tứ phân vị, kí hiệu 𝑄𝑖 , chia tập dữ liệu đã được sắp thứ tự


thành bốn phần, mỗi phần có số dữ liệu bằng nhau và bằng
25%.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Quy trình tìm tứ phân vị

 Bước 1: Sắp xếp dữ liệu theo thứ tự từ nhỏ đến lớn.


 Bước 2: Tìm trung vị của dữ liệu. Nó chính là 𝑄2 .
 Bước 3: Tìm trung vị của các giá trị dữ liệu có vị trí nhỏ hơn vị
trí của 𝑄2 . Nó chính là 𝑄1 .
 Bước 4: Tìm trung vị của các giá trị dữ liệu có vị trí lớn hơn vị
trí của 𝑄2 . Nó chính là 𝑄3 .

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ: Xác định các tứ phân vị của dữ liệu sau:

a. 18; 27; 26; 19; 13; 5; 25

b. 7; 6; 6; 5; 9; 10; 4; 11

Đáp án:
a. 𝑄1 = 13, 𝑄2 = 19, 𝑄3 = 26
b. 𝑄1 = 5.5, 𝑄2 = 6.5, 𝑄3 = 9.5

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
3.3.4 Giá trị ngoại biên hay cá biệt (outlier)

 Nhận biết: Một giá trị ngoại biên là một giá trị dữ liệu rất lớn
hoặc cực nhỏ so với các giá trị dữ liệu còn lại.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Quy trình tìm điểm ngoại biên

 Bước 1: Sắp xếp dữ liệu theo thứ tự và tìm 𝑄1 và 𝑄3 .


 Bước 2: Tìm khoảng tứ phân vị (interquartile range):
𝐼𝑄𝑅 = 𝑄3 − 𝑄1
 Bước 3: Tính 𝑄1 − 1.5(𝐼𝑄𝑅) và 𝑄3 + 1.5(𝐼𝑄𝑅).
 Bước 4: Các giá trị nằm ngoài đoạn từ 𝑄1 − 1.5(𝐼𝑄𝑅) đến
𝑄3 + 1.5 𝐼𝑄𝑅 là các giá trị ngoại biên.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Ví dụ: Kiểm tra các điểm ngoại biên đối với tập dữ liệu
sau:

14; 18; 27; 26; 19; 13; 5; 25

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Lời giải:
 5; 13; 14; 18; 19; 25; 26; 27.
 𝑄1 = 13.5, 𝑄3 = 25.5, IQR = 12
 𝑄1 − 1.5(𝐼𝑄𝑅) = −4.5; 𝑄3 + 1.5(𝐼𝑄𝑅) = 43.5
Vậy dữ liệu không có giá trị ngoại biên.

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
Câu hỏi nhanh?

Câu hỏi: 𝑃50 tương ứng với giá trị:


a. 𝑄2
b. 𝐷5
c. IQR
d. Midrange

ĐẠI HỌC DUY TÂN – DUY TAN UNIVERSITY www.duytan.edu.vn www .dtu.edu.vn www.duet.vn
ĐẠI HỌC DUY TÂN

www.duytan.edu.vn

You might also like