You are on page 1of 17

Thống kê Thống kê

ứng dụng ứng dụng

N.T. M. Ngọc N.T. M. Ngọc


Thống kê mô tả trong thực tế
VD: Công ty Small Fry Design là một công ty sản xuất các phụ kiện
1. Các đặc
trưng đo lường và đồ chơi, thiết kế và nhập khẩu các sản phẩm cho trẻ sơ sinh. Hiện
khuynh hướng
tập trung nay, các sản phẩm của công ty này được phân phối tại hơn 1000 cửa
Chương 2 Thống kê mô tả: Tóm tắt dữ liệu 2. Các đặc hàng bán lẻ trên khắp nước Mỹ.
trưng đo lường
khuynh hướng • Quản lý dòng tiền là một trong những hoạt động quan trọng
phân tán
nhất trong hoạt động hàng ngày của công ty này.
3. Khảo sát
hình dáng
phân phối của
• Phân tích và kiểm soát các khoản phải thu là một yếu tố quan
dữ liệu trọng của việc quản lý dòng tiền.
4. Phân tích
Nguyễn Thị Mộng Ngọc dữ liệu thăm • Bằng cách tính toán thời gian và giá trị trung bình của các hóa

University of Science, VNU - HCM đơn đến hạn phải trả, người quản lý có thể dự đoán sẵn tiền mặt
ngtmngoc@hcmus.edu.vn và giám sát các thay đổi về tình trạng của các khoản phải thu.
• Mục tiêu của công ty:
• thời gian trung bình cho các hóa đơn đến hạn không vượt
quá 45 ngày;
• giá trị ($) của các hóa đơn hơn 60 ngày không được vượt
quá 5% giá trị ($) của tất cả các khoản thu.

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
VD: Công ty Small Fry Design (tt) N.T. M. Ngọc
Các độ đo hướng tâm
1. Các đặc Số liệu thống kê mô tả sau được cung cấp cho thời gian của các hóa 1. Các đặc
trưng đo lường trưng đo lường
khuynh hướng đơn đến hạn phải trả: khuynh hướng
tập trung tập trung

2. Các đặc
• Trung bình: 40 ngày 2. Các đặc
trưng đo lường trưng đo lường
khuynh hướng • Trung vị: 35 ngày khuynh hướng
phân tán phân tán

3. Khảo sát • Mode: 31 ngày 3. Khảo sát


hình dáng hình dáng
phân phối của phân phối của
dữ liệu Các số liệu thống kê cho thấy thời hạn trung bình của một hóa đơn dữ liệu

4. Phân tích
là 40 ngày. Trung vị cho thấy 50% số hóa đơn có thời hạn là 35 ngày 4. Phân tích
dữ liệu thăm hoặc nhiều hơn. Mode cho thấy khoản thời hạn phổ biến nhất của dữ liệu thăm
dò dò
một hóa đơn đến hạn là 31 ngày.
Ngoài ra, tóm tắt thống kê cũng cho thấy chỉ có 3% của giá trị tính
bằng $ của tất cả các khoản phải thu là hơn 60 ngày.
Dựa trên các thông tin thống kê, ban quản lý đã
hài lòng với các khoản phải thu và dòng tiền đã
được kiểm soát.
Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Trung bình N.T. M. Ngọc
Trung bình (tt)
1. Các đặc 1. Các đặc
• Trung bình tổng thể:
trưng đo lường
khuynh hướng Trung bình (mean) là đại lượng thường được sử trưng đo lường
khuynh hướng
tập trung
dụng nhất để đo giá trị trung tâm của dữ liệu
tập trung Nếu một tổng thể có N phần tử được kí hiệu
2. Các đặc 2. Các đặc
trưng đo lường
khuynh hướng (của biến định lượng). Giả sử ta có dữ liệu (của trưng đo lường
khuynh hướng
là x1 , x2 , . . . , xN , thì trung bình tổng thể là
phân tán phân tán

3. Khảo sát tổng thể hoặc mẫu) là x1 , x2 , . . . , xn . Khi đó, 3. Khảo sát x1 + x2 + . . . + xN 1 N
X
hình dáng
trung bình (của tổng thể hoặc mẫu) là trung
hình dáng µ= = xi
phân phối của
dữ liệu
phân phối của
dữ liệu N N i=1
4. Phân tích bình cộng của các phần tử trong dữ liệu, tức là 4. Phân tích
dữ liệu thăm

dữ liệu thăm
dò • Trung bình mẫu:
1X n
xi Nếu n quan sát của một mẫu được kí hiệu là
n i=1 x1 , x2 , . . . , xn , thì trung bình mẫu là
Ta sẽ ký hiệu tổng này là µ (tương ứng x̄ ) nếu x1 + x2 + . . . + xn 1X n

dữ liệu là của tổng thể (tương ứng, của mẫu). x̄ = = xi


n n i=1

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Trung bình (tt) N.T. M. Ngọc
Trung bình (tt)
1. Các đặc 1. Các đặc Ví dụ: Bảng 3.1 Lương khởi điểm hàng tháng của 12 người tốt
trưng đo lường trưng đo lường
khuynh hướng khuynh hướng nghiệp ngành kinh doanh
tập trung
• Trường hợp dữ liệu có tần số như trong bảng tập trung

2. Các đặc 2. Các đặc


trưng đo lường
khuynh hướng
sau trưng đo lường
khuynh hướng
phân tán phân tán

3. Khảo sát
Giá trị dữ liệu x1 x2 . . . xk 3. Khảo sát
hình dáng
phân phối của Tần số tương ứng n1 n2 . . . nk hình dáng
phân phối của
dữ liệu dữ liệu

4. Phân tích trong đó, n1 + n2 + . . . + nk = n. 4. Phân tích


dữ liệu thăm dữ liệu thăm
dò Khi đó, trung bình mẫu được tính theo công dò

thức
1X k
Mức lương khởi điểm hàng tháng trung bình của mẫu gồm 12 sinh
x̄ = ni xi (1)
n i=1 viên tốt nghiệp ngành kinh doanh là :
P12
i=1 xi 3450 + 3550 + ... + 3480
x̄ = = = 3540
12 12
Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Trung bình (tt) N.T. M. Ngọc Khi dữ liệu được trình bày dưới dạng khoảng như
1. Các đặc 1. Các đặc sau
trưng đo lường trưng đo lường
khuynh hướng Ví dụ khác : Lương tháng của 16 công nhân được chọn ngẫu nhiên khuynh hướng
tập trung
(đv triệu đồng) trong một nhà máy như sau:
tập trung Giá trị dữ liệu < a1 [a1 , b1 [ . . . [ak , bk [ ≥ bk
2. Các đặc 2. Các đặc
trưng đo lường
khuynh hướng
trưng đo lường
khuynh hướng
Tần số tương ứng n1 n2 ... nk+1 nk+2
phân tán
Lương tháng 0,8 1,0 1,2 1,3 1,5 1,7 2 2,3 2,5 phân tán
Số công nhân 1 1 2 2 2 3 2 2 1 Bảng: Dữ liệu dưới dạng khoảng
3. Khảo sát 3. Khảo sát
hình dáng hình dáng
phân phối của phân phối của
dữ liệu
Lương trung bình hàng tháng của một công nhân từ mẫu gồm 16 dữ liệu

4. Phân tích công nhân trên là: 4. Phân tích


Giả sử rằng độ rộng các khoảng là như nhau, tức
dữ liệu thăm dữ liệu thăm

Pk P9
dò là bi − ai = c với mọi i. Khi đó, mỗi khoảng ta
i=1 ni xi i=1 ni xi thay bằng điểm chính giữa của khoảng, riêng hai
x̄ = =
n 16 khoảng đầu và cuối ta thay bằng a1 − c/2 và
0, 8 ∗ 1 + · · · + 2, 3 ∗ 2 + 2, 5 ∗ 1 bk + c/2. Sau đó, dùng công thức (1) để tính
x̄ = = 1, 625
16 trung bình.

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Trung bình (tt) N.T. M. Ngọc
Trung bình nhân
1. Các đặc Trung bình bị ảnh hưởng bởi các giá trị ngoại lai 1. Các đặc
trưng đo lường trưng đo lường
khuynh hướng
tập trung
(outliers). khuynh hướng
tập trung

2. Các đặc 2. Các đặc


trưng đo lường trưng đo lường
khuynh hướng khuynh hướng
phân tán phân tán

3. Khảo sát 3. Khảo sát


hình dáng hình dáng
phân phối của phân phối của
dữ liệu dữ liệu

4. Phân tích 4. Phân tích


dữ liệu thăm dữ liệu thăm
dò dò

Ví dụ: Giả sử rằng sinh viên tốt nghiệp ở bảng 3.1 có mức
lương khởi điểm cao nhất là 10000 USD/tháng không phải là
3925USD như trong bảng 3.1 thì trung bình mẫu thay đổi từ
3540 USD đến 4046 USD.
Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Trung bình nhân N.T. M. Ngọc
Trung vị mẫu
1. Các đặc
trưng đo lường
1. Các đặc
trưng đo lường • Trung vị mẫu (sample median) là giá trị chia
khuynh hướng khuynh hướng
tập trung tập trung
các quan sát thành hai phần bằng nhau. Một
2. Các đặc 2. Các đặc
trưng đo lường
khuynh hướng
trưng đo lường
khuynh hướng
phần chứa các quan sát nhỏ hơn trung vị và
phân tán phân tán

3. Khảo sát 3. Khảo sát


phần còn lại chứa các quan sát lớn hơn trung
hình dáng
phân phối của
hình dáng
phân phối của vị.
dữ liệu dữ liệu

4. Phân tích 4. Phân tích • Trung vị không bị ảnh hưởng bởi các giá trị
dữ liệu thăm dữ liệu thăm
dò dò ngoại lai (outliers).

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Trung vị mẫu (tt) N.T. M. Ngọc
Trung vị (tt)
1. Các đặc
trưng đo lường
Cách tìm trung vị 1. Các đặc
trưng đo lường
khuynh hướng khuynh hướng
tập trung
Sắp xếp dữ liệu mẫu theo thứ tự tăng dần. tập trung Ví dụ 1: Tìm trung vị về quy mô lớp cho mẫu
2. Các đặc • Nếu kích thước mẫu là lẻ thì trung vị là giá trị ở vị trí 2. Các đặc
trưng đo lường
khuynh hướng trung tâm của mẫu được sắp
trưng đo lường
khuynh hướng
của chín lớp đại học sau:
phân tán
• Nếu kích thước mẫu là chẵn thì trung vị là trung bình của
phân tán
35; 34; 32; 56; 30; 54; 46; 38; 42. Giải:
3. Khảo sát 3. Khảo sát
hình dáng
phân phối của
hai giá trị ở vị trí trung tâm của mẫu được sắp hình dáng
phân phối của • Sắp xếp dữ liệu theo thứ tự tăng dần :
dữ liệu dữ liệu

4. Phân tích Nói cách khác, gọi n là kích thước mẫu và 4. Phân tích
30; 32; 34; 35; 38; 42; 46; 54; 56.
dữ liệu thăm dữ liệu thăm

i = (n + 1)/2, thì
dò • n = 9 và i = (n + 1)/2 = (9 + 1)/2 = 5;
• Do n = 9 lẻ nên trung vị là giá trị thứ 5 hay
• Nếu n lẻ thì trung vị là giá trị thứ i hay xi (trung vị là giá
xi = x5 = 38. Vậy trung vị về quy mô lớp học
trị chính giữa);
• Nếu n chẵn thì trung vị là trung bình của hai giá trị thứ i
với mẫu trên là 38 sinh viên.
x[i] + x[i]+1
và thứ i + 1 hay trung vị = , với [i] là phần
2
nguyên của i (trung vị là trung bình của hai giá trị ở giữa).
Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Trung vị (tt) N.T. M. Ngọc
Trung vị (tt)
1. Các đặc Ví dụ 2: Tìm trung vị mức lương khởi điểm của 1. Các đặc
trưng đo lường trưng đo lường
khuynh hướng
tập trung
12 sinh viên trong bảng 3.1. Giải: khuynh hướng
tập trung

2. Các đặc
trưng đo lường
• Sắp xếp dữ liệu theo thứ tự tăng dần : 2. Các đặc
trưng đo lường
Trung vị không bị ảnh hưởng bởi các giá trị
khuynh hướng
phân tán 3310; 3355; 3450; 3480; 3480; 3490; 3520; khuynh hướng
phân tán ngoại lai (outliers).
3. Khảo sát
hình dáng 3540; 3550; 3650; 3730; 3925. 3. Khảo sát
hình dáng
Ví dụ: Giả sử rằng sinh viên tốt nghiệp ở bảng
phân phối của phân phối của
dữ liệu • n = 12 và i = (n + 1)/2 = (12 + 1)/2 = 6.5; dữ liệu 3.1 có mức lương khởi điểm cao nhất là 10000
4. Phân tích 4. Phân tích
dữ liệu thăm • Do n = 12 chẳn nên trung vị là trung bình dữ liệu thăm USD/tháng không phải là 3925 USD/tháng như
dò dò

của hai giá trị thứ 6 (x6 ) và thứ 7 (x7 ) hay trong bảng 3.1 thì trung vị vẫn không thay đổi vì
x[6] + x[6]+1 3490 + 3520 3490 USD và 3520 USD vẫn là hai giá trị ở giữa
trung vị = = =
2 2 như trên.
3505 . Vậy trung vị mức lương khởi điểm của
12 sinh viên tốt nghiệp đại học kinh doanh
trong bảng 3.1 là 3505 USD.

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Xác định trung vị cho dữ liệu có N.T. M. Ngọc
Xác định trung vị cho dữ liệu có
1. Các đặc
phân nhóm 1. Các đặc
phân nhóm
trưng đo lường trưng đo lường
khuynh hướng khuynh hướng
tập trung tập trung

2. Các đặc 2. Các đặc


trưng đo lường trưng đo lường
khuynh hướng khuynh hướng
phân tán phân tán

3. Khảo sát 3. Khảo sát


hình dáng hình dáng
phân phối của phân phối của
dữ liệu dữ liệu

4. Phân tích 4. Phân tích


dữ liệu thăm dữ liệu thăm
dò dò
Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Xác định trung vị cho dữ liệu có N.T. M. Ngọc
Mode
1. Các đặc
phân nhóm 1. Các đặc Mode của dữ liệu là giá trị của dữ liệu có tần số
trưng đo lường trưng đo lường
khuynh hướng
tập trung
khuynh hướng
tập trung
xuất hiện lớn nhất. Nếu mọi giá trị dữ liệu đều có
2. Các đặc
trưng đo lường
2. Các đặc
trưng đo lường
cùng tần số, ta nói dữ liệu không có mode.
khuynh hướng khuynh hướng
phân tán phân tán

3. Khảo sát 3. Khảo sát


hình dáng hình dáng
phân phối của phân phối của
dữ liệu dữ liệu

4. Phân tích 4. Phân tích


dữ liệu thăm dữ liệu thăm
dò dò
• Mode không bị ảnh hưởng bởi các điểm ngoại
lai (outlier);
• Mode có thể sử dụng cho cả dữ liệu số và dữ
liệu phân loại.
Ví du: Dữ liệu ở bảng 3.1, mode là 3480 vì chỉ có mức lương
khởi điểm hàng tháng có tần số cao nhất là 3480 USD.

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Xác định Mode cho dữ liệu phân N.T. M. Ngọc
Xác định Mode cho dữ liệu phân
1. Các đặc
nhóm có khoảng cách đều nhau 1. Các đặc
nhóm có khoảng cách đều nhau
trưng đo lường trưng đo lường
khuynh hướng khuynh hướng
tập trung tập trung

2. Các đặc 2. Các đặc


trưng đo lường trưng đo lường
khuynh hướng khuynh hướng
phân tán phân tán

3. Khảo sát 3. Khảo sát


hình dáng hình dáng
phân phối của phân phối của
dữ liệu dữ liệu

4. Phân tích 4. Phân tích


dữ liệu thăm dữ liệu thăm
dò dò
Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Xác định Mode cho dữ liệu phân N.T. M. Ngọc
Xác định Mode cho dữ liệu phân
1. Các đặc
nhóm có khoảng cách không đều 1. Các đặc
nhóm có khoảng cách không đều
trưng đo lường trưng đo lường
khuynh hướng nhau khuynh hướng nhau
tập trung tập trung

2. Các đặc 2. Các đặc


trưng đo lường trưng đo lường
khuynh hướng khuynh hướng
phân tán phân tán

3. Khảo sát 3. Khảo sát


hình dáng hình dáng
phân phối của phân phối của
dữ liệu dữ liệu

4. Phân tích 4. Phân tích


dữ liệu thăm dữ liệu thăm
dò dò

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
So sánh trung bình, trung vị và N.T. M. Ngọc
So sánh trung bình, trung vị và
1. Các đặc
mode 1. Các đặc
mode (tt)
trưng đo lường trưng đo lường
khuynh hướng khuynh hướng
tập trung tập trung

2. Các đặc
• Nếu dữ liệu có phân phối đối xứng, thì trung 2. Các đặc • nếu phân phối là lệch phải thì
trưng đo lường trưng đo lường
khuynh hướng
phân tán
bình và trung vị sẽ bằng nhau và rơi vào tâm
khuynh hướng
phân tán mode < trung vị < trung bình;
3. Khảo sát
hình dáng của phân phối.
3. Khảo sát
hình dáng • nếu phân phối là lệch trái thì
phân phối của phân phối của
dữ liệu
• Nếu dữ liệu có phân phối bị lệch (skewed)
dữ liệu mode > trung vị > trung bình.
4. Phân tích 4. Phân tích
dữ liệu thăm dữ liệu thăm
dò (tức là bất đối xứng, với một đuôi kéo dài về dò

một phía), thì trung bình và trung vị đều bị


kéo về phía đuôi dài hơn, nhưng trung bình,
thông thường, được kéo xa hơn trung vị.
Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Phân vị N.T. M. Ngọc
Phân vị (tt)
1. Các đặc Phân vị thứ p là một giá trị mà ít nhất có p% 1. Các đặc
trưng đo lường trưng đo lường Cách tính phân vị thứ p:
khuynh hướng các quan sát có giá trị nhỏ hơn hoặc bằng giá trị khuynh hướng
tập trung

2. Các đặc này và ít nhất có (100 − p)% các quan sát có giá
tập trung

2. Các đặc
• Bước 1: Sắp xếp dữ liệu theo thứ tự tăng dần.
trưng đo lường trưng đo lường
khuynh hướng
phân tán trị lớn hơn hoặc bằng giá trị này. khuynh hướng
phân tán
• Bước 2: Tính chỉ số i
3. Khảo sát Ví dụ: Các trường đại học thường báo cáo kết quả kiểm tra 3. Khảo sát p
hình dáng
phân phối của đầu vào dưới dạng phân vị. Giả sử, một sinh viên đạt được hình dáng
phân phối của i =( )∗n
dữ liệu
điểm của phần thi nói là 54 của một bài kiểm tra đầu vào. dữ liệu 100
4. Phân tích 4. Phân tích
• Làm thế nào để đánh giá sinh viên này trong mối liên hệ
dữ liệu thăm

dữ liệu thăm
dò trong đó, p là phân vị cần tính và n là số
với các sinh viên khác cùng tham gia bài kiểm tra tương
tự? quan sát.
• TL: không dễ dàng trả lời câu hỏi này nếu không biết gì • Bước 3:
thêm về dữ liệu. • Nếu i là một số nguyên, phân vị thứ p là trung bình của
• Tuy nhiên, nếu số điểm 54 tương ứng với phân vị thứ 70, hai giá trị ở vị trí thứ i và i + 1.
• Nếu i không phải là một số nguyên, làm tròn nó. Số
chúng ta biết rằng khoảng 70% số sinh viên đạt điểm thấp
nguyên tiếp theo lớn hơn i biểu thị vị trí của phân vị thứ p.
hơn so với sinh viên này và khoảng 30% số sinh viên có
điểm số cao hơn sinh viên này.

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Phân vị (tt) N.T. M. Ngọc
Tứ phân vị
Ví dụ 1: Hãy xác định phân vị thứ 85 cho các dữ liệu mức Tứ phân vị chia dữ liệu thành bốn phần, mỗi
1. Các đặc 1. Các đặc
trưng đo lường lương khởi điểm trong bảng 3.1? trưng đo lường
khuynh hướng
tập trung Giải :
khuynh hướng
tập trung
phần chứ khoảng 25% số quan sát.
2. Các đặc • Bước 1: Sắp xếp dữ liệu theo thứ tự tăng dần: 2. Các đặc
trưng đo lường trưng đo lường
khuynh hướng
phân tán
3310; 3355; 3450; 3480; 3480; 3490; 3520; 3540; 3550; 3650; khuynh hướng
phân tán

3. Khảo sát
3730; 3925. 3. Khảo sát
hình dáng • Bước 2: Tính hình dáng
phân phối của phân phối của
dữ liệu
p 85 dữ liệu

4. Phân tích i =( )∗n =( ) ∗ 12 = 10, 2. 4. Phân tích


dữ liệu thăm 100 100 dữ liệu thăm
dò dò
• Bước 3: Vì i vừa tính không phải là một số nguyên, làm
tròn nó. Vị trí của phân vị thứ 85 là số nguyên kế tiếp lớn
Hình 3.1 cho thấy một phân phối dữ liệu chia thành bốn phần.
hơn 10, 2 là vị trí thứ 11. Vậy, phân vị thứ 85 cho các dữ
Các điểm chia đgl Tứ phân vị và được xac định như sau:
liệu mức lương khởi điểm trong bảng 3.1 là giá trị dữ liệu
• Q1 = tứ phân vị thứ nhất, hay là phân vị thứ 25.
ở vị trí thứ 11 là 3730.
• Q2 = tứ phân vị thứ hai, hay là phân vị thứ 50
Ví dụ 2: Hãy xác định phân vị thứ 50 cho các dữ liệu mức (Q2 cũng được gọi là trung vị ).
lương khởi điểm trong bảng 3.1? • Q3 = tứ phân vị thứ ba, hay là phân vị thứ 75.
Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Ví dụ 2: Hãy xác định tứ phân vị cho các dữ N.T. M. Ngọc
Độ đo sự biến thiên của dữ liệu
1. Các đặc
liệu mức lương khởi điểm trong bảng 3.1? 1. Các đặc
(hay độ phân tán)
trưng đo lường
khuynh hướng
Giải : Chúng ta cần tìm phân vị thứ 25 (Q1 ) , phân vị thứ 50 trưng đo lường
khuynh hướng
tập trung (Q2 ) và phân vị thứ 75 (Q3 ). tập trung

2. Các đặc • Sắp xếp dữ liệu theo thứ tự tăng dần: 2. Các đặc
trưng đo lường trưng đo lường
khuynh hướng
phân tán
3310; 3355; 3450; 3480; 3480; 3490; 3520; 3540; 3550; 3650; khuynh hướng
phân tán

3. Khảo sát
3730; 3925. 3. Khảo sát
• Tìm Q1 : Tính i = ( 100p 25
hình dáng
phân phối của
) ∗ n = ( 100 ) ∗ 12 = 3. Vì i = 3 là hình dáng
phân phối của
dữ liệu một số nguyên nên phân vị thứ 25 là trung bình của hai dữ liệu

4. Phân tích
dữ liệu thăm
giá trị dữ liệu thứ ba và thứ tư hay 4. Phân tích
dữ liệu thăm
dò Q1 = (3450 + 3480)/2 = 3465. dò

50
• Tìm Q2 : Tính i = ( 100 ) ∗ 12 = 6. Vì i = 6 là một số
nguyên nên trung vị là trung bình của hai giá trị dữ liệu
thứ sáu và thứ bảy hay Q2 = (3490 + 3520)/2 = 3505.
75
• Tìm Q3 : Tính i = ( 100 ) ∗ 12 = 9. Vì i = 9 là một số
nguyên nên phân vị thứ 75 là trung bình của hai giá trị dữ
liệu thứ chín và thứ mười hay
Q3 = (3550 + 3650)/2 = 3600.

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Khoảng biến thiên hay N.T. M. Ngọc
Khoảng biến thiên (tt)
1. Các đặc
Miền giá trị mẫu (sample range) 1. Các đặc
trưng đo lường trưng đo lường
khuynh hướng Khoảng biến thiên = giá trị lớn nhất − giá trị nhỏ nhất. Ví dụ: khuynh hướng Khoảng biến thiên bị ảnh hưởng bởi các giá trị
tập trung tập trung
Khoảng biến thiên trong bộ dữ liệu ở bảng 3.1 là
2. Các đặc
trưng đo lường 3925 − 3310 = 615.
2. Các đặc
trưng đo lường
ngoại lai (hay giá trị đột biến).
khuynh hướng khuynh hướng
phân tán Hay miền giá trị mẫu là khoảng cách giữa giá trị lớn nhất và phân tán

3. Khảo sát giá trị nhỏ nhất trong mẫu. 3. Khảo sát
Ví dụ: Giả sử rằng sinh viên tốt nghiệp ở bảng 3.1 có mức
hình dáng
Nếu n quan sát trong một mẫu được kí hiệu là x1 , x2 , . . . , xn
hình dáng lương khởi điểm cao nhất là 10000 USD/tháng không phải là
phân phối của phân phối của
dữ liệu
thì miền giá trị mẫu là
dữ liệu 3925 USD/tháng như trong bảng 3.1 thì khoảng biến thiên
4. Phân tích
dữ liệu thăm
4. Phân tích
dữ liệu thăm
trong trường hợp này sẽ là 10000 − 3310 = 6690 không phải là

r = max(xi ) − min(xi ) dò 615 như đã tính ở trên.
Ta thấy rõ là giá trị khoảng biên thiên lớn trong trường hợp
này sẽ không mô tả tốt sự thay đổi trong bộ dữ liệu vì 11 trong
12 mức lương khởi điểm nằm trong khoảng 3310 USD và 3730
USD.
Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Độ trải giữa hay Khoảng tứ phân N.T. M. Ngọc
Ví dụ
1. Các đặc
vị (interquartile range - IQR) 1. Các đặc
trưng đo lường
khuynh hướng
trưng đo lường
khuynh hướng
Một công ty truyền thông khảo sát thói quen
tập trung
Độ trải giữa (hay Khoảng tứ phân vị ) (IQR) là tập trung
xem ti vi của một cộng đồng dân cư. 20 người
2. Các đặc 2. Các đặc
trưng đo lường
khuynh hướng
khoảng cách giữa tứ phân vị đầu tiên và tứ phân trưng đo lường
khuynh hướng được chọn ngẫu nhiên và có thời gian (giờ) xem
phân tán

3. Khảo sát
vị thứ ba; tức là, IQR = Q3 − Q1 . phân tán

3. Khảo sát
ti vi hàng tuần như sau:
hình dáng hình dáng
phân phối của Ví dụ: Đối với mức lương khởi điểm hàng tháng trong bảng phân phối của
dữ liệu dữ liệu 25 41 27 32 43
3.1, độ trải giữa là IQR = Q3 − Q1 = 3600 − 3465 = 135.
4. Phân tích
dữ liệu thăm
4. Phân tích
dữ liệu thăm 66 35 31 15 5
dò • Người ta thường sử dụng IQR để đo sự biến dò
34 26 32 38 16
thiên của dữ liệu khi trung vị được sử dụng 30 38 30 20 21
để đo trung tâm của dữ liệu.
• Tương tự trung vị, IQR không bị ảnh hưởng (a) Tìm các tứ phân vị của mẫu dữ liệu trên?
bởi các điểm ngoại lai (outlier). (b) Tìm khoảng tứ phân vị?

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Phương sai và độ lệch chuẩn N.T. M. Ngọc
Phương sai và độ lệch chuẩn
Phương sai là trung bình bình phương độ lệch so với giá trị • Nếu x1 , x2 , . . . , xn là một mẫu có n quan sát
1. Các đặc 1. Các đặc
trưng đo lường trung bình. Phương sai phản ánh mức độ phân tán các giá trị trưng đo lường
khuynh hướng
tập trung của các quan sát xung quanh giá trị trung bình.
khuynh hướng
tập trung và x̄ là trung bình mẫu thì phương sai mẫu là
2. Các đặc • Nếu x1 , x2 , . . . , xN là các phần tử của tổng thể và µ là 2. Các đặc
n
trưng đo lường trưng đo lường
(xi − x̄ )2
X
khuynh hướng trung bình tổng thể thì phương sai tổng thể là khuynh hướng
phân tán phân tán

3. Khảo sát
N
X
(xi − µ)2
3. Khảo sát s2 = i=1
.
hình dáng
phân phối của
hình dáng
phân phối của n−1
i=1
dữ liệu
σ2 = . dữ liệu

4. Phân tích N 4. Phân tích • Trường hợp dữ liệu có tần số ni của xi với
dữ liệu thăm dữ liệu thăm
dò • Trường hợp dữ liệu có tần số ni của xi với i = 1, 2, ..., k: dò
i = 1, 2, ..., k:
k
X
(xi − µ)2 ni k
k
(xi − x̄ )2 ni
X
i=1
X
σ2 = , trong đó, ni = N k
k
s2 = i=1 X
X
ni i=1 , với ni = n.
n−1 i=1
i=1
. √ √
• Độ lệch chuẩn tổng thể là σ = σ 2 . • Độ lệch chuẩn mẫu là s = s 2.
Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Phương sai và độ lệch chuẩn (tt) N.T. M. Ngọc
Phương sai và độ lệch chuẩn (tt)
1. Các đặc Ví dụ: Tính phương sai mẫu về dữ liệu lương khởi 1. Các đặc Ví dụ: Tính phương sai mẫu về dữ liệu lương khởi
trưng đo lường trưng đo lường
khuynh hướng
tập trung
điểm trong bảng 3.1 khuynh hướng
tập trung
điểm trong bảng 3.1
2. Các đặc 2. Các đặc
trưng đo lường trưng đo lường
khuynh hướng khuynh hướng
phân tán phân tán

3. Khảo sát 3. Khảo sát


hình dáng hình dáng
phân phối của phân phối của
dữ liệu dữ liệu

4. Phân tích 4. Phân tích


dữ liệu thăm dữ liệu thăm
dò dò

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
So sánh các độ lệch chuẩn N.T. M. Ngọc
Độ lệch tuyệt đối trung bình
1. Các đặc 1. Các đặc
trưng đo lường trưng đo lường
khuynh hướng khuynh hướng Lưu ý: Đối với bất kỳ bộ dữ liệu nào, tổng các độ lệch so với
tập trung tập trung
giá trị trung bình sẽ luôn bằng không,
2. Các đặc 2. Các đặc
trưng đo lường trưng đo lường
khuynh hướng khuynh hướng
n
X
phân tán phân tán (xi − x̄ ) = 0.
3. Khảo sát 3. Khảo sát i=1
hình dáng hình dáng
phân phối của phân phối của
dữ liệu dữ liệu Các độ lệch dương và các độ lệch âm bù trừ lẫn nhau, dẫn đến
4. Phân tích 4. Phân tích
dữ liệu thăm dữ liệu thăm
tổng các độ lệch so với giá trị trung bình bằng không.
dò dò

Để tránh tất cả các độ lệch so với giá trị trung bình triệt tiêu
lẫn nhau khi chúng ta cộng chúng lại với nhau, ta xét định
nghĩa độ lệch tuyệt đối trung bình như sau:
Pn
i=1 |xi − x̄ |
.
n
Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Hệ số biến thiên N.T. M. Ngọc
Ví dụ so sánh hệ số biến thiên
1. Các đặc
Hệ số biến thiên cho biết độ lệch chuẩn lớn bằng 1. Các đặc • Dữ liệu 1 có: trung bình x̄1 = 50 và độ lệch
trưng đo lường trưng đo lường
khuynh hướng
tập trung bao nhiêu lần so với trung bình,
khuynh hướng
tập trung
chuẩn s1 = 5 nên
2. Các đặc 2. Các đặc
trưng đo lường trưng đo lường
khuynh hướng
Độ lệch chuẩn khuynh hướng x̄1 5
phân tán
CV = × 100%.
phân tán
CV1 = × 100% = × 100% = 10%.
3. Khảo sát
hình dáng Ttrung bình 3. Khảo sát
hình dáng
s1 50
phân phối của
dữ liệu
phân phối của
dữ liệu • Dữ liệu 2 có: trung bình x̄2 = 100 và độ lệch
Hệ số biến thiên là một thống kê hữu ích để so
4. Phân tích
dữ liệu thăm
4. Phân tích
dữ liệu thăm chuẩn s2 = 5 nên
dò sánh độ phân tán của các biến có độ lệch chuẩn dò

khác nhau và trung bình khác nhau. x̄2 5


Ví dụ: Đối với bộ dữ liệu lương khởi điểm trong bảng 3.1, hệ số CV2 = × 100% = × 100% = 5%.
s2 100
biến thiên là [(165, 65/3540) × 100]% = 4, 7%. Hệ số biến
• Cả hai bộ dữ liệu có cùng độ lệch chuẩn
thiên này cho chúng ta biết độ lệch chuẩn mẫu chỉ bằng 4, 7%
giá trị trung bình mẫu.
nhưng dữ liệu 2 biến thiên ít hơn so với giá
trị của nó.

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Hệ số bất đối xứng (Skewness) N.T. M. Ngọc
Hệ số bất đối xứng (Skewness) (tt)
1. Các đặc 1. Các đặc
trưng đo lường trưng đo lường • Khi phân phối đối xứng, Skewness có giá trị là 0, thì trung
khuynh hướng khuynh hướng
tập trung tập trung bình, trung vị và mode bằng nhau;
2. Các đặc
Hệ số bất đối xứng (Skewness) là một đại lượng 2. Các đặc • Khi bộ dữ liệu có phân phối lệch phải, Skewness có giá trị
trưng đo lường trưng đo lường
khuynh hướng khuynh hướng dương, thì mode < trung vị < trung bình;
phân tán
số quan trọng đo lường hình dáng của một phân phân tán
• Khi bộ dữ liệu có phân phối lệch trái, Skewness có giá trị
3. Khảo sát 3. Khảo sát
hình dáng
phân phối của
phối. hình dáng
phân phối của âm, thì mode > trung vị > trung bình.
dữ liệu

4. Phân tích
Công thức tính Skewness cho dữ liệu mẫu: dữ liệu

4. Phân tích
dữ liệu thăm dữ liệu thăm

n n x − x̄ dò
i
)3 .
X
Skewness = (
(n − 1)(n − 2) i=1 s
Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Ví dụ: N.T. M. Ngọc
Giá trị z (giá trị chuẩn hóa)
Biểu đồ phân phối tần suất mô tả độ lệch
1. Các đặc 1. Các đặc
trưng đo lường của bốn phân phối: trưng đo lường Giả sử chúng ta có một mẫu gồm n quan sát với
khuynh hướng khuynh hướng
tập trung tập trung

2. Các đặc 2. Các đặc


các giá trị tương ứng x1 , x2 , ..., xn .
trưng đo lường
khuynh hướng
trưng đo lường
khuynh hướng Giá trị z (giá trị chuẩn hóa) được tính cho mỗi xi
phân tán phân tán
là:
3. Khảo sát
hình dáng
3. Khảo sát
hình dáng xi − x̄
phân phối của phân phối của zi = ,
dữ liệu dữ liệu
s
4. Phân tích 4. Phân tích
dữ liệu thăm dữ liệu thăm trong đó,
dò dò
• zi là giá trị z cho xi ;
• x̄ là trung bình mẫu;
• s là độ lệch chuẩn mẫu.

Giá trị z cho bất kỳ quan sát nào có thể hiểu như là một thước
đo vị trí tương đối của quan sát đó trong tập dữ liệu.

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Giá trị z (giá trị chuẩn hóa) (tt) N.T. M. Ngọc
Quy tắc Chebyshev
1. Các đặc
trưng đo lường
Ví dụ: Giá trị z của quy mô lớp học 1. Các đặc
trưng đo lường Quy tắc Chebyshev Ít nhất là (1 − 1/z 2 )100% số lượng giá trị
khuynh hướng khuynh hướng
tập trung tập trung dữ liệu nằm trong khoảng z độ lệch chuẩn so với giá trị trung
2. Các đặc 2. Các đặc bình, trong đó z là giá trị bất kỳ lớn hơn 1.
trưng đo lường trưng đo lường
khuynh hướng khuynh hướng
phân tán phân tán
Ý nghĩa của quy tắc này: Với một tổng thể bất kì có trung bình
3. Khảo sát 3. Khảo sát
hình dáng hình dáng µ và độ lệch chuẩn σ, và z > 1, có ít nhất [1 − (1/z 2 )]100%
phân phối của phân phối của
dữ liệu dữ liệu các giá trị quan trắc nằm trong khoảng [µ − zσ, µ + zσ]
4. Phân tích
dữ liệu thăm
4. Phân tích
dữ liệu thăm
• Với z = 2: ít nhất 75% các giá trị dữ liệu nằm trong
dò dò
khoảng z = 2 độ lệch chuẩn so với giá trị trung bình, hay
ít nhất 75% các giá trị rơi vào khoảng (µ − 2σ, µ + 2σ).
Trong bảng 3.4, ta thấy giá trị z là −1, 5 của • Với z = 3: ít nhất 89% các giá trị dữ liệu nằm trong
khoảng z = 3 độ lệch chuẩn so với giá trị trung bình.
quan sát thứ năm cho thấy quan sát này ở xa so
• Với z = 4: ít nhất 94% các giá trị dữ liệu nằm trong
với trung bình; giá trị của quan sát này nhỏ hơn khoảng z = 4 độ lệch chuẩn so với giá trị trung bình.
trung bình 1, 5 lần độ lệch chuẩn.
Thống kê Thống kê Ví dụ khác : Giả sử rằng các điểm kiểm tra giữ kỳ cho 100 sinh
ứng dụng ứng dụng
Ví dụ: viên của khóa học thống kê có điểm trung bình là 70 và độ
N.T. M. Ngọc N.T. M. Ngọc
lệch chuẩn là 5. Có bao nhiêu sinh viên có điểm kiểm tra nằm
1. Các đặc 1. Các đặc giữa 60 và 80? Có bao nhiêu sinh viên có điểm kiểm tra nằm
trưng đo lường trưng đo lường
khuynh hướng khuynh hướng giữa 58 và 82?
tập trung tập trung
• Chúng ta thấy 60 và 80 lần lượt ở dưới và ở trên trung
2. Các đặc 2. Các đặc
trưng đo lường
khuynh hướng
trưng đo lường
khuynh hướng
bình 2 lần độ lệch chuẩn. Theo quy tắc Chebyshev, ta biết
phân tán phân tán được có ít nhất 75% các quan sát có giá trị nằm trong
3. Khảo sát
hình dáng
3. Khảo sát
hình dáng
khoảng z = 2 độ lệch chuẩn so với giá trị trung bình. Như
phân phối của
dữ liệu
phân phối của
dữ liệu
vậy, ít nhất có 75% số sinh viên có điểm kiểm tra nằm
4. Phân tích 4. Phân tích
giữa 60 và 80.
dữ liệu thăm dữ liệu thăm • Chúng ta thấy rằng (58 − 70)/5 = −2, 4 cho thấy 58 ở
dò dò
dưới trung bình 2,4 lần độ lệch chuẩn và
(82 − 70)/5 = 2, 4 cho thấy 82 ở trên trung bình 2,4 lần
độ lệch chuẩn. Áp dụng quy tắc Chebychev với z = 2, 4,
ta có :
1
(1 − 1/z 2 ) = (1 − = 0, 826.
2, 42
Vậy có ít nhất 82, 6% số sinh viên có điểm kiểm tra nằm
giữa 58 và 82.

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Quy tắc thực nghiệm N.T. M. Ngọc

1. Các đặc Quy tắc Chebyshev áp dụng cho bất kỳ tập dữ 1. Các đặc
Ví dụ: Hộp carton đựng nước giặt được tự động đóng gói trong
trưng đo lường trưng đo lường
một dây chuyền sản xuất. Trọng lượng sau khi đóng gói thường
khuynh hướng
tập trung liệu nào bất kể hình dáng của phân phối dữ liệu. khuynh hướng
tập trung có phân phối hình chuông.
2. Các đặc
trưng đo lường
Quy tắc thực nghiệm áp dụng cho những tập dữ 2. Các đặc
trưng đo lường
Nếu trọng lượng trung bình là x̄ = 16 ounce và độ lệch chuẩn
khuynh hướng khuynh hướng
phân tán liệu được cho là xấp xỉ phân phối Gauss (hay phân tán
là s = 0, 25 ounce, áp dụng quy tắc thực nghiệm chúng ta có
thể rút ra kết luận sau:
3. Khảo sát
hình dáng phân phối hình chuông). 3. Khảo sát
hình dáng
phân phối của phân phối của • Khoảng 68% các hộp có trọng lượng nằm giữa 15,75 và
dữ liệu Ý nghĩa của quy tắc thực nghiệm dữ liệu
16,25 (x̄ ± 1s).
4. Phân tích
• Khoảng 68% của các giá trị dữ liệu sẽ nằm trong khoảng 4. Phân tích
dữ liệu thăm

dữ liệu thăm

• Khoảng 95% các hộp có trọng lượng nằm giữa 15,50 và
cộng và trừ 1 độ lệch chuẩn so với giá trị trung bình
16,50 (x̄ ± 2s).
(x̄ ± 1s).
• Hầu như tất cả các hộp có trọng lượng nằm giữa 15,25 và
• Khoảng 95% của các giá trị dữ liệu sẽ nằm trong khoảng
16,75 (x̄ ± 3s).
cộng và trừ 2 độ lệch chuẩn so với giá trị trung bình
(x̄ ± 2s).
• Hầu như tất cả các giá trị dữ liệu sẽ nằm trong khoảng 3
độ lệch chuẩn so với giá trị trung bình (x̄ ± 3s).
Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Ví dụ khác : N.T. M. Ngọc
Phát hiện các giá trị ngoại lai (hay
1. Các đặc 1. Các đặc
bất thường)
trưng đo lường trưng đo lường
khuynh hướng khuynh hướng
tập trung tập trung

2. Các đặc 2. Các đặc


trưng đo lường
khuynh hướng
trưng đo lường
khuynh hướng
Những giá trị quá lớn hoặc quá nhỏ trong một
phân tán phân tán

3. Khảo sát 3. Khảo sát


tập dữ liệu đgl giá trị ngoại lai (hay giá trị bất
hình dáng
phân phối của
hình dáng
phân phối của thường).
dữ liệu dữ liệu

4. Phân tích 4. Phân tích


Giá trị z (giá trị chuẩn hóa) có thể được sử dụng
dữ liệu thăm dữ liệu thăm
dò dò để xác định giá trị ngoại lai (hay giá trị bất
thường). Khi đó, bất kỳ giá trị dữ liệu nào với giá
trị z nhỏ hơn −3 hoặc lớn hơn 3 thì được xem là
giá trị ngoại lai (hay bất thường).

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Độ lệch chuẩn tuyệt đối trung bình N.T. M. Ngọc
Ví dụ:
Độ lệch chuẩn tuyệt đối trung bình là số bình quân số học của Có sos liệu về năng suất lao động năm của công nhân trong một
1. Các đặc 1. Các đặc
trưng đo lường các độ lệch tuyệt đối giữa các lượng biến với bình quân số học của trưng đo lường doanh nghiệp như sau:
khuynh hướng khuynh hướng
tập trung các lượng biến đó. tập trung

2. Các đặc 2. Các đặc


trưng đo lường trưng đo lường
khuynh hướng khuynh hướng
phân tán phân tán

3. Khảo sát 3. Khảo sát


hình dáng hình dáng
phân phối của phân phối của
dữ liệu dữ liệu

4. Phân tích 4. Phân tích


dữ liệu thăm dữ liệu thăm
dò dò

• Tính trung bình


x̄ = 20
• Tính độ lệch chuẩn tuyệt đối trung bình

| 10 − 20 | 10+ | 15 − 20 | 20 + ...+ | 35 − 20 | 10 400


d̄ = = =4
10 + 20 + 50 + 10 + 10 100
Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
3.4 Phân tích dữ liệu thăm dò N.T. M. Ngọc
Bộ tóm tắt năm số
1. Các đặc 1. Các đặc
trưng đo lường trưng đo lường
khuynh hướng Ngoài kỹ thuật phân tích dữ liệu thăm dò bằng biểu đồ nhánh khuynh hướng
tập trung
lá, chúng ta còn có thể dùng cách xem xét bộ tóm tắt năm trị
tập trung
Cách xây dựng bộ tóm tắt năm số:
2. Các đặc 2. Các đặc
trưng đo lường
khuynh hướng số hoặc dùng biểu đồ hộp.
trưng đo lường
khuynh hướng
• Sắp xếp dữ liệu theo thứ tự tăng dần;
phân tán phân tán

3. Khảo sát 3. Khảo sát • Xác định giá trị nhỏ nhất; ba tứ phân vị (Q1 ,
hình dáng hình dáng
phân phối của
dữ liệu
Bộ tóm tắt năm số gồm: phân phối của
dữ liệu
Q2 và Q3 ) và giá trị lớn nhất.
4. Phân tích
dữ liệu thăm
• Giá trị nhỏ nhất; 4. Phân tích
dữ liệu thăm

• Tứ phân vị thứ nhất (Q1 );

Ví dụ:
• Trung vị (Q2 ); Bộ tóm tắt năm số cho các dữ liệu trong bảng
3.1 về mức lương khởi điểm hàng tháng là :
• Tứ phân vị thứ ba (Q3 );
3310, 3465, 3505, 3600, 3925.
• Giá trị lớn nhất.

Thống kê Thống kê
ứng dụng ứng dụng

N.T. M. Ngọc
Biểu đồ hộp N.T. M. Ngọc
Biểu đồ hộp (tt)
1. Các đặc Một biểu đồ hộp là một tóm tắt bằng hình vẽ của dữ liệu dự 1. Các đặc
trưng đo lường
khuynh hướng trên một bộ tóm tắt năm số.
trưng đo lường
khuynh hướng
Ví dụ: Biểu đồ hộp cho các dữ liệu trong bảng
tập trung
Cách xây dựng biểu đồ hộp: tập trung
3.1 về mức lương khởi điểm hàng tháng được xây
2. Các đặc
trưng đo lường
B1. Xác định ba tứ phân vị (Q1 , Q2 và Q3 ) và độ trải giữa
2. Các đặc
trưng đo lường dựng như sau:
khuynh hướng khuynh hướng
phân tán (IQR = Q3 − Q1 ); phân tán • Một hộp được vẽ với các cạnh của hộp nằm ở Q1 = 3465 và
3. Khảo sát 3. Khảo sát Q3 = 3600;
hình dáng B2. Xác định các giá trị bất thường: điểm ngoại lai (outlier) và cực hình dáng
phân phối của phân phối của
dữ liệu ngoại lai (extreme outlier) (nếu có) và giá trị nhỏ nhất, giá rị dữ liệu
• Đường thẳng được vẽ trong hộp ở vị trí trung vị Q2 = 3505;
4. Phân tích
lớn nhất. 4. Phân tích • Với IQR = Q3 − Q1 = 135, ta có các giới hạn cho biểu đồ hộp
dữ liệu thăm dữ liệu thăm
dò B3. Vẽ một trục tọa độ ngang (hoặc dọc), và vẽ các đoạn thẳng tại dò là Q1 − 1, 5IQR = 3465 − 1, 5 ∗ 135 = 3262, 5 và
Q1 , Q2 và Q3 . Đóng khung các đoạn thẳng này trong một hộp. Q3 + 1, 5IQR = 3600 + 1, 5 ∗ 135 = 3802, 5. Dữ liệu nằm ngoài
các giới hạn này được xem là các giá trị bất thường.
B4. Vẽ một đoạn thẳng (bằng đường đứt nét) từ Q1 đến giá trị dữ
liệu nhỏ nhất nhưng lớn hơn Q1 − 1, 5IQR. Vẽ một đoạn thẳng • Vẽ các râu bằng đường đứt nét từ các cạnh của hộp đến giá trị
(bằng đường đứt nét) từ Q3 đến giá trị dữ liệu lớn nhất nhưng tiền lương 3310 và 3730.
nhỏ hơn Q3 + 1, 5IQR. • Dùng biểu tượng dấu sao ∗ để đánh dấu điểm ngoại lai 3925.
B5. Đánh dấu các điểm outlier và extreme outlier.
Thống kê
ứng dụng

N.T. M. Ngọc
Biểu đồ hộp (tt)
1. Các đặc
trưng đo lường
khuynh hướng
tập trung

2. Các đặc
Biểu đồ hộp về mức lương khởi điểm hàng tháng
trưng đo lường
khuynh hướng
phân tán

3. Khảo sát
hình dáng
phân phối của
dữ liệu

4. Phân tích
dữ liệu thăm

You might also like