Professional Documents
Culture Documents
XSTK XSTK
2. Thống kê
những quan sát, những phép đếm, những đo 2. Thống kê
mô tả: trình
bày dữ liệu đạc, hoặc các câu trả lời. mô tả: trình
bày dữ liệu
• Tham số (parameter) là một mô tả số về
2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị • Thống kê (statistics) là khoa học về thu
2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
một đặc trưng của một tổng thể.
2.2 Tóm tắt dữ liệu 2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị thập, tổ chức, phân tích, và giải thích dữ liệu định lượng: phương
pháp bảng và đồ thị • Thống kê (statistic) là một mô tả số về
2.3 Phương pháp 2.3 Phương pháp
nhánh lá
3. Mô tả dữ
để đưa ra các quyết định. nhánh lá
3. Mô tả dữ
một đặc trưng của một mẫu.
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo • Tổng thể (population) là toàn bộ tập hợp 3.1 Các đặc trưng đo
lường khuynh hướng
tập trung
lường khuynh hướng
tập trung Tham số −→ Tổng thể
3.2 Độ đo sự biến
thiên
tất cả các phần tử đồng nhất theo một dấu 3.2 Độ đo sự biến
thiên
3.3 Khảo sát hình
dáng phân phối của
hiệu nghiên cứu định tính hoặc định lượng 3.3 Khảo sát hình
dáng phân phối của
Thống kê −→ Mẫu
dữ liệu dữ liệu
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò
nào đó. thăm dò
2. Thống kê 2. Thống kê
mô tả: trình mô tả: trình
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu 2.1 Tóm tắt dữ liệu
định tính: phương định tính: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu 2.2 Tóm tắt dữ liệu
định lượng: phương định lượng: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.3 Phương pháp 2.3 Phương pháp
nhánh lá nhánh lá
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo
lường khuynh hướng
Ví dụ: 3.1 Các đặc trưng đo
lường khuynh hướng
tập trung tập trung
3.2 Độ đo sự biến • Trong một cuộc khảo sát gần đây, 150 sinh viên trường ĐH 3.2 Độ đo sự biến
thiên thiên
3.3 Khảo sát hình KHTN được hỏi rằng họ có tham gia vào một cuộc thi học 3.3 Khảo sát hình
dáng phân phối của dáng phân phối của
dữ liệu thuật nào đó trong năm hay không. 35 sinh viên trả lời có. Xác dữ liệu
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò định tổng thể và mẫu? thăm dò
• Vào cuối ngày, một thanh tra kiểm soát chất lượng chọn 20
bóng đèn từ các bóng đèn được sản xuất trong ngày và kiểm
tra chúng.
XSTK XSTK
N.T. M. Ngọc Chọn mẫu ngẫu nhiên N.T. M. Ngọc Tham số và thống kê
1. Một số 1. Một số
khái niệm khái niệm
thường dùng
trong thống kê
thường dùng
trong thống kê Ví dụ: Hãy xác định giá trị số sau đây mô tả
2. Thống kê
mô tả: trình
2. Thống kê
mô tả: trình một tham số tổng thể hay một thống kê mẫu?
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu
định tính: phương
2.1 Tóm tắt dữ liệu
định tính: phương (a) Một khảo sát về một mẫu 250 sinh viên đại
pháp bảng và đồ thị pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị
học báo cáo rằng chi tiêu trung bình hàng
2.3 Phương pháp
nhánh lá
2.3 Phương pháp
nhánh lá tuần của các sinh viên là 350.000 đ.
3. Mô tả dữ 3. Mô tả dữ Bởi vì giá trị trung bình 350.000 đ dựa trên một mẫu,
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo
lường khuynh hướng
3.1 Các đặc trưng đo
lường khuynh hướng
nên đây là một thống kê mẫu.
tập trung tập trung
3.2 Độ đo sự biến
thiên
3.3 Khảo sát hình
3.2 Độ đo sự biến
thiên
3.3 Khảo sát hình
(b) Chi tiêu trung bình hàng tuần của tất cả các
dáng phân phối của
dữ liệu
3.4 Phân tích dữ liệu
dáng phân phối của
dữ liệu
3.4 Phân tích dữ liệu
sinh viên là 400.000 đ.
thăm dò thăm dò Bởi vì giá trị trung bình 400.000 đ dựa trên một tổng thể,
nên đây là một tham số tổng thể.
XSTK XSTK
N.T. M. Ngọc Các loại thang đo N.T. M. Ngọc Phân loại dữ liệu
1. Một số 1. Một số
khái niệm khái niệm • Dữ liệu định tính: thu thập từ thang đo danh nghĩa
thường dùng thường dùng
trong thống kê • Thang đo danh nghĩa: dùng để phân loại trong thống kê và thứ bậc ⇒ không tính được trị trung bình.
2. Thống kê
mô tả: trình • Thang đo thứ bậc: phản ánh sự hơn kém;
2. Thống kê
mô tả: trình
• Dữ liệu định lượng: thu thập từ thang đo khoảng
bày dữ liệu bày dữ liệu
cách và tỷ lệ ⇒ tính được trị trung bình.
2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
dùng cho biến định tính, để xếp hạng hay sắp 2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị
xếp theo thứ tự giá trị một biến theo một đậc 2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị
2.3 Phương pháp
nhánh lá tính cụ thể. 2.3 Phương pháp
nhánh lá
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng
3.1 Các đặc trưng đo
• Thang đo khoảng : phản ánh mức độ hơn liệu định lượng
3.1 Các đặc trưng đo
lường khuynh hướng lường khuynh hướng
tập trung
3.2 Độ đo sự biến
kém; dùng cho biến định lượng; cung cấp mối tập trung
3.2 Độ đo sự biến
thiên thiên
3.3 Khảo sát hình
dáng phân phối của
quan hệ thứ bậc như thang đo định hạng. 3.3 Khảo sát hình
dáng phân phối của
dữ liệu dữ liệu
3.4 Phân tích dữ liệu
thăm dò • Thang đo tỷ lệ: phản ánh mức độ hơn kém và 3.4 Phân tích dữ liệu
thăm dò
XSTK XSTK
N.T. M. Ngọc Phân loại dữ liệu N.T. M. Ngọc Ví dụ: Dữ liệu thời điểm
1. Một số 1. Một số
khái niệm khái niệm
thường dùng thường dùng
trong thống kê trong thống kê
2. Thống kê 2. Thống kê
mô tả: trình mô tả: trình
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu 2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
• Dữ liệu thời điểm: dữ liệu được thu thập ở định tính: phương
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
định lượng: phương định lượng: phương
pháp bảng và đồ thị
2.3 Phương pháp
cùng hoặc xấp xỉ vào cùng một thời điểm. pháp bảng và đồ thị
2.3 Phương pháp
nhánh lá nhánh lá
N.T. M. Ngọc Ví dụ: Dữ liệu chuỗi thời gian N.T. M. Ngọc Các nhánh của thống kê
1. Một số 1. Một số
khái niệm khái niệm
thường dùng thường dùng
trong thống kê trong thống kê Nghiên cứu thống kê có hai nhánh chính: thống kê mô tả
2. Thống kê
mô tả: trình
2. Thống kê
mô tả: trình
và thống kê suy diễn.
bày dữ liệu
2.1 Tóm tắt dữ liệu
bày dữ liệu
2.1 Tóm tắt dữ liệu
• Thống kê mô tả: Liên quan đến việc thu thập, tổ
định tính: phương định tính: phương
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
chức, xử lý dữ liệu để biến đỏi dữ liệu thành thông tin;
định lượng: phương
pháp bảng và đồ thị
định lượng: phương
pháp bảng và đồ thị tổng hợp dữ liệu(tính trung bình mẫu, phương sai
2.3 Phương pháp
nhánh lá
2.3 Phương pháp
nhánh lá mẫu, trung vị, ...) và và trình bày dữ liệu (dùng bảng
3. Mô tả dữ
liệu định lượng
3. Mô tả dữ
liệu định lượng
và đồ thị).
3.1 Các đặc trưng đo
lường khuynh hướng
3.1 Các đặc trưng đo
lường khuynh hướng • Thống kê suy diễn: Liên quan đến việc sử dụng một
tập trung tập trung
3.2 Độ đo sự biến
thiên
3.2 Độ đo sự biến
thiên
mẫu để rút ra kết luận về một tổng thể. Suy diễn
3.3 Khảo sát hình 3.3 Khảo sát hình
thống kê là xử lý các thông tin có được từ đó đưa ra
dáng phân phối của
dữ liệu
3.4 Phân tích dữ liệu
Dữ liệu trong Hình 1.1 cho thấy giá trung bình dáng phân phối của
dữ liệu
3.4 Phân tích dữ liệu các cơ sở cho những dự đoán , dự báo và các ước
thăm dò
của mỗi gallon xăng không chì tại Mỹ từ tháng thăm dò
XSTK XSTK
N.T. M. Ngọc Phân phối tần số (Frequency N.T. M. Ngọc Phân phối tần suất
1. Một số
khái niệm
distribution) 1. Một số
khái niệm
thường dùng
trong thống kê
Bảng tóm tắt dữ liệu thể hiện số lượng (tần số) của giá trị dữ liệu thường dùng
trong thống kê • Phân phối tần suất (Relative frequency
trong mỗi nhóm riêng biệt. Ví dụ:
2. Thống kê
mô tả: trình
2. Thống kê
mô tả: trình
distribution): Bảng tóm tắt dữ liệu thể hiện tỷ
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu
định tính: phương
2.1 Tóm tắt dữ liệu
định tính: phương
lệ các giá trị dữ liệu trong mỗi nhóm riêng biệt.
pháp bảng và đồ thị pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
định lượng: phương
2.2 Tóm tắt dữ liệu
định lượng: phương
Với n là số quan sát trong tập dữ liệu (cỡ mẫu):
pháp bảng và đồ thị pháp bảng và đồ thị
2.3 Phương pháp 2.3 Phương pháp
nhánh lá nhánh lá
tần số
3. Mô tả dữ
liệu định lượng
3. Mô tả dữ
liệu định lượng
tần suất = .
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
n
lường khuynh hướng lường khuynh hướng
tập trung tập trung
3.2 Độ đo sự biến
thiên
3.2 Độ đo sự biến
thiên • Phân phối tần suất phần trăm (Percent
3.3 Khảo sát hình 3.3 Khảo sát hình
dáng phân phối của
dữ liệu
dáng phân phối của
dữ liệu frequency distribution): Bảng tóm tắt dữ liệu
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò
thể hiện tỷ lệ % của các giá trị dữ liệu trong
mỗi nhóm riêng biệt.
XSTK XSTK
N.T. M. Ngọc Bảng phân phối tần suất và tần N.T. M. Ngọc Biểu đồ thanh (Bar graph)
1. Một số
khái niệm
suất phần trăm của nước ngọt 1. Một số
khái niệm Biểu đồ mô tả dữ liệu định tính đã được tóm tắt
thường dùng thường dùng
trong thống kê trong thống kê trong bảng phân phối tần số, tần suất hoặc tần
2. Thống kê 2. Thống kê
mô tả: trình mô tả: trình suất phần trăm.
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu
định tính: phương
2.1 Tóm tắt dữ liệu
định tính: phương
Ví dụ: Biểu đồ thanh các lần mua nước ngọt
pháp bảng và đồ thị pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu 2.2 Tóm tắt dữ liệu
định lượng: phương định lượng: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.3 Phương pháp 2.3 Phương pháp
nhánh lá nhánh lá
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
lường khuynh hướng lường khuynh hướng
tập trung tập trung
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên thiên
3.3 Khảo sát hình 3.3 Khảo sát hình
dáng phân phối của dáng phân phối của
dữ liệu dữ liệu
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò
XSTK XSTK
N.T. M. Ngọc Biểu đồ hình tròn (Pie chart) N.T. M. Ngọc Phân phối tần số (Frequency
1. Một số
khái niệm Biểu đồ tóm tắt dữ liệu dựa trên các phần trong 1. Một số
khái niệm
distribution)
thường dùng thường dùng
trong thống kê một đường tròn tương ứng với các tần suất cho trong thống kê
Tương tự như định nghĩa trong tóm tắt dữ liệu định tính, đó là bảng
2. Thống kê 2. Thống kê
mô tả: trình mỗi nhóm. Ví dụ: Biểu đồ hình tròn các loại mô tả: trình tóm tắt dữ liệu thể hiện số lượng (tần số) của các phần tử trong mỗi
bày dữ liệu bày dữ liệu
nhóm không chồng lấn. Tuy nhiên, ở đây cần xác định các nhóm
2.1 Tóm tắt dữ liệu
định tính: phương
nước ngọt được mua 2.1 Tóm tắt dữ liệu
định tính: phương
không chồng lấn.
pháp bảng và đồ thị pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
định lượng: phương
2.2 Tóm tắt dữ liệu
định lượng: phương Các bước xác định các nhóm:
pháp bảng và đồ thị pháp bảng và đồ thị
2.3 Phương pháp
nhánh lá
2.3 Phương pháp
nhánh lá
• Xác định số lượng các nhóm riêng biệt (thường từ 5 đến 20
3. Mô tả dữ 3. Mô tả dữ nhóm);
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo
lường khuynh hướng
3.1 Các đặc trưng đo
lường khuynh hướng
• Xác định độ rộng của mỗi nhóm
tập trung tập trung
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên thiên Giá trị lớn nhất − Giá trị nhỏ nhất
3.3 Khảo sát hình 3.3 Khảo sát hình độ rộng của nhóm = ;
dáng phân phối của
dữ liệu
dáng phân phối của
dữ liệu
số nhóm
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò
• Xác định các giới hạn của nhóm (được lựa chọn sao cho mỗi giá
trị của quan sát thuộc về một và chỉ một nhóm).
XSTK XSTK
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
lường khuynh hướng lường khuynh hướng
tập trung tập trung
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên thiên
3.3 Khảo sát hình 3.3 Khảo sát hình
dáng phân phối của dáng phân phối của
dữ liệu dữ liệu
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò
Lưu ý: Trị số giữa nhóm (class midpoint): Giá trị chính giữa giá trị
nhỏ nhất và giá trị lớn nhất. Ví dụ với dữ liệu trên ta có trị số giữ
của 5 nhóm trên là 12, 17, 22, 27 và 32.
XSTK XSTK
N.T. M. Ngọc Đồ thị điểm (Dot plot) N.T. M. Ngọc Biểu đồ phân phối (Histogram)
1. Một số 1. Một số
khái niệm khái niệm Biểu đồ thể hiện phân phối tần số, phân phối tần suất hoặc phân
thường dùng
trong thống kê
Đồ thị tóm tắt dữ liệu bằng các điểm nằm trên thường dùng
trong thống kê phối tần suất phần trăm của dữ liệu định lượng xây dựng bằng cách
2. Thống kê các giá trị dữ liệu biểu diễn trên trục ngang. 2. Thống kê
đặt khoảng giá trị nhóm trên trục ngang và tần số, tần suất hoặc tần
mô tả: trình mô tả: trình suất phần trăm trên trục thẳng đứng.
bày dữ liệu
2.1 Tóm tắt dữ liệu
Ví dụ: Đồ thị điểm cho thời gian kiểm toán bày dữ liệu
2.1 Tóm tắt dữ liệu Ví dụ: Biểu đồ phân phối thời gian kiểm toán
định tính: phương định tính: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu 2.2 Tóm tắt dữ liệu
định lượng: phương định lượng: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.3 Phương pháp 2.3 Phương pháp
nhánh lá nhánh lá
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
lường khuynh hướng lường khuynh hướng
tập trung tập trung
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên thiên
3.3 Khảo sát hình 3.3 Khảo sát hình
dáng phân phối của dáng phân phối của
dữ liệu dữ liệu
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò
XSTK XSTK
N.T. M. Ngọc Biểu đồ phân phối (Histogram) dùng để cung N.T. M. Ngọc Dáng điệu của phân phối
1. Một số
khái niệm
cấp thông tin về hình dáng của một phân phối. 1. Một số
khái niệm
thường dùng thường dùng
trong thống kê Ví dụ: Biểu đồ phân phối mô tả các hình dáng phân phối trong thống kê
2. Thống kê 2. Thống kê
mô tả: trình mô tả: trình
bày dữ liệu
2.1 Tóm tắt dữ liệu
bày dữ liệu
2.1 Tóm tắt dữ liệu
• Dáng điệu của phân phối là đối xứng
định tính: phương định tính: phương
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
định lượng: phương
(symmetric) nếu các giá trị quan trắc cân
pháp bảng và đồ thị
2.3 Phương pháp
nhánh lá
pháp bảng và đồ thị
2.3 Phương pháp
nhánh lá
bằng xung quanh trung tâm.
3. Mô tả dữ
liệu định lượng
3. Mô tả dữ
liệu định lượng
• Dáng điệu của phân phối là bất đối xứng
3.1 Các đặc trưng đo
lường khuynh hướng
tập trung
3.1 Các đặc trưng đo
lường khuynh hướng
tập trung
(skewed) nếu dữ liệu quan trắc không phân
3.2 Độ đo sự biến
thiên
3.3 Khảo sát hình
3.2 Độ đo sự biến
thiên
3.3 Khảo sát hình
bố đối xứng xung quanh trung tâm.
dáng phân phối của dáng phân phối của
dữ liệu dữ liệu
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò
XSTK XSTK
N.T. M. Ngọc
• Phân phối tần số tích lũy (Cumulative N.T. M. Ngọc Ví dụ
1. Một số
khái niệm frequency distribution): cho thấy số lượng các 1. Một số
khái niệm Phân phối tần số tích lũy, tần suất tích lũy và
thường dùng thường dùng
trong thống kê
giá trị dữ liệu ít hơn hoặc bằng giới hạn trên trong thống kê tần suất phần trăm tích lũy cho dữ liệu thời gian
2. Thống kê 2. Thống kê
mô tả: trình của mỗi nhóm. mô tả: trình kiểm toán
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
• Phân phối tần suất tích lũy (Cumulative 2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu 2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị relative frequency distribution): cho thấy tỷ lệ định lượng: phương
pháp bảng và đồ thị
2.3 Phương pháp 2.3 Phương pháp
nhánh lá
của số các giá trị dữ liệu nhỏ hơn hoặc bằng nhánh lá
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng
3.1 Các đặc trưng đo
giới hạn trên của mỗi nhóm. liệu định lượng
3.1 Các đặc trưng đo
lường khuynh hướng lường khuynh hướng
tập trung
3.2 Độ đo sự biến
thiên
• Phân phối tần suất phần trăm tích lũy tập trung
3.2 Độ đo sự biến
thiên
3.3 Khảo sát hình
dáng phân phối của
dữ liệu
(Cumulative percent frequency distribution): 3.3 Khảo sát hình
dáng phân phối của
dữ liệu
3.4 Phân tích dữ liệu
thăm dò cho thấy tỷ lệ phần trăm giá trị dữ liệu nhỏ 3.4 Phân tích dữ liệu
thăm dò
2. Thống kê 2. Thống kê
mô tả: trình mô tả: trình
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu 2.1 Tóm tắt dữ liệu
định tính: phương định tính: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu 2.2 Tóm tắt dữ liệu
định lượng: phương định lượng: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.3 Phương pháp 2.3 Phương pháp
nhánh lá nhánh lá
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
lường khuynh hướng lường khuynh hướng
tập trung tập trung
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên thiên
3.3 Khảo sát hình 3.3 Khảo sát hình
dáng phân phối của dáng phân phối của
dữ liệu dữ liệu
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò
XSTK XSTK
2. Thống kê 2. Thống kê
mô tả: trình mô tả: trình
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu 2.1 Tóm tắt dữ liệu
định tính: phương định tính: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu 2.2 Tóm tắt dữ liệu
định lượng: phương định lượng: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.3 Phương pháp 2.3 Phương pháp
nhánh lá nhánh lá
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
lường khuynh hướng lường khuynh hướng
tập trung tập trung
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên thiên
3.3 Khảo sát hình 3.3 Khảo sát hình
dáng phân phối của dáng phân phối của
dữ liệu dữ liệu
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò
XSTK XSTK
XSTK XSTK
2. Thống kê
Ví dụ: Bảng 2.8 Số câu trả lời trong bài kiểm tra 2. Thống kê
mô tả: trình mô tả: trình
bày dữ liệu năng lực bày dữ liệu
2.1 Tóm tắt dữ liệu 2.1 Tóm tắt dữ liệu
định tính: phương định tính: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu 2.2 Tóm tắt dữ liệu
định lượng: phương định lượng: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.3 Phương pháp 2.3 Phương pháp
nhánh lá nhánh lá
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
lường khuynh hướng lường khuynh hướng
tập trung tập trung
3.2 Độ đo sự biến
thiên
3.2 Độ đo sự biến
thiên
Những con số bên trái đường thẳng đứng (6, 7, . . . , 12, 13) tạo thành
3.3 Khảo sát hình 3.3 Khảo sát hình
dáng phân phối của
dữ liệu
dáng phân phối của
dữ liệu
nhánh, và mỗi chữ số ở bên phải đường thẳng đứng là một lá. Ví dụ:
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò
xem xét hàng đầu tiên, ta có nhánh là 6 và lá là 8 và 9. Hàng này chỉ
ra rằng hai giá trị dữ liệu là 68 và 69.
XSTK XSTK
Với dữ liệu trong Bảng 2.8, từ biểu đồ nhánh lá trên ta sử dụng hình
N.T. M. Ngọc N.T. M. Ngọc
Với dữ liệu trong Bảng 2.8, từ biểu đồ nhánh lá trên nếu chúng ta
chữ nhật để chứa các lá của mỗi nhánh ta nhận được như sau:
thấy cô đặc quá nhiều dữ liệu ta có thể kéo dài cách hiển thị bằng
1. Một số 1. Một số
khái niệm khái niệm
thường dùng thường dùng cách sử dụng hai hoặc nhiều hơn hai nhánh cho mỗi chữ số đầu ta sẽ
trong thống kê trong thống kê
2. Thống kê 2. Thống kê
nhận được biểu đồ nhánh lá mở rộng sau
mô tả: trình mô tả: trình
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu 2.1 Tóm tắt dữ liệu
định tính: phương định tính: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu 2.2 Tóm tắt dữ liệu
định lượng: phương định lượng: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.3 Phương pháp 2.3 Phương pháp
nhánh lá nhánh lá
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo
lường khuynh hướng Xoay ngược chiều kim đồng hồ, biểu đồ trên cung cấp một hình ảnh 3.1 Các đặc trưng đo
lường khuynh hướng
tập trung tập trung
3.2 Độ đo sự biến
các dữ liệu tương tự như một biểu đồ histogram với các nhóm 3.2 Độ đo sự biến
thiên
3.3 Khảo sát hình
60 − 69, 70 − 79, ... thiên
3.3 Khảo sát hình
dáng phân phối của dáng phân phối của
dữ liệu Biểu đồ stem-leaf cung cấp thông tin giống như biểu đồ histogram dữ liệu
3.4 Phân tích dữ liệu
thăm dò nhưng biểu đồ stem-leaf có hai lợi thế chính: 3.4 Phân tích dữ liệu
thăm dò Trong biểu đồ nhánh lá mở rộng, bất cứ một giá trị của nhánh đều
• Biểu đồ stem-leaf dễ dàng xây dựng bằng tay; được được ghi hai lần, giá trị đầu tương ứng với giá trị của lá 0 − 4
• Trong một nhóm, biểu đồ stem-leaf cung cấp nhiều thông tin
và giá trị thứ hai tương ứng với giá trị của lá 5 − 9.
hơn biểu đồ histogram bởi vì nhánh lá cho thấy dữ liệu thực tế.
XSTK XSTK
N.T. M. Ngọc Biểu đồ Stem-Leaf N.T. M. Ngọc Đồ thị phân tán (Scatter diagram)
1. Một số Một ví dụ khác 1. Một số Đồ thị phân tán: trình bày đồ họa mối liên hệ giữa hai biến định
khái niệm khái niệm
thường dùng thường dùng
lượng, và đường xu hướng (trendline) cung cấp một xấp xỉ cho
trong thống kê trong thống kê mối liên hệ.
2. Thống kê 2. Thống kê Ví dụ: Đồ thị phân tán và đường xu hướng cửa hàng âm thanh và
mô tả: trình mô tả: trình
bày dữ liệu bày dữ liệu thiết bị âm thanh
2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
Vẽ đồ thị stem - leaf cho tập dữ liệu sau: 2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu 2.2 Tóm tắt dữ liệu
định lượng: phương định lượng: phương
pháp bảng và đồ thị
2.3 Phương pháp
61 63 70 71 71 81 83 84 64 65 pháp bảng và đồ thị
2.3 Phương pháp
nhánh lá nhánh lá
3. Mô tả dữ 65 66 84 87 73 75 92 93 77 78 3. Mô tả dữ
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo
lường khuynh hướng
78 88 88 95 79 3.1 Các đặc trưng đo
lường khuynh hướng
tập trung tập trung
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên
3.3 Khảo sát hình
dáng phân phối của
Dùng lệnh "stem" trong phần mềm R để vẽ. thiên
3.3 Khảo sát hình
dáng phân phối của
dữ liệu dữ liệu
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò
XSTK XSTK
N.T. M. Ngọc Đồ thị phân tán (Scatter diagram) N.T. M. Ngọc Mô tả dữ liệu định lượng
1. Một số 1. Một số
khái niệm khái niệm
thường dùng thường dùng
trong thống kê trong thống kê
2. Thống kê 2. Thống kê
mô tả: trình mô tả: trình
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu 2.1 Tóm tắt dữ liệu
định tính: phương định tính: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu 2.2 Tóm tắt dữ liệu
định lượng: phương định lượng: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.3 Phương pháp 2.3 Phương pháp
nhánh lá nhánh lá
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
lường khuynh hướng lường khuynh hướng
tập trung tập trung
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên thiên
3.3 Khảo sát hình 3.3 Khảo sát hình
dáng phân phối của dáng phân phối của
dữ liệu dữ liệu
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò
XSTK XSTK
XSTK XSTK
N.T. M. Ngọc Trung bình (tt) N.T. M. Ngọc Trung bình (tt)
1. Một số 1. Một số
khái niệm
thường dùng • Trung bình tổng thể: khái niệm
thường dùng
trong thống kê trong thống kê
2. Thống kê Nếu một tổng thể có N phần tử được kí hiệu 2. Thống kê • Trường hợp dữ liệu có tần số như trong bảng
mô tả: trình mô tả: trình
bày dữ liệu
2.1 Tóm tắt dữ liệu
là x1 , x2 , . . . , xN , thì trung bình tổng thể là bày dữ liệu
2.1 Tóm tắt dữ liệu
sau
định tính: phương định tính: phương
pháp bảng và đồ thị
PN pháp bảng và đồ thị
Giá trị dữ liệu x1 x2 . . . xk
2.2 Tóm tắt dữ liệu
định lượng: phương x1 + x2 + . . . + xN i=1 xi
2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị
µ= = pháp bảng và đồ thị
Tần số tương ứng n1 n2 . . . nk
2.3 Phương pháp
nhánh lá N N 2.3 Phương pháp
nhánh lá
3. Mô tả dữ 3. Mô tả dữ trong đó, n1 + n2 + . . . + nk = n.
liệu định lượng
3.1 Các đặc trưng đo
• Trung bình mẫu: liệu định lượng
3.1 Các đặc trưng đo
Khi đó, trung bình mẫu được tính theo công
lường khuynh hướng lường khuynh hướng
tập trung
3.2 Độ đo sự biến
thiên
Nếu n quan sát của một mẫu được kí hiệu là tập trung
3.2 Độ đo sự biến
thiên thức Pk
3.3 Khảo sát hình
x1 , x2 , . . . , xn , thì trung bình mẫu là 3.3 Khảo sát hình
ni xi
x̄ = i=1
dáng phân phối của dáng phân phối của
dữ liệu dữ liệu
3.4 Phân tích dữ liệu
thăm dò
x1 + x2 + . . . + xn
Pn 3.4 Phân tích dữ liệu
thăm dò n
i=1 xi
x̄ = =
n n
XSTK XSTK
N.T. M. Ngọc Trung bình (tt) N.T. M. Ngọc Trung bình (tt)
1. Một số 1. Một số
khái niệm Ví dụ: Bảng 3.1 Lương khởi điểm hàng tháng của 12 người tốt khái niệm
thường dùng thường dùng
Ví dụ khác : Lương tháng của 16 công nhân được chọn ngẫu nhiên
trong thống kê nghiệp ngành kinh doanh trong thống kê
2. Thống kê 2. Thống kê (đv triệu đồng) trong một nhà máy như sau:
mô tả: trình mô tả: trình
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu
định tính: phương
2.1 Tóm tắt dữ liệu
định tính: phương
Lương tháng 0,8 1,0 1,2 1,3 1,5 1,7 2 2,3 2,5
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
Số công nhân 1 1 2 2 2 3 2 2 1
định lượng: phương định lượng: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.3 Phương pháp
nhánh lá
2.3 Phương pháp
nhánh lá
Lương trung bình hàng tháng của một công nhân từ mẫu gồm 16
3. Mô tả dữ 3. Mô tả dữ công nhân trên là:
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
lường khuynh hướng lường khuynh hướng Pk P9
i=1 ni xi i=1 ni xi
tập trung tập trung
3.2 Độ đo sự biến
thiên
3.2 Độ đo sự biến
thiên x̄ = =
3.3 Khảo sát hình
dáng phân phối của Mức lương khởi điểm hàng tháng trung bình của mẫu gồm 12 sinh 3.3 Khảo sát hình
dáng phân phối của
n 16
dữ liệu dữ liệu
3.4 Phân tích dữ liệu
thăm dò viên tốt nghiệp ngành kinh doanh là : 3.4 Phân tích dữ liệu
thăm dò 0, 8 ∗ 1 + · · · + 2, 3 ∗ 2 + 2, 5 ∗ 1
P12 x̄ = = 1, 625
i=1 xi 3450 + 3550 + ... + 3480 16
x̄ = = = 3540
12 12
XSTK XSTK
2. Thống kê 2. Thống kê
các quan sát thành hai phần bằng nhau. Một
mô tả: trình mô tả: trình
bày dữ liệu
2.1 Tóm tắt dữ liệu
bày dữ liệu
2.1 Tóm tắt dữ liệu
phần chứa các quan sát nhỏ hơn trung vị và
định tính: phương
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
phần còn lại chứa các quan sát lớn hơn trung
định lượng: phương
pháp bảng và đồ thị
2.3 Phương pháp
định lượng: phương
pháp bảng và đồ thị
2.3 Phương pháp
vị.
nhánh lá nhánh lá
3. Mô tả dữ 3. Mô tả dữ
• Trung vị không bị ảnh hưởng bởi các giá trị
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo
lường khuynh hướng
3.1 Các đặc trưng đo
lường khuynh hướng
ngoại lai (outliers).
tập trung tập trung
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên thiên
3.3 Khảo sát hình 3.3 Khảo sát hình
dáng phân phối của dáng phân phối của
dữ liệu dữ liệu
3.4 Phân tích dữ liệu
Ví dụ: Giả sử rằng sinh viên tốt nghiệp ở bảng 3.1 có mức 3.4 Phân tích dữ liệu
thăm dò thăm dò
• Nếu n chẵn thì trung vị là trung bình của hai giá trị thứ i
với mẫu trên là 38 sinh viên.
x[i] + x[i]+1
và thứ i + 1 hay trung vị = , với [i] là phần
2
nguyên của i (trung vị là trung bình của hai giá trị ở giữa).
XSTK XSTK
2. Thống kê 2. Thống kê
mô tả: trình • Sắp xếp dữ liệu theo thứ tự tăng dần : mô tả: trình Trung vị không bị ảnh hưởng bởi các giá trị
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
3310; 3355; 3450; 3480; 3480; 3490; 3520; 2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
ngoại lai (outliers).
2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị
3540; 3550; 3650; 3730; 3925. 2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị
Ví dụ: Giả sử rằng sinh viên tốt nghiệp ở bảng
2.3 Phương pháp
nhánh lá • n = 12 và i = (n + 1)/2 = (12 + 1)/2 = 6.5; 2.3 Phương pháp
nhánh lá 3.1 có mức lương khởi điểm cao nhất là 10000
3. Mô tả dữ
liệu định lượng • Do n = 12 chẳn nên trung vị là trung bình 3. Mô tả dữ
liệu định lượng USD/tháng không phải là 3925 USD/tháng như
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
lường khuynh hướng
tập trung của hai giá trị thứ 6 (x6 ) và thứ 7 (x7 ) hay lường khuynh hướng
tập trung trong bảng 3.1 thì trung vị vẫn không thay đổi vì
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên
x[6] + x[6]+1 3490 + 3520 thiên
3490 USD và 3520 USD vẫn là hai giá trị ở giữa
3.3 Khảo sát hình
dáng phân phối của trung vị = = = 3.3 Khảo sát hình
dáng phân phối của
dữ liệu
3.4 Phân tích dữ liệu 2 2 dữ liệu
3.4 Phân tích dữ liệu
như trên.
thăm dò thăm dò
3505 . Vậy trung vị mức lương khởi điểm của
12 sinh viên tốt nghiệp đại học kinh doanh
trong bảng 3.1 là 3505 USD.
XSTK XSTK
2. Thống kê 2. Thống kê
mô tả: trình cùng tần số, ta nói dữ liệu không có mode. mô tả: trình
• Nếu dữ liệu có phân phối đối xứng, thì trung
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu 2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
định tính: phương
pháp bảng và đồ thị bình và trung vị sẽ bằng nhau và rơi vào tâm
2.2 Tóm tắt dữ liệu 2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị
định lượng: phương
pháp bảng và đồ thị của phân phối.
2.3 Phương pháp 2.3 Phương pháp
nhánh lá
3. Mô tả dữ
table2-7
nhánh lá
3. Mô tả dữ
• Nếu dữ liệu có phân phối bị lệch (skewed)
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo
lường khuynh hướng • Mode không bị ảnh hưởng bởi các điểm ngoại 3.1 Các đặc trưng đo
lường khuynh hướng
(tức là bất đối xứng, với một đuôi kéo dài về
tập trung tập trung
3.2 Độ đo sự biến
thiên lai (outlier); 3.2 Độ đo sự biến
thiên
một phía), thì trung bình và trung vị đều bị
3.3 Khảo sát hình
dáng phân phối của
dữ liệu • Mode có thể sử dụng cho cả dữ liệu số và dữ
3.3 Khảo sát hình
dáng phân phối của
dữ liệu
kéo về phía đuôi dài hơn, nhưng trung bình,
3.4 Phân tích dữ liệu
thăm dò
XSTK XSTK
• Bước 2: Tính
định lượng: phương
pháp bảng và đồ thị i =( )∗n định lượng: phương
pháp bảng và đồ thị
2.3 Phương pháp
nhánh lá 100 2.3 Phương pháp
nhánh lá
p 85
3. Mô tả dữ 3. Mô tả dữ i =( )∗n =( ) ∗ 12 = 10, 2.
100 100
liệu định lượng
trong đó, p là phân vị cần tính và n là số liệu định lượng
3.1 Các đặc trưng đo
lường khuynh hướng
3.1 Các đặc trưng đo
lường khuynh hướng • Bước 3: Vì i vừa tính không phải là một số nguyên, làm
tập trung
3.2 Độ đo sự biến
quan sát. tập trung
3.2 Độ đo sự biến
tròn nó. Vị trí của phân vị thứ 85 là số nguyên kế tiếp lớn
thiên
3.3 Khảo sát hình
dáng phân phối của
• Bước 3: thiên
3.3 Khảo sát hình
dáng phân phối của hơn 10, 2 là vị trí thứ 11. Vậy, phân vị thứ 85 cho các dữ
dữ liệu
3.4 Phân tích dữ liệu
• Nếu i là một số nguyên, phân vị thứ p là trung bình của dữ liệu
3.4 Phân tích dữ liệu liệu mức lương khởi điểm trong bảng 3.1 là giá trị dữ liệu
thăm dò thăm dò
hai giá trị ở vị trí thứ i và i + 1. ở vị trí thứ 11 là 3730.
• Nếu i không phải là một số nguyên, làm tròn nó. Số
nguyên tiếp theo lớn hơn i biểu thị vị trí của phân vị thứ p. Ví dụ 2: Hãy xác định phân vị thứ 50 cho các dữ liệu mức
lương khởi điểm trong bảng 3.1?
XSTK XSTK
N.T. M. Ngọc Tứ phân vị N.T. M. Ngọc Ví dụ 2: Hãy xác định tứ phân vị cho các dữ
1. Một số
khái niệm Tứ phân vị chia dữ liệu thành bốn phần, mỗi 1. Một số
khái niệm
liệu mức lương khởi điểm trong bảng 3.1?
thường dùng thường dùng Giải : Chúng ta cần tìm phân vị thứ 25 (Q1 ) , phân vị thứ 50
trong thống kê phần chứ khoảng 25% số quan sát. trong thống kê
(Q2 ) và phân vị thứ 75 (Q3 ).
2. Thống kê 2. Thống kê
mô tả: trình mô tả: trình • Sắp xếp dữ liệu theo thứ tự tăng dần:
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu
định tính: phương
2.1 Tóm tắt dữ liệu
định tính: phương
3310; 3355; 3450; 3480; 3480; 3490; 3520; 3540; 3550; 3650;
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
3730; 3925.
• Tìm Q1 : Tính i = ( 100p 25
định lượng: phương
pháp bảng và đồ thị
định lượng: phương
pháp bảng và đồ thị ) ∗ n = ( 100 ) ∗ 12 = 3. Vì i = 3 là
2.3 Phương pháp 2.3 Phương pháp
nhánh lá nhánh lá một số nguyên nên phân vị thứ 25 là trung bình của hai
3. Mô tả dữ
liệu định lượng
3. Mô tả dữ
liệu định lượng
giá trị dữ liệu thứ ba và thứ tư hay
3.1 Các đặc trưng đo
lường khuynh hướng
3.1 Các đặc trưng đo
lường khuynh hướng
Q1 = (3450 + 3480)/2 = 3465.
50
• Tìm Q2 : Tính i = ( 100
tập trung
3.2 Độ đo sự biến
tập trung
3.2 Độ đo sự biến
) ∗ 12 = 6. Vì i = 6 là một số
thiên thiên
3.3 Khảo sát hình
Hình 3.1 cho thấy một phân phối dữ liệu chia thành bốn phần. 3.3 Khảo sát hình nguyên nên trung vị là trung bình của hai giá trị dữ liệu
dáng phân phối của dáng phân phối của
dữ liệu Các điểm chia đgl Tứ phân vị và được xac định như sau: dữ liệu
thứ sáu và thứ bảy hay Q2 = (3490 + 3520)/2 = 3505.
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò • Q1 = tứ phân vị thứ nhất, hay là phân vị thứ 25. thăm dò 75
• Tìm Q3 : Tính i = ( 100 ) ∗ 12 = 9. Vì i = 9 là một số
• Q2 = tứ phân vị thứ hai, hay là phân vị thứ 50 nguyên nên phân vị thứ 75 là trung bình của hai giá trị dữ
(Q2 cũng được gọi là trung vị ). liệu thứ chín và thứ mười hay
• Q3 = tứ phân vị thứ ba, hay là phân vị thứ 75. Q3 = (3550 + 3650)/2 = 3600.
XSTK XSTK
N.T. M. Ngọc Độ đo sự biến thiên của dữ liệu N.T. M. Ngọc Khoảng biến thiên hay
1. Một số
khái niệm
(hay độ phân tán) 1. Một số
khái niệm
Miền giá trị mẫu (sample range)
thường dùng thường dùng
trong thống kê trong thống kê Khoảng biến thiên = giá trị lớn nhất − giá trị nhỏ nhất. Ví dụ:
2. Thống kê 2. Thống kê Khoảng biến thiên trong bộ dữ liệu ở bảng 3.1 là
mô tả: trình mô tả: trình
bày dữ liệu bày dữ liệu 3925 − 3310 = 615.
2.1 Tóm tắt dữ liệu
định tính: phương
2.1 Tóm tắt dữ liệu
định tính: phương Hay miền giá trị mẫu là khoảng cách giữa giá trị lớn nhất và
pháp bảng và đồ thị pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
định lượng: phương
2.2 Tóm tắt dữ liệu
định lượng: phương
giá trị nhỏ nhất trong mẫu.
pháp bảng và đồ thị
2.3 Phương pháp
pháp bảng và đồ thị
2.3 Phương pháp
Nếu n quan sát trong một mẫu được kí hiệu là x1 , x2 , . . . , xn
nhánh lá nhánh lá
thì miền giá trị mẫu là
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo
lường khuynh hướng
3.1 Các đặc trưng đo
lường khuynh hướng
r = max(xi ) − min(xi )
tập trung tập trung
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên thiên
3.3 Khảo sát hình 3.3 Khảo sát hình
dáng phân phối của dáng phân phối của
dữ liệu dữ liệu
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò
XSTK XSTK
N.T. M. Ngọc Khoảng biến thiên (tt) N.T. M. Ngọc Độ trải giữa hay Khoảng tứ phân
1. Một số
khái niệm
1. Một số
khái niệm
vị (interquartile range - IQR)
thường dùng thường dùng
trong thống kê Khoảng biến thiên bị ảnh hưởng bởi các giá trị trong thống kê
i=1
s2 = .
(b) Tìm khoảng tứ phân vị? n−1
√
Độ lệch chuẩn mẫu là s = s 2 .
XSTK XSTK
N.T. M. Ngọc Phương sai và độ lệch chuẩn (tt) N.T. M. Ngọc So sánh các độ lệch chuẩn
1. Một số
khái niệm Ví dụ: Tính phương sai mẫu về dữ liệu lương khởi 1. Một số
khái niệm
thường dùng thường dùng
trong thống kê điểm trong bảng 3.1 trong thống kê
2. Thống kê 2. Thống kê
mô tả: trình mô tả: trình
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu 2.1 Tóm tắt dữ liệu
định tính: phương định tính: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu 2.2 Tóm tắt dữ liệu
định lượng: phương định lượng: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.3 Phương pháp 2.3 Phương pháp
nhánh lá nhánh lá
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
lường khuynh hướng lường khuynh hướng
tập trung tập trung
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên thiên
3.3 Khảo sát hình 3.3 Khảo sát hình
dáng phân phối của dáng phân phối của
dữ liệu dữ liệu
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò
XSTK XSTK
N.T. M. Ngọc Độ lệch tuyệt đối trung bình N.T. M. Ngọc Hệ số biến thiên (Coefficient of
1. Một số
khái niệm
1. Một số
khái niệm
Variation)
thường dùng thường dùng
trong thống kê
Lưu ý: Đối với bất kỳ bộ dữ liệu nào, tổng các độ lệch so với trong thống kê Hệ số biến thiên cho biết độ lệch chuẩn lớn bằng
giá trị trung bình sẽ luôn bằng không,
2. Thống kê
mô tả: trình
2. Thống kê
mô tả: trình bao nhiêu lần so với trung bình,
bày dữ liệu n bày dữ liệu
2.1 Tóm tắt dữ liệu
X 2.1 Tóm tắt dữ liệu
định tính: phương (xi − x̄ ) = 0. định tính: phương
pháp bảng và đồ thị pháp bảng và đồ thị
Độ lệch chuẩn
i=1
× 100%.
2.2 Tóm tắt dữ liệu 2.2 Tóm tắt dữ liệu
định lượng: phương định lượng: phương
CV =
pháp bảng và đồ thị
2.3 Phương pháp
nhánh lá Các độ lệch dương và các độ lệch âm bù trừ lẫn nhau, dẫn đến
pháp bảng và đồ thị
2.3 Phương pháp
nhánh lá
trung bình
3. Mô tả dữ
liệu định lượng
tổng các độ lệch so với giá trị trung bình bằng không. 3. Mô tả dữ
liệu định lượng Hệ số biến thiên là một thống kê hữu ích để so
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
lường khuynh hướng
tập trung
lường khuynh hướng
tập trung
sánh độ phân tán của các biến có độ lệch chuẩn
3.2 Độ đo sự biến
thiên Để tránh tất cả các độ lệch so với giá trị trung bình triệt tiêu 3.2 Độ đo sự biến
thiên
khác nhau và trung bình khác nhau.
3.3 Khảo sát hình 3.3 Khảo sát hình
dáng phân phối của lẫn nhau khi chúng ta cộng chúng lại với nhau, ta xét định dáng phân phối của
dữ liệu dữ liệu
Ví dụ: Đối với bộ dữ liệu lương khởi điểm trong bảng 3.1, hệ số
3.4 Phân tích dữ liệu
thăm dò
nghĩa độ lệch tuyệt đối trung bình như sau: 3.4 Phân tích dữ liệu
thăm dò
XSTK XSTK
N.T. M. Ngọc Ví dụ so sánh hệ số biến thiên N.T. M. Ngọc Hệ số bất đối xứng (Skewness)
1. Một số
khái niệm
• Dữ liệu 1 có: trung bình x̄1 = 50 và độ lệch 1. Một số
khái niệm
thường dùng thường dùng
trong thống kê chuẩn s1 = 5 nên trong thống kê
2. Thống kê 2. Thống kê
mô tả: trình
bày dữ liệu
mô tả: trình
bày dữ liệu Hệ số bất đối xứng (Skewness) là một đại lượng
2.1 Tóm tắt dữ liệu x̄1 5 2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị CV1 = × 100% = × 100% = 10%. định tính: phương
pháp bảng và đồ thị số quan trọng đo lường hình dáng của một phân
2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị
s1 50 2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị phối.
2.3 Phương pháp
• Dữ liệu 2 có: trung bình x̄2 = 100 và độ lệch 2.3 Phương pháp
nhánh lá nhánh lá
Công thức tính Skewness cho dữ liệu mẫu:
3. Mô tả dữ
liệu định lượng chuẩn s2 = 5 nên 3. Mô tả dữ
liệu định lượng
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
n n x − x̄
i
)3 .
X
lường khuynh hướng
tập trung
lường khuynh hướng
tập trung Skewness = (
3.2 Độ đo sự biến
thiên x̄2 5 3.2 Độ đo sự biến
thiên (n − 1)(n − 2) i=1 s
3.3 Khảo sát hình
dáng phân phối của CV2 = × 100% = × 100% = 5%. 3.3 Khảo sát hình
dáng phân phối của
dữ liệu
3.4 Phân tích dữ liệu
s2 100 dữ liệu
3.4 Phân tích dữ liệu
thăm dò thăm dò
N.T. M. Ngọc Hệ số bất đối xứng (Skewness) (tt) N.T. M. Ngọc Ví dụ:
1. Một số 1. Một số Biểu đồ phân phối tần suất mô tả độ lệch
khái niệm
thường dùng
• Khi phân phối đối xứng, Skewness có giá trị là 0, thì trung khái niệm
thường dùng của bốn phân phối:
trong thống kê trong thống kê
bình, trung vị và mode bằng nhau;
2. Thống kê 2. Thống kê
mô tả: trình • Khi bộ dữ liệu có phân phối lệch phải, Skewness có giá trị mô tả: trình
bày dữ liệu bày dữ liệu
2.1 Tóm tắt dữ liệu
định tính: phương
dương, thì mode < trung vị < trung bình; 2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu • Khi bộ dữ liệu có phân phối lệch trái, Skewness có giá trị 2.2 Tóm tắt dữ liệu
định lượng: phương định lượng: phương
pháp bảng và đồ thị
2.3 Phương pháp
âm, thì mode > trung vị > trung bình. pháp bảng và đồ thị
2.3 Phương pháp
nhánh lá nhánh lá
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
lường khuynh hướng lường khuynh hướng
tập trung tập trung
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên thiên
3.3 Khảo sát hình 3.3 Khảo sát hình
dáng phân phối của dáng phân phối của
dữ liệu dữ liệu
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò
XSTK XSTK
N.T. M. Ngọc Giá trị z (giá trị chuẩn hóa) N.T. M. Ngọc Giá trị z (giá trị chuẩn hóa) (tt)
1. Một số 1. Một số
khái niệm
thường dùng Giả sử chúng ta có một mẫu gồm n quan sát với
khái niệm
thường dùng
Ví dụ: Giá trị z của quy mô lớp học
trong thống kê trong thống kê
3. Mô tả dữ 3. Mô tả dữ
liệu định lượng trong đó, liệu định lượng
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo
lường khuynh hướng
tập trung
• zi là giá trị z cho xi ; lường khuynh hướng
tập trung
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên • x̄ là trung bình mẫu; thiên
3.3 Khảo sát hình
dáng phân phối của
dữ liệu • s là độ lệch chuẩn mẫu.
3.3 Khảo sát hình
dáng phân phối của
dữ liệu
Trong bảng 3.4, ta thấy giá trị z là −1, 5 của
3.4 Phân tích dữ liệu
thăm dò
3.4 Phân tích dữ liệu
thăm dò quan sát thứ năm cho thấy quan sát này ở xa so
Giá trị z cho bất kỳ quan sát nào có thể hiểu như là một thước
với trung bình; giá trị của quan sát này nhỏ hơn
đo vị trí tương đối của quan sát đó trong tập dữ liệu.
trung bình 1, 5 lần độ lệch chuẩn.
XSTK XSTK Ví dụ: Giả sử rằng các điểm kiểm tra giữ kỳ cho 100 sinh viên
N.T. M. Ngọc Quy tắc Chebyshev N.T. M. Ngọc của khóa học thống kê có điểm trung bình là 70 và độ lệch
chuẩn là 5. Có bao nhiêu sinh viên có điểm kiểm tra nằm giữa
1. Một số 1. Một số
khái niệm khái niệm 60 và 80? Có bao nhiêu sinh viên có điểm kiểm tra nằm giữa
thường dùng thường dùng
trong thống kê
Quy tắc Chebyshev Ít nhất là (1 − 1/z 2 ) số lượng trong thống kê 58 và 82?
2. Thống kê 2. Thống kê • Chúng ta thấy 60 và 80 lần lượt ở dưới và ở trên trung
mô tả: trình
bày dữ liệu
giá trị dữ liệu nằm trong khoảng z độ lệch chuẩn mô tả: trình
bày dữ liệu bình 2 lần độ lệch chuẩn. Theo quy tắc Chebyshev, ta biết
2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
so với giá trị trung bình, trong đó z là giá trị bất 2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
được có ít nhất 75% các quan sát có giá trị nằm trong
2.2 Tóm tắt dữ liệu
định lượng: phương kỳ lớn hơn 1. 2.2 Tóm tắt dữ liệu
định lượng: phương
khoảng z = 2 độ lệch chuẩn so với giá trị trung bình. Như
pháp bảng và đồ thị pháp bảng và đồ thị
vậy, ít nhất có 75% số sinh viên có điểm kiểm tra nằm
2.3 Phương pháp
nhánh lá Ý nghĩa của quy tắc này: 2.3 Phương pháp
nhánh lá
giữa 60 và 80.
3. Mô tả dữ
liệu định lượng
• Với z = 2: ít nhất 75% các giá trị dữ liệu nằm trong 3. Mô tả dữ
liệu định lượng • Chúng ta thấy rằng (58 − 70)/5 = −2, 4 cho thấy 58 ở
3.1 Các đặc trưng đo
lường khuynh hướng
khoảng z = 2 độ lệch chuẩn so với giá trị trung bình. 3.1 Các đặc trưng đo
lường khuynh hướng
dưới trung bình 2,4 lần độ lệch chuẩn và
tập trung tập trung
3.2 Độ đo sự biến
thiên
• Với z = 3: ít nhất 89% các giá trị dữ liệu nằm trong 3.2 Độ đo sự biến
thiên (82 − 70)/5 = 2, 4 cho thấy 82 ở trên trung bình 2,4 lần
3.3 Khảo sát hình
dáng phân phối của khoảng z = 3 độ lệch chuẩn so với giá trị trung bình. 3.3 Khảo sát hình
dáng phân phối của độ lệch chuẩn. Áp dụng quy tắc Chebychev với z = 2, 4,
dữ liệu dữ liệu
3.4 Phân tích dữ liệu • Với z = 4: ít nhất 94% các giá trị dữ liệu nằm trong 3.4 Phân tích dữ liệu ta có :
thăm dò thăm dò
1
khoảng z = 4 độ lệch chuẩn so với giá trị trung bình. (1 − 1/z 2 ) = (1 − = 0, 826.
2, 42
Vậy có ít nhất 82, 6% số sinh viên có điểm kiểm tra nằm
giữa 58 và 82.
XSTK XSTK
1. Một số
khái niệm Quy tắc Chebyshev áp dụng cho bất kỳ tập dữ 1. Một số
khái niệm
Ví dụ: Hộp carton đựng nước giặt được tự động đóng gói trong
thường dùng thường dùng một dây chuyền sản xuất. Trọng lượng sau khi đóng gói thường
trong thống kê
liệu nào bất kể hình dáng của phân phối dữ liệu. trong thống kê
có phân phối hình chuông.
2. Thống kê 2. Thống kê
mô tả: trình
bày dữ liệu
Quy tắc thực nghiệm áp dụnh cho những tập dữ mô tả: trình
bày dữ liệu
Nếu trọng lượng trung bình là x̄ = 16 ounce và độ lệch chuẩn
2.1 Tóm tắt dữ liệu
định tính: phương liệu được cho là xấp xỉ phân phối Gauss (hay 2.1 Tóm tắt dữ liệu
định tính: phương
là s = 0, 25 ounce, áp dụng quy tắc thực nghiệm chúng ta có
pháp bảng và đồ thị pháp bảng và đồ thị
thể rút ra kết luận sau:
2.2 Tóm tắt dữ liệu
định lượng: phương phân phối hình chuông). 2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị pháp bảng và đồ thị
• Khoảng 68% các hộp có trọng lượng nằm giữa 15,75 và
2.3 Phương pháp
nhánh lá Ý nghĩa của quy tắc thực nghiệm 2.3 Phương pháp
nhánh lá
16,25 (x̄ ± 1s).
3. Mô tả dữ
• Khoảng 68% của các giá trị dữ liệu sẽ nằm trong khoảng 3. Mô tả dữ
liệu định lượng liệu định lượng • Khoảng 95% các hộp có trọng lượng nằm giữa 15,50 và
3.1 Các đặc trưng đo
cộng và trừ 1 độ lệch chuẩn so với giá trị trung bình 3.1 Các đặc trưng đo
lường khuynh hướng
tập trung
lường khuynh hướng
tập trung 16,50 (x̄ ± 2s).
3.2 Độ đo sự biến (x̄ ± 1s). 3.2 Độ đo sự biến
thiên thiên • Hầu như tất cả các hộp có trọng lượng nằm giữa 15,25 và
3.3 Khảo sát hình
• Khoảng 95% của các giá trị dữ liệu sẽ nằm trong khoảng 3.3 Khảo sát hình
dáng phân phối của
dữ liệu
dáng phân phối của
dữ liệu 16,75 (x̄ ± 3s).
3.4 Phân tích dữ liệu
thăm dò
cộng và trừ 2 độ lệch chuẩn so với giá trị trung bình 3.4 Phân tích dữ liệu
thăm dò
(x̄ ± 2s).
• Hầu như tất cả các giá trị dữ liệu sẽ nằm trong khoảng 3
độ lệch chuẩn so với giá trị trung bình (x̄ ± 3s).
XSTK XSTK
N.T. M. Ngọc Phát hiện các giá trị ngoại lai (hay N.T. M. Ngọc 3.4 Phân tích dữ liệu thăm dò
1. Một số
khái niệm
bất thường) 1. Một số
khái niệm
thường dùng thường dùng
trong thống kê trong thống kê Ngoài kỹ thuật phân tích dữ liệu thăm dò bằng biểu đồ nhánh
2. Thống kê 2. Thống kê
mô tả: trình mô tả: trình
lá, chúng ta còn có thể dùng cách xem xét bộ tóm tắt năm trị
bày dữ liệu
2.1 Tóm tắt dữ liệu
Những giá trị quá lớn hoặc quá nhỏ trong một bày dữ liệu
2.1 Tóm tắt dữ liệu số hoặc dùng biểu đồ hộp.
định tính: phương
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
tập dữ liệu đgl giá trị ngoại lai (hay giá trị bất định tính: phương
pháp bảng và đồ thị
2.2 Tóm tắt dữ liệu
định lượng: phương
pháp bảng và đồ thị
2.3 Phương pháp
thường). định lượng: phương
pháp bảng và đồ thị
2.3 Phương pháp
Bộ tóm tắt năm số gồm:
nhánh lá nhánh lá
3. Mô tả dữ
Giá trị z (giá trị chuẩn hóa) có thể được sử dụng 3. Mô tả dữ • Giá trị nhỏ nhất;
liệu định lượng liệu định lượng
để xác định giá trị ngoại lai (hay giá trị bất
3.1 Các đặc trưng đo
lường khuynh hướng
3.1 Các đặc trưng đo
lường khuynh hướng • Tứ phân vị thứ nhất (Q1 );
tập trung
3.2 Độ đo sự biến thường). Khi đó, bất kỳ giá trị dữ liệu nào với giá tập trung
3.2 Độ đo sự biến
thiên thiên
• Trung vị (Q2 );
3.3 Khảo sát hình
dáng phân phối của
dữ liệu
trị z nhỏ hơn −3 hoặc lớn hơn 3 thì được xem là 3.3 Khảo sát hình
dáng phân phối của
dữ liệu
3.4 Phân tích dữ liệu
thăm dò giá trị ngoại lai (hay bất thường). 3.4 Phân tích dữ liệu
thăm dò
• Tứ phân vị thứ ba (Q3 );
• Giá trị lớn nhất.
XSTK XSTK
N.T. M. Ngọc Biểu đồ hộp (Boxplot) (tt) N.T. M. Ngọc Biểu đồ hộp (Boxplot) (tt)
1. Một số 1. Một số
khái niệm khái niệm
thường dùng thường dùng Ví dụ: Biểu đồ hộp cho các dữ liệu trong bảng
trong thống kê trong thống kê
2. Thống kê
Để biểu diễn tứ phân vị và các điểm outlier ta dùng đồ thị hộp 2. Thống kê
3.1 về mức lương khởi điểm hàng tháng được xây
mô tả: trình
bày dữ liệu (Boxplot)
mô tả: trình
bày dữ liệu
dựng như sau:
2.1 Tóm tắt dữ liệu 2.1 Tóm tắt dữ liệu
định tính: phương
pháp bảng và đồ thị
định tính: phương
pháp bảng và đồ thị
• Một hộp được vẽ với các cạnh của hộp nằm ở Q1 = 3465 và
2.2 Tóm tắt dữ liệu
định lượng: phương
2.2 Tóm tắt dữ liệu
định lượng: phương
Q3 = 3600;
pháp bảng và đồ thị pháp bảng và đồ thị
2.3 Phương pháp
nhánh lá
2.3 Phương pháp
nhánh lá
• Đường thẳng được vẽ trong hộp ở vị trí trung vị Q2 = 3505;
3. Mô tả dữ 3. Mô tả dữ • Với IQR = Q3 − Q1 = 135, ta có các giới hạn cho biểu đồ hộp
liệu định lượng liệu định lượng
3.1 Các đặc trưng đo 3.1 Các đặc trưng đo là Q1 − 1, 5IQR = 3465 − 1, 5 ∗ 135 = 3262, 5 và
lường khuynh hướng lường khuynh hướng
tập trung tập trung Q3 + 1, 5IQR = 3600 + 1, 5 ∗ 135 = 3802, 5. Dữ liệu nằm ngoài
3.2 Độ đo sự biến 3.2 Độ đo sự biến
thiên thiên các giới hạn này được xem là các giá trị bất thường.
3.3 Khảo sát hình 3.3 Khảo sát hình
dáng phân phối của dáng phân phối của
dữ liệu dữ liệu • Vẽ các râu bằng đường đứt nét từ các cạnh của hộp đến giá trị
3.4 Phân tích dữ liệu 3.4 Phân tích dữ liệu
thăm dò thăm dò tiền lương 3310 và 3730.
• Dùng biểu tượng dấu sao ∗ để đánh dấu điểm ngoại lai 3925.
XSTK
3. Mô tả dữ
liệu định lượng
3.1 Các đặc trưng đo
lường khuynh hướng
tập trung
3.2 Độ đo sự biến
thiên
3.3 Khảo sát hình
dáng phân phối của
dữ liệu
3.4 Phân tích dữ liệu
thăm dò