You are on page 1of 139

Chương 1: TỔNG QUAN VÀ THỐNG KÊ MÔ TẢ

Nguyễn Hồng Nhung - Lê Thị Mai Trang

Bộ môn Toán, Khoa Khoa học Ứng dụng


Đại học Sư phạm Kỹ thuật Tp. HCM

UTEX
www.hcmute.edu.vn
Chương 1 trang bị cho sinh viên

Kiến thức cơ bản về Thống kê mô tả.


Sau khi học xong chương 1 sinh viên có thể

* Nắm được một số khái niệm cơ bản


của Thống kê như Tổng thể và Mẫu.
* Nắm được một số phương pháp trực
quan mô tả dữ liệu như bảng, biểu đồ.
* Nêu được ý nghĩa của các đặc trưng
mẫu, gồm trung bình, trung vị, phương
sai, độ lệch chuẩn, tỷ lệ.
Nội dung
1 Tổng thể, mẫu và qui trình
Khái niệm Tổng thể và Mẫu
Quá trình Thống kê
2 Phương pháp trực quan và biểu đồ trong Thống kê mô tả
Bảng tần số, tần suất
Biểu đồ Gốc-Lá
Biểu đồ Gốc-Lá
Biểu đồ Chấm
Biểu đồ Histogram - biểu đồ cột
3 Các số đo đặc trưng cho dữ liệu Mẫu
Trung Bình Mẫu
Median-Trung vị
Giới thiệu
Thống kê học là một ngành khoa học nghiên cứu
các quy luật của đám đông (tổng thể).
Giới thiệu

Thống kê học là một ngành khoa học nghiên cứu


các quy luật của đám đông (tổng thể).
https://www.worldometers.info/world-population/
Giới thiệu

Thống kê học là một ngành khoa học nghiên cứu


các quy luật của đám đông (tổng thể).
https://www.worldometers.info/world-population/
Thống kê bao gồm
ˆ Thống kê mô tả
ˆ Thống kê suy luận
Thống kê mô tả được sử dụng để trình bày một cách có hệ thống dữ liệu
thu thập được thông qua các bảng, các biểu đồ và các tham số đặc trưng cho
số liệu.
Suy luận Thống kê là quá trình phân tích số liệu
bằng các mô hình toán học nhằm rút ra các kết luận
về mục tiêu nghiên cứu với mức độ tin cậy nào đó.
Thống kê được sử dụng trong nghiên cứu của nhiều ngành khoa học khác
nhau như Kỹ thuật, Kinh tế, Y tế, Sinh học, Xã hội,. . .
Tổng thể - Mẫu
Tổng thể (đám đông) nghiên cứu là tập hợp tất cả các cá thể (đối tượng)
mang đặc trưng tính chất cần nghiên cứu.
Vì nhiều lý do nên thông thường ta không nghiên cứu toàn bộ tổng thể.
Vì nhiều lý do nên thông thường ta không nghiên cứu toàn bộ tổng thể.
Vì nhiều lý do nên thông thường ta không nghiên cứu toàn bộ tổng thể.
Trong nghiên cứu Thống kê thay vì nghiên cứu toàn bộ tổng thể, một tập hợp
con của tổng thể, gọi là mẫu, được chọn theo một số cách thức nhất định sẽ
được dùng để nghiên cứu.
Mối quan hệ giữa xác suất và thống kê

Hình: Mối quan hệ giữa xác suất và thống kê suy luận.


Bài toán Thống kê: Khảo sát 1000 trẻ sơ sinh ở vùng A tại một thời điểm
xác định thấy có 511 bé là bé trai. Hãy ước lượng tỷ lệ sinh bé trai ở vùng A
tại thời điểm này với độ tin cậy 95%.
Bài toán Thống kê: Khảo sát 1000 trẻ sơ sinh ở vùng A tại một thời điểm
xác định thấy có 511 bé là bé trai. Hãy ước lượng tỷ lệ sinh bé trai ở vùng A
tại thời điểm này với độ tin cậy 95%.

Bài toán Xác suất: Tỷ lệ sinh bé trai ở vùng A là 0,52. Tính xác suất trong
1000 trẻ sinh tại vùng này, số bé trai là từ 510 đến 530 bé.
Thu thập dữ liệu

Mẫu cần đảm bảo được rút ra từ tổng thể một cách ngẫu nhiên và đại diện
cho tổng thể.
Mẫu ngẫu nhiên đơn giản là mẫu gồm các phần tử mà mỗi phần tử được
lấy ra từ tổng thể với khả năng là như nhau.
Biến Thống kê

Một biến thống kê là một đặc tính mà giá trị có thể thay đổi từ đối tượng
này sang đối tượng khác trong tổng thể.
Biến Thống kê

Một biến thống kê là một đặc tính mà giá trị có thể thay đổi từ đối tượng
này sang đối tượng khác trong tổng thể.
Các đặc trưng đo lường được có các giá trị có thể có là các số thực.

Phân loại biến số Thống kê


Biến số là rời rạc nếu tập các giá trị có thể có của biến hoặc là hữu hạn
hoặc có thể liệt kê được trong một dãy vô hạn.
Các đặc trưng đo lường được có các giá trị có thể có là các số thực.

Phân loại biến số Thống kê


Biến số là rời rạc nếu tập các giá trị có thể có của biến hoặc là hữu hạn
hoặc có thể liệt kê được trong một dãy vô hạn.
Biến số liên tục nếu các giá trị có thể có của biến lấp đầy một khoảng
nào đó trên trục số.
Các đặc trưng đo lường được có các giá trị có thể có là các số thực.

Phân loại biến số Thống kê


Biến số là rời rạc nếu tập các giá trị có thể có của biến hoặc là hữu hạn
hoặc có thể liệt kê được trong một dãy vô hạn.
Biến số liên tục nếu các giá trị có thể có của biến lấp đầy một khoảng
nào đó trên trục số.
Ngoài các biến thống kê có giá trị có thể đo lường được còn các biến thống kê
mang giá trị có tính phân loại.
Dữ liệu mẫu
Dữ liệu mẫu là kết quả từ việc quan sát hoặc một biến duy nhất hoặc đồng
thời trên hai hay nhiều biến.
Dữ liệu mẫu
Dữ liệu mẫu là kết quả từ việc quan sát hoặc một biến duy nhất hoặc đồng
thời trên hai hay nhiều biến.

Dữ liệu đơn biến bao gồm các quan sát trên một biến duy nhất. Tập dữ
liệu gồm n quan sát trên một biến x, những quan sát riêng lẻ sẽ được ký
hiệu là x1 , x2 , . . . , xn .
Dữ liệu mẫu ghép cặp là tập dữ liệu gồm n cặp quan sát trên cặp biến
(x, y ), sẽ được ký hiệu là (x1 , y1 ); (x2 , y2 ); . . . , (xn , yn ).
Cỡ mẫu

Số lượng quan sát trong một mẫu đơn được gọi là kích thước mẫu, hay cỡ
mẫu, được ký hiệu là n.
Cỡ mẫu

Số lượng quan sát trong một mẫu đơn được gọi là kích thước mẫu, hay cỡ
mẫu, được ký hiệu là n.

Nếu xét đồng thời hai mẫu, ta ký hiệu m và n hay n1 và n2 biểu thị số lượng
các quan sát của hai mẫu.
Khảo sát thương hiệu điện thoại sinh viên trường Đại học X đang sử dụng:
Samsung (S); Oppo (O); Iphone (I); Nokia (N); Acesus (A); Biphone (B)
hoặc loại khác (K)
Tập dữ liệu thu được
A O S S I B K S I S
O S I N I B N O S K
Các phương pháp trực quan để mô tả dữ liệu mẫu
ˆ Bảng tần số, tần suất
ˆ Một số loại biểu đồ
ˆ Các tham số đặc trưng
Bảng tần số, tần suất
Xét dữ liệu bao gồm các quan sát của một biến rời rạc hoặc biến nhận các giá
trị mang ý nghĩa phân loại.

Tần số của một giá trị của x bất kỳ cụ thể là số lần giá trị xảy ra trong
tập dữ liệu.
Tần số tương đối hay tần suất, tỷ lệ của một giá trị là tỷ lệ giữa tần
số của giá trị đó và số lượng quan sát của tập số liệu.
số lần giá trị xuất hiện
Tần số tương đối =
số quan sát của tập số liệu
A O S S I B K S I S
O S I N I B N O S K

Trong dữ liệu gồm 20 quan sát về x là thương hiệu điện thoại sinh viên trường
đại học X đang sử dụng có 6 lần S xuất hiện trong dữ liệu mẫu.
ˆ Tần số giá trị S của x là: 6
6
ˆ Tần số tương đối giá trị S của x là 20 = 0, 3
Giá trị xi Tần số ni Tần suất hay tỷ lệ fi
x1 n1 f1
x2 n2 f2
... ... ...
xk nk fk
k
X
ni = n
i=1
k
ni X
fi = ; fi = 1
n
i=1
A O S S I B K S I S
O S I N I B N O S K
Bảng tần số, tần suất của dữ liệu mẫu về thương hiệu điện thoại của sinh viên:
Giá trị xi Tần số ni Tần suất hay tỷ lệ fi
3
O 3 20 = 0, 15
1
A 1 20 = 0, 05
6
S 6 20 = 0, 3
4
I 4 20 = 0, 2
2
N 2 20 = 0, 1
2
B 2 20 = 0, 1
2
K 2 20 = 0, 1
A O S S I B K S I S
O S I N I B N O S K
Bảng tần số, tần suất của dữ liệu mẫu về thương hiệu điện thoại của sinh viên:
Giá trị xi Tần số ni Tần suất hay tỷ lệ fi
3
O 3 20 = 0, 15
1
A 1 20 = 0, 05
6
S 6 20 = 0, 3
4
I 4 20 = 0, 2
2
N 2 20 = 0, 1
2
B 2 20 = 0, 1
2
K 2 20 = 0, 1
Khảo sát chiều cao (đơn vị: m) của 45 sinh viên trường Đại học Z ta có bảng
số liệu:
1,55 1,73 1,65 1,71 1,55 1,51 1,68 1,56 1,63
1,55 1,57 1,63 1,59 1,54 1,80 1,45 1,60 1,55
1,60 1,65 1,70 1,68 1,70 1,65 1,56 1,54 1,52
1,64 1,67 1,50 1,80 1,48 1,65 1,70 1,82 1,79
1,70 1,40 1,67 1,70 1,67 1,58 1,60 1,62 1,52
Khảo sát chiều cao (đơn vị: m) của 45 sinh viên trường Đại học Z ta có bảng
số liệu:
1,55 1,73 1,65 1,71 1,55 1,51 1,68 1,56 1,63
1,55 1,57 1,63 1,59 1,54 1,80 1,45 1,60 1,55
1,60 1,65 1,70 1,68 1,70 1,65 1,56 1,54 1,52
1,64 1,67 1,50 1,80 1,48 1,65 1,70 1,82 1,79
1,70 1,40 1,67 1,70 1,67 1,58 1,60 1,62 1,52

Để xây dựng bảng tần số cho dữ liệu liên tục đòi hỏi phải phân chia trục đo
thành một số lớp (khoảng) thích hợp sao cho mỗi quan sát được chứa trong
chính xác một khoảng.
Để tránh trường hợp một quan sát nằm trên ranh giới giữa các lớp (khoảng)
nên khó xác định nó thuộc chính xác một khoảng nào, ta thường sử dụng các
lớp khoảng từ 1,40 đến < 1,45; từ 1,45 đến < 1,50; . . . ; từ 1,80 đến
< 1,85. Khi đó 1,70 rơi trong lớp từ 1,70 đến < 1,75 mà không thuộc lớp
từ 1,65 đến 1,70.
Quy ước
Một quan sát trên một ranh giới được đặt trong khoảng ranh giới bên phải.
Bảng tần số của dữ liệu chiều cao sinh viên có dạng
Giá trị xi (m) 1,4-1,45 1,45-1,5 1,5-1,55
Tần số ni 1 2 6
Giá trị xi (m) 1,55-1,6 1,6-1,65 1,65-1,70
Tần số ni 9 7 9
Giá trị xi (m) 1,70-1,75 1,75-1,80 1,80-1,85
Tần số ni 7 1 3
Biểu đồ Gốc-Lá
Biểu đồ Gốc-Lá

Khảo sát chiều cao (đơn vị: m) của 45 sinh viên trường Đại học Y:
1,55 1,73 1,65 1,71 1,55 1,51 1,68 1,56 1,63
1,55 1,57 1,63 1,59 1,54 1,80 1,45 1,60 1,55
1,60 1,65 1,70 1,68 1,70 1,65 1,56 1,54 1,52
1,64 1,67 1,50 1,80 1,48 1,65 1,70 1,82 1,79
1,70 1,40 1,67 1,70 1,67 1,58 1,60 1,62 1,52
Biểu đồ gốc lá dữ liệu mẫu về chiều cao của 45 sinh viên trường Đại học Y
Tần số Gốc Lá
1 1,4 0
2 1,4 58
6 1,5 012244
9 1,5 555566789 Độ rộng của gốc: 0,10
7 1,6 0002334 Mỗi lá: 1 trường hợp
9 1,6 555577788 Đơn vị: m
7 1,7 0000013
1 1,7 9
3 1,8 002
Biểu đồ Gốc-Lá

Xét một tập hợp các dữ liệu số x1 , x2 , . . . , xn mà mỗi xi bao gồm ít nhất hai
chữ số.
Hướng dẫn tạo biểu đồ gốc và lá
1. Chọn một hoặc nhiều chữ số đầu cho các giá trị gốc, các chữ số sau là lá.
Biểu đồ Gốc-Lá

Xét một tập hợp các dữ liệu số x1 , x2 , . . . , xn mà mỗi xi bao gồm ít nhất hai
chữ số.
Hướng dẫn tạo biểu đồ gốc và lá
1. Chọn một hoặc nhiều chữ số đầu cho các giá trị gốc, các chữ số sau là lá.
2. Liệt kê các giá trị gốc có thể có trong một cột dọc.
Biểu đồ Gốc-Lá

Xét một tập hợp các dữ liệu số x1 , x2 , . . . , xn mà mỗi xi bao gồm ít nhất hai
chữ số.
Hướng dẫn tạo biểu đồ gốc và lá
1. Chọn một hoặc nhiều chữ số đầu cho các giá trị gốc, các chữ số sau là lá.
2. Liệt kê các giá trị gốc có thể có trong một cột dọc.
3. Ghi lá cho mỗi quan sát bên cạnh giá trị gốc tương ứng.
Biểu đồ Gốc-Lá

Xét một tập hợp các dữ liệu số x1 , x2 , . . . , xn mà mỗi xi bao gồm ít nhất hai
chữ số.
Hướng dẫn tạo biểu đồ gốc và lá
1. Chọn một hoặc nhiều chữ số đầu cho các giá trị gốc, các chữ số sau là lá.
2. Liệt kê các giá trị gốc có thể có trong một cột dọc.
3. Ghi lá cho mỗi quan sát bên cạnh giá trị gốc tương ứng.
4. Chỉ ra các đơn vị cho cành và lá.
Biểu đồ Gốc-Lá
Biểu đồ Gốc-Lá

Khảo sát chiều cao (đơn vị: m) của 45 sinh viên trường Đại học Y:
1,55 1,73 1,65 1,71 1,55 1,51 1,68 1,56 1,63
1,55 1,57 1,63 1,59 1,54 1,80 1,45 1,60 1,55
1,60 1,65 1,70 1,68 1,70 1,65 1,56 1,54 1,52
1,64 1,67 1,50 1,80 1,48 1,65 1,70 1,82 1,79
1,70 1,40 1,67 1,70 1,67 1,58 1,60 1,62 1,52
Biểu đồ gốc lá dữ liệu mẫu về chiều cao của 45 sinh viên trường Đại học Y
Tần số Gốc Lá
1 1,4 0
2 1,4 58
6 1,5 012244
9 1,5 555566789 Độ rộng của gốc: 0,10
7 1,6 0002334 Mỗi lá: 1 trường hợp
9 1,6 555577788 Đơn vị: m
7 1,7 0000013
1 1,7 9
3 1,8 002
Biểu đồ Gốc-Lá

Khảo sát chiều cao (đơn vị: m) của 45 sinh viên trường Đại học Y:
1,55 1,73 1,65 1,71 1,55 1,51 1,68 1,56 1,63
1,55 1,57 1,63 1,59 1,54 1,80 1,45 1,60 1,55
1,60 1,65 1,70 1,68 1,70 1,65 1,56 1,54 1,52
1,64 1,67 1,50 1,80 1,48 1,65 1,70 1,82 1,79
1,70 1,40 1,67 1,70 1,67 1,58 1,60 1,62 1,52
Biểu đồ gốc lá dữ liệu mẫu về chiều cao của 45 sinh viên trường Đại học Y
Tần số Gốc Lá
1 1,4 0
2 1,4 58
6 1,5 012244
9 1,5 5 55566789 Độ rộng của gốc: 0,10
7 1,6 0002334 Mỗi lá: 1 trường hợp
9 1,6 555577788 Đơn vị: m
7 1,7 000001 3
1 1,7 9
3 1,8 002
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.

Xác định các giá trị tiêu biểu hoặc đại diện.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.

Xác định các giá trị tiêu biểu hoặc đại diện.
Mức độ lan truyền của các giá trị tiêu biểu.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.

Xác định các giá trị tiêu biểu hoặc đại diện.
Mức độ lan truyền của các giá trị tiêu biểu.
Thể hiện bất kỳ khoảng trống trong dữ liệu.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.

Xác định các giá trị tiêu biểu hoặc đại diện.
Mức độ lan truyền của các giá trị tiêu biểu.
Thể hiện bất kỳ khoảng trống trong dữ liệu.
Mức độ đối xứng trong phân phối giá trị.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.

Xác định các giá trị tiêu biểu hoặc đại diện.
Mức độ lan truyền của các giá trị tiêu biểu.
Thể hiện bất kỳ khoảng trống trong dữ liệu.
Mức độ đối xứng trong phân phối giá trị.
Số lượng và vị trí của đỉnh.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.

Xác định các giá trị tiêu biểu hoặc đại diện.
Mức độ lan truyền của các giá trị tiêu biểu.
Thể hiện bất kỳ khoảng trống trong dữ liệu.
Mức độ đối xứng trong phân phối giá trị.
Số lượng và vị trí của đỉnh.
Thể hiện giá trị ngoại lai.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.

Xác định các giá trị tiêu biểu hoặc đại diện.
Mức độ lan truyền của các giá trị tiêu biểu.
Thể hiện bất kỳ khoảng trống trong dữ liệu.
Mức độ đối xứng trong phân phối giá trị.
Số lượng và vị trí của đỉnh.
Thể hiện giá trị ngoại lai.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.

Xác định các giá trị tiêu biểu hoặc đại diện.
Mức độ lan truyền của các giá trị tiêu biểu.
Thể hiện bất kỳ khoảng trống trong dữ liệu.
Mức độ đối xứng trong phân phối giá trị.
Số lượng và vị trí của đỉnh.
Thể hiện giá trị ngoại lai.

Nhược điểm của biểu đồ gốc và lá: chỉ biểu diễn được dữ liệu số có giá trị
gồm 2 chữ số và chỉ phù hợp với dữ liệu có cỡ nhỏ.
Biểu đồ Gốc-Lá
Biểu đồ Chấm
Biểu đồ Chấm
Biểu đồ Chấm

Mỗi quan sát được đại diện bởi một dấu chấm ở trên các vị trí tương ứng
trên thang điểm đo nằm ngang.
Biểu đồ Chấm

Mỗi quan sát được đại diện bởi một dấu chấm ở trên các vị trí tương ứng
trên thang điểm đo nằm ngang.
Khi một giá trị xuất hiện nhiều hơn một lần những dấu chấm được xếp
chồng lên nhau theo chiều dọc.
A O S S I B K S I S
O S I N I B N O S K

Biểu đồ chấm của dữ liệu mẫu về thương hiệu điện thoại của một sinh viên
trường đại học X đang sử dụng
*
*
* *
* * *
* * * * * *
* * * * * * *
O A S I N B K
Biểu đồ Chấm

Ưu điểm
Giống như biểu đồ gốc và lá, một biểu đồ chấm (dotplots) cũng cung cấp
thông tin về vị trí, mức độ lan truyền, giá trị ngoại lai và những khoảng trống
của tập dữ liệu.

Nhược điểm
Phù hợp với tập dữ liệu là nhỏ hoặc có rất ít giá trị dữ liệu riêng biệt.
Biểu đồ Chấm
Biểu đồ Histogram
Số Tín chỉ xi 12 15 18 21 24 27 30
Số sinh viên ni 6 14 26 49 54 41 28

50
Số Sinh viên
40

30

20

10

12 15 18 21 24 27 30
Biểu đồ Histogram

Hướng dẫn tạo biểu đồ cột cho dữ liệu rời rạc


1. Đầu tiên, xác định tần số và tần số tương đối của mỗi giá trị x.
2. Sau đó đánh dấu các giá trị x có thể có trên một trục nằm ngang.
3. Phía trên mỗi giá trị, vẽ một hình chữ nhật có chiều cao là tần số tương
đối (hoặc nói cách khác là tỷ số) của giá trị đó.
Biểu đồ Histogram

Hướng dẫn tạo biểu đồ cột cho dữ liệu rời rạc


1. Đầu tiên, xác định tần số và tần số tương đối của mỗi giá trị x.
2. Sau đó đánh dấu các giá trị x có thể có trên một trục nằm ngang.
3. Phía trên mỗi giá trị, vẽ một hình chữ nhật có chiều cao là tần số tương
đối (hoặc nói cách khác là tỷ số) của giá trị đó.

Diện tích của mỗi hình chữ nhật tỉ lệ với tần số tương đối của các giá trị.
Số Tín chỉ xi 12 15 18 21 24 27 30
Số sinh viên ni 6 14 26 49 54 41 28

50
Số Sinh viên
40

30

20

10

12 15 18 21 24 27 30
Biểu đồ Histogram

Hướng dẫn tạo biểu đồ cột cho dữ liệu liên tục với các khoảng có độ rộng như
nhau
8

Số sinh viên
6

1.41.451.51.551.61.651.71.751.8
Chiều cao
Biểu đồ Histogram

Hướng dẫn tạo biểu đồ cột cho dữ liệu liên tục với các khoảng có độ rộng như
nhau
1. Xác định tần số và tần số tương đối cho mỗi lớp (mỗi khoảng).
2. Đánh dấu ranh giới lớp trên một trục đo nằm ngang.
3. Phía trên mỗi lớp (khoảng), vẽ một hình chữ nhật có chiều cao là tần số
tương đối (hoặc tỷ lệ) tương ứng.
Biểu đồ Histogram

Xét dữ liệu chiều cao (đơn vị: m) của 45 sinh viên trường Đại học Y ta có
bảng số liệu:
Giá trị xi 1,4-1,45 1,45-1,5 1,5-1,55
Tần số ni 1 2 6
Giá trị xi 1,55-1,6 1,6-1,65 1,65-1,70
Tần số ni 9 7 9
Giá trị xi 1,70-1,75 1,75-1,80 1,80-1,85
Tần số ni 7 1 3
8

Số sinh viên
6

1.41.451.51.551.61.651.71.751.8
Chiều cao
Biểu đồ cột của mẫu dữ liệu trên là
1.8 − 1.85 3
1
1.7 − 1.75 7
1.65 − 1.7 9
1.6 − 1.65 7
1.55 − 1.6 9
1.5 − 1.55 6
2
1

0 2 4 6 8 10
Biểu đồ Histogram

Hướng dẫn tạo biểu đồ cột cho dữ liệu liên tục với các khoảng có độ rộng
không như nhau
Biểu đồ cột của mẫu dữ liệu định tính là thương hiệu điện thoại sinh viên
trường X sử dụng

O A S I N B K
Hướng dẫn tạo biểu đồ cột cho dữ liệu liên tục với các khoảng có độ rộng
không như nhau
Sau khi xác định tần số và tần số tương đối, tính chiều cao của mỗi hình chữ
nhật theo công thức
Chiều cao hình chữ nhật = tần số tương đối của lớp
độ rộng của lớp
Kết quả là chiều cao hình chữ nhật thường được gọi là mật độ và thang đo
theo chiều dọc là thang đo mật độ.
Tần số tương đối = (độ rộng lớp).(mật độ)
=(chiều rộng hcn).(chiều cao hcn)
= diện tích hình chữ nhật
Biểu đồ Histogram
Biểu đồ Histogram
Biểu đồ Histogram
Dữ liệu đa biến
Dữ liệu đa biến nói chung là khá khó khăn để mô tả trực quan. Một trong các
phương pháp để mô tả là dùng biểu đồ phân tán cho dữ liệu hai biến số.
Mỗi cặp giá trị trong dữ liệu sẽ được biểu diễn bởi một chấm có tọa độ
tương ứng là cặp dữ liệu này.
Biểu diễn tất cả dữ liệu ta thu được một đám mây các điểm trong biểu đồ
phân tán này.
Dựa trên hình dạng đám mây điểm này ta có thể dự đoán được xu hướng
mối quan hệ giữa các biến đặc trưng của dữ liệu hoặc đưa ra kết luận
không có mối quan hệ giữa các biến này.
Mỗi cặp giá trị trong dữ liệu sẽ được biểu diễn bởi một chấm có tọa độ tương
ứng là cặp dữ liệu này.
Ta xét dữ liệu ghép cặp của hai đặc trưng X và Y
(3.5, 12); (4.5, 15); (6.2, 16); (3.2, 19); (4.1, 21); (3.9, 24);
(6.5, 26); (4.8, 29); (3.0, 31); (2.5, 35); (4.7, 46)
Trung bình mẫu
Trung bình mẫu

Cho tập hợp dữ liệu mẫu x1 , x2 , . . . , xn .


Trung bình mẫu

Cho tập hợp dữ liệu mẫu x1 , x2 , . . . , xn .


Ký hiệu trung bình mẫu là x̄.
Trung bình mẫu

Cho tập hợp dữ liệu mẫu x1 , x2 , . . . , xn .


Ký hiệu trung bình mẫu là x̄.

Trung bình mẫu x̄ của các quan sát x1 , x2 , . . . , xn cho bởi


n
X
xi
x1 + x2 + . . . + xn i=1
x̄ = =
n n
Trung bình mẫu

x̄ là giá trị trung bình của các quan sát trong một mẫu.
Trung bình của tất cả các giá trị trong tổng thể được gọi là trung bình
tổng thể và được ký hiệu µ.
Trung bình mẫu

x̄ là giá trị trung bình của các quan sát trong một mẫu.
Trung bình của tất cả các giá trị trong tổng thể được gọi là trung bình
tổng thể và được ký hiệu µ.

Khi có N cỡ của tổng thể (tổng thể hữu hạn), thì

tổng các giá trị trong tổng thể


µ=
N
.
Median-Trung vị

Trung vị là giá trị ở chính giữa các quan sát được sắp xếp.

Ký hiệu x̃ đại diện cho trung vị mẫu.


Median-Trung vị

Trung vị là giá trị ở chính giữa các quan sát được sắp xếp.

Ký hiệu x̃ đại diện cho trung vị mẫu.


Cách xác định trung vị
Sắp xếp các giá trị quan sát x1 , x2 , . . . , xn của mẫu từ nhỏ đến lớn
Nếu n là số lẻ thì x̃ là giá trị thứ n+1 2 .
n n
Nếu n là số chẵn thì x̃ là trung bình của hai giá trị thứ 2 và 2 + 1.
Cho dữ liệu đã được sắp xếp
x1 x2 x3 x4 x5 x6 x7 x8 x9
12 18 22 25 27 31 36 40 42

n = 9 nên x̃ = x n+1 = x5 = 27.


2
Cho dữ liệu đã được sắp xếp
x1 x2 x3 x4 x5 x6 x7 x8 x9
12 18 22 25 27 31 36 40 42

n = 9 nên x̃ = x n+1 = x5 = 27.


2

Giả sử quan sát lớn nhất x9 không chứa trong dữ liệu mẫu.
x1 x2 x3 x4 x5 x6 x7 x8
12 18 22 25 27 31 36 40
xn/2 + xn/2+1 25 + 27
x̃ = = = 26
2 2
x̃ là giá trị trung vị mẫu, giá trị ở giữa tổng thể là trung vị của tổng
thể ta kí hiệu bằng µ̃.
Ta sử dụng các trung vị mẫu x̃ như là một suy luận về trung vị của tổng
thể µ̃.
x̃ là giá trị trung vị mẫu, giá trị ở giữa tổng thể là trung vị của tổng
thể ta kí hiệu bằng µ̃.
Ta sử dụng các trung vị mẫu x̃ như là một suy luận về trung vị của tổng
thể µ̃.

Ba hình dạng khác nhau của phân phối tổng thể.


Tứ phân vị - Phân vị mức phần trăm
Các tham số tứ phân vị chia dữ liệu thành bốn phần bằng nhau.
Tứ phân vị nhỏ chia nửa nhỏ của tập dữ liệu từ giá trị nhỏ nhất đến
trung vị thành hai phần bằng nhau.
Tứ phân vị lớn chia nửa lớn dữ liệu từ giá trị trung vị đến giá trị lớn
nhất thành hai phần bằng nhau.
Một tập hợp dữ liệu (mẫu hoặc tổng thể) có thể được phân chia tinh tế hơn
bằng các tham số phần trăm.

Tứ phân vị nhỏ còn được gọi là phân vị thứ 25.


Trung vị còn được gọi là phân vị thứ 50.
Tứ phân vị lớn còn được gọi là phân vị thứ 75.
Một tập hợp dữ liệu (mẫu hoặc tổng thể) có thể được phân chia tinh tế hơn
bằng các tham số phần trăm.

Tứ phân vị nhỏ còn được gọi là phân vị thứ 25.


Trung vị còn được gọi là phân vị thứ 50.
Tứ phân vị lớn còn được gọi là phân vị thứ 75.
Một tập hợp dữ liệu (mẫu hoặc tổng thể) có thể được phân chia tinh tế hơn
bằng các tham số phần trăm.

Tứ phân vị nhỏ còn được gọi là phân vị thứ 25.


Trung vị còn được gọi là phân vị thứ 50.
Tứ phân vị lớn còn được gọi là phân vị thứ 75.
Một tập hợp dữ liệu (mẫu hoặc tổng thể) có thể được phân chia tinh tế hơn
bằng các tham số phần trăm.

Tứ phân vị nhỏ còn được gọi là phân vị thứ 25.


Trung vị còn được gọi là phân vị thứ 50.
Tứ phân vị lớn còn được gọi là phân vị thứ 75.
Biểu đồ hộp
Cách vẽ biểu đồ hộp
Vẽ một thang đo thẳng đứng.
Đặt một hình chữ nhật ở trên trục này; cạnh dưới của hình chữ nhật là
vào tứ phân vị nhỏ và cạnh trên là tứ phân vị lớn.
Đặt một đoạn đường nằm ngang hoặc một số biểu tượng khác bên trong
hình chữ nhật tại địa điểm của trung vị; vị trí của các biểu tượng trung vị
so với hai cạnh truyền tải thông tin về độ lệch giữa của 50% dữ liệu.
Vẽ "râu" ra từ hai đầu của hình chữ nhật tới và quan sát lớn nhất và nhỏ
nhất.
Một boxplot theo hướng nằm ngang cũng có thể được rút ra bằng cách làm
thay đổi chiều thang đo trong quá trình xây dựng.
Cho tập hợp dữ liệu đã được sắp xếp với các giá trị chia dữ liệu thành 4 phần
như sau:
Biểu đồ hộp của tập dữ liệu trên là
Biểu đồ hộp - Giá trị ngoại lai
Bất kỳ quan sát xa hơn 1, 5fs từ tứ phân vị gần nhất là một ngoại lại. Với

fs = giá trị tứ phân vị lớn - giá trị tứ phân vị nhỏ


Biểu đồ hộp - Giá trị ngoại lai
Bất kỳ quan sát xa hơn 1, 5fs từ tứ phân vị gần nhất là một ngoại lại. Với

fs = giá trị tứ phân vị lớn - giá trị tứ phân vị nhỏ

Hình: Biểu đồ hộp của dữ liệu chiều cao của 45 sinh viên trường X.
Bất kỳ quan sát xa hơn 1, 5fs từ tứ phân vị gần nhất là một ngoại lại. Với

fs = giá trị tứ phân vị lớn - giá trị tứ phân vị nhỏ

Hình: Biểu đồ hộp của dữ liệu chiều cao của 45 sinh viên trường X với giá trị min là 1,3m.
Trung bình thu gọn
Một trung bình thu gọn là trung bình của
dữ liệu được thu gọn bớt đi một số dữ liệu
thuộc nhóm lớn nhất và nhỏ nhất.
Trung bình thu gọn
Một trung bình thu gọn là trung bình của
dữ liệu được thu gọn bớt đi một số dữ liệu
thuộc nhóm lớn nhất và nhỏ nhất.

Ví dụ một trung bình thu gọn 10% được tính


bằng cách loại bỏ 10% các giá trị nhỏ nhất và
10% các giá trị lớn nhất của dữ liệu và sau đó
tính trung bình các giá trị còn lại.
Tỷ lệ mẫu
Tỷ lệ mẫu

Khi dữ liệu được phân loại và ta chỉ quan tâm đến dữ liệu thuộc loại nào đó.
Tỷ lệ mẫu

Khi dữ liệu được phân loại và ta chỉ quan tâm đến dữ liệu thuộc loại nào đó.

Nếu chúng ta kí hiệu x là số cá thể trong mẫu rơi vào loại ta quan tâm
Tỷ lệ mẫu

Khi dữ liệu được phân loại và ta chỉ quan tâm đến dữ liệu thuộc loại nào đó.

Nếu chúng ta kí hiệu x là số cá thể trong mẫu rơi vào loại ta quan tâm
thì số lượng cá thể không thuộc loại ta quan tâm là n − x.
Tỷ lệ mẫu

Khi dữ liệu được phân loại và ta chỉ quan tâm đến dữ liệu thuộc loại nào đó.

Nếu chúng ta kí hiệu x là số cá thể trong mẫu rơi vào loại ta quan tâm
thì số lượng cá thể không thuộc loại ta quan tâm là n − x.
Tần số mẫu tương đối hoặc tỷ lệ mẫu tương đối loại ta quan tâm là x/n
Tỷ lệ mẫu

Khi dữ liệu được phân loại và ta chỉ quan tâm đến dữ liệu thuộc loại nào đó.

Nếu chúng ta kí hiệu x là số cá thể trong mẫu rơi vào loại ta quan tâm
thì số lượng cá thể không thuộc loại ta quan tâm là n − x.
Tần số mẫu tương đối hoặc tỷ lệ mẫu tương đối loại ta quan tâm là x/n
Tỷ lệ mẫu các loại còn lại là 1 − x/n.
Phương sai mẫu
Phương sai mẫu

Hình: Các mẫu có độ đo trung tâm giống hệt nhau nhưng khác nhau về độ biến thiên.
Phương sai mẫu

Phương sai mẫu, kí hiệu s 2 , xác định bởi


Σ(xi − x̄)2 Sxx
s2 = =
n−1 n−1
Phương sai mẫu

Phương sai mẫu, kí hiệu s 2 , xác định bởi


Σ(xi − x̄)2 Sxx
s2 = =
n−1 n−1
Độ lệch chuẩn mẫu, kí hiệu s, là căn bậc hai dương của phương sai mẫu

s = s2
Bảng tổng hợp về tổng thể và mẫu:

Tham số Tổng thể Tham số Mẫu


Cỡ Tổng thể N Cỡ Mẫu n
Trung bình µ Giá trị trung bình Mẫu x̄
Trung vị µ̃ Giá trị trung vị Mẫu x̃
2
Phương sai σ Giá trị phương sai Mẫu s 2
Độ lệch chuẩn σ Giá trị độ lệch chuẩn Mẫu s
Tỷ lệ p Giá trị độ lệch chuẩn Mẫu fn
Sử dụng máy tính bỏ túi 570 tính tham số mẫu
Bật chức năng Tần số:Shilf + Mode -> Stat -> ON.
Lưu ý: Chỉ cần làm 1 lần, trừ khi tắt OFF thì cần bật ON lại.

Nhập liệu: Mode -> Stat -> 1-Var


Nhập dữ liệu xong bấm AC.

Lấy kết quả: Shilf + Stat -> Var


1. Cỡ mẫu n ; 2. Trung bình mẫu x̃ ; 4. Độ lệch chuẩn mẫu sx hoặc xσn−1 .
Lưu ý: Trước khi xử lý số liệu mới cần xóa dữ liệu cũ bằng cách Mode -> 1,
sau đó quay lại bước nhập liệu.
Sử dụng máy tính bỏ túi 580 tính tham số mẫu

Bật chức năng Tần số:Shilf + Menu + nhấn mũi tên xuống + 2 + 1
Lưu ý: Chỉ cần làm 1 lần, trừ khi tắt OFF thì cần bật ON lại.

Nhập liệu: Mode -> 6 -> 1


Nhập dữ liệu xong bấm AC.

Lấy kết quả: OPTN + 2


1. Cỡ mẫu n ; 2. Trung bình mẫu x̃ ; 4. Độ lệch chuẩn mẫu s.

You might also like