You are on page 1of 41

Dữ liệu rời rạc là lượng biến mà các giá trị có thể có của nó là hữu hạn

hay vô hạn đếm được. Ví dụ như số công nhân trong một doanh nghiệp, số
sản phẩm sản xuất trong một ngày của một phân xưởng…

Dữ liệu liên tục là lượng biến mà các giá trị có thể có của nó có thể lấp
kín cả một khoảng trên trục số. Ví dụ như trọng lượng, chiều cao của sinh
viên; năng suất của một loại cây trồng…
Thang đo định danh là loại thang đo dùng cho các tiêu thức thuộc tính. Người ta sử dụng các mã số
để phân loại các đối tượng, chúng không mang ý nghĩa nào khác. Ví dụ giới tính, nam ký hiệu là số 1,
nữ ký hiệu là số 0. Giữa các con số ở đây không có quan hệ hơn kém, mà chỉ dùng để đếm số tần số
xuất hiện của các biểu hiện.

Ví dụ 1.1 Trong một chủ đề nghiên cứu, người ta đưa ra hai câu hỏi sau:
Câu 1. Tình trạng hôn nhân của Anh/Chị là:
i. Độc thân ii. Đã lập gia đình iii. Khác
Câu 2. Công ty của Anh/Chị đang hoạt động chính trong lĩnh vực nào
i. Sản xuất ii. Xây dựng iii. Dịch vụ iv. Thương mại v. Khác
Đối với mỗi người sẽ chọn một trong các mã số i, ii, iii cho câu 1 hoặc i, ii, iii, iv, v cho câu 2. Các
mã số này là thang đo định danh.
Thang đo thứ bậc là thang đo mà giữa các biểu hiện của tiêu thức có quan hệ thứ bậc hơn kém. Sự chênh
lệch giữa các biểu hiện không nhất thiết phải bằng nhau.

Trong thang đo này, giữa các biểu hiện của tiêu thức có quan hệ thứ bậc hơn kém. Sự chênh lệch giữa các
biểu hiện không nhất thiết phải bằng nhau.
Ví dụ 1.2 Với các câu hỏi được cho như sau:
Câu 1. Anh/Chị vui lòng cho biết kết quả học tập Anh/Chị đạt được khi tốt nghiệp Đại học

Trung bình Trung bình-khá Khá Giỏi

Câu 2. Anh/Chị hãy xếp hạng các chủ đề sau trên báo Phụ nữ theo mức độ quan tâm (chủ đề nào
quan tâm nhất thì ghi số 1, quan tâm thứ hai thì ghi số 2 và quan tâm số ba thì ghi số 3)

Hôn nhân gia đình Thời trang Nuôi dạy con cái

Câu 3. Thu nhập của Anh/Chị hàng tháng là :

Dưới 6 triệu đồng Từ 6 đến 10 triệu đồng Trên 10 triệu đồng


Thang đo khoảng là thang đo dùng cho các tiêu thức số lượng và các dữ liệu thuộc tính. Khuynh hướng
trung tâm của dữ liệu thu thập từ thang đo khoảng có thể là mode, trung vị và trung bình cộng; trong đó trung
bình cộng chứa nhiều thông tin nhất.

Ví dụ 1.3 Thang đo nhiệt độ, 32℃> 30℃ và 80℃> 78℃, sự chênh lệch giữa 32℃ và 30℃ cũng giống sự
chênh lệch giữa 80℃ và 78℃, đều cách nhau 2℃.

“Đề nghị quý thầy/ cô cho biết ý kiến của mình về tầm quan trọng của các mục tiêu đào tạo sinh viên đại học
sau đây bằng cách khoanh tròn các con số tương ứng trên thang đánh giá chỉ mức độ từ 1 đển 5 (1: không quan
trọng, 5: rất quan trọng).

Năng lực giải quyết vấn đề 1 2 3 4 5


Tư duy logic 1 2 3 4 5
Khả năng làm việc độc lập 1 2 3 4 5
Năng lực nghiên cứu khoa học 1 2 3 4 5
Thang đo tỷ lệ là loại thang đo dùng cho dữ liệu số lượng. Thang đo tỷ lệ có đầy đủ các đặc tính của
thang đo khoảng tức là có thể áp dụng các phép tính cộng trừ.Ngoài ra, thang đo này có một giá trị số
0 “thật”, cho phép lấy tỷ lệ so sánh giữa hai giá trị thu thập cho nên gọi là thang đo tỷ lệ. Đây là
thang đo cao nhất trong các loại thang đo.

Sự khác nhau giữa thang đo khoảng và thang đo tỷ lệ

1. Điểm 0 trong thang đo tỷ lệ là một trị số thật.

2. Trong thang đo khoảng, sự so sánh về mặt tỷ lệ giữa các giá trị không có ý nghĩa.
Hai thang đo đầu tiên cung cấp cho chúng ta các dữ liệu định tính cho
nên còn có tên gọi là thang đo định tính.
Hai thang đo còn lại cung cấp cho ta dữ liệu định lượng nên còn có
tên gọi là thang đo định lượng.

Lưu ý: Chúng ta có thể chuyển đổi dữ liệu định lượng thành dữ liệu
định tính .
BÀI TẬP: Dữ liệu thuộc thang đo nào? Nếu dữ liệu là
định lượng thì rời rạc hay liên tục?
a) Số lượng cuộc gọi đến bạn trong một ngày.
b) Giới tính.
c) Tên các cổ phiếu.
d) Số lần mua sắm online trong một tháng.
e) Số lượng email nhận được trong một ngày.
f) Thời gian (giờ) sử dung Internet mỗi ngày.
g) Số lượng cuốn sách được mua tại một hiệu sách.
BÀI TẬP: “Thu nhập hàng tháng của bạn là bao nhiêu?
(1). Dưới 10 triệu/tháng
(2). Từ 10 đến 20 triệu/tháng
(3). Trên 20 triệu/tháng”
Câu hỏi trên nhằm thu thập dữ liệu dạng nào và thang đo cao nhất có thể sử
dụng là gì?

BÀI TẬP: “Giá căn hộ mà anh (chị) có thể mua được là bao nhiêu?
(1). Dưới 20 triệu/𝑚𝑚2 (2). Từ 20 đến 40 triệu/𝑚𝑚2 (3). Trên 40 triệu/𝑚𝑚2”
Câu hỏi khảo sát trên nhằm thu thập dữ liệu dạng nào và thang đo cao nhất có
thể sử dụng là gì?
4. TRÌNH BÀY DỮ LIỆU

10
Đối với dữ liệu định tính hoặc dữ liệu định lượng ít biểu hiện:

- Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy
- Biểu đồ hình cột, thanh, hình tròn
BẢNG TẦN SỐ

• Bảng tần số là một bảng tổng hợp, trình


bày dữ liệu, thường bao gồm ba cột:

Cột 1 Cột 2 Cột 3


biểu hiện hoặc tần số tương tần suất (tỉ
các giá trị ứng (số lần lệ %).
(khoảng giá trị) từng biểu hiện
của dữ liệu, ký đó xuất hiện
hiệu 𝑥𝑥𝑖𝑖 . trong tập dữ
liệu), ký hiệu
𝑓𝑓𝑖𝑖 .
12
4. 1. Bảng tần số - tần suất cho dữ liệu định tính

• Đối với các dữ liệu định tính như giới tính,


ngành học, …, bảng tần số :

Biểu hiện Tần số Tần suất(%)


fi fi
di = 100%
n
biểu hiện 1 f1 d1
biểu hiện 2 f2 d2
… … …
biểu hiện k fk dk
k
Tổng k

∑f
i =1
i =n ∑d
i =1
i = 100%
13
BẢNG TẦN SỐ

Ví dụ 1: Khi khảo sát 200 người về lựa chọn màu


• của xe máy mà họ yêu thích là
Màu xe Tần số Tần suất
Đỏ 30 15%
Đen 60 30%
Xanh 50 25%
Trắng 20 10%
Khác 40 20%
Tổng số 200 100%
4. 1. Bảng tần số - tần suất cho dữ liệu định tính

Ví dụ 2: Khảo sát 50 người về mức lương hàng tháng mà họ nhận được


trong vòng 5 năm trở lại đây

Mức lương Tần số Tần số tích lũy Tần suất Tần suất tích lũy

Dưới 3 triệu 5 5 10% 10%

Từ 3 đến 5 triệu 15 20 30% 40%

Từ 5 đến 10 triệu 20 40 40% 80%

Trên 10 triệu 10 50 20% 100%

Tổng số 50 100%
15
4.2 Biểu đồ hình cột
Biểu đồ hình cột được sử dụng cho các dữ liệu định tính hoặc định
lượng nhưng có ít biểu hiện hoặc định lượng đã được phân khoảng. Trục
hoành thể hiện giá trị của vấn đề nghiên cứu, trục tung thể hiện tần số.
Mỗi cột thể hiện một giá trị, độ cao của cột là tần số.

16
4.2 Biểu đồ hình cột
Ví dụ 1: Khi khảo sát 200 người về lựa chọn màu của xe máy mà họ yêu
thích là
Màu xe Tần số Tần suất

Đỏ 30 15%

Đen 60 30%

Xanh 50 25%

Trắng 20 10%

Khác 40 20%

Tổng số 200 100%

Biểu đồ biểu thị số lượng màu xe.


17
4.3 Biểu đồ hình thanh

Biểu đồ hình thanh là dạng biểu đồ hình cột mà quay ngang, hai trục
đổi vị trí cho nhau, nó hay sử dụng khi giá trị của vấn đề nghiên cứu dài.

18
4.3. Biểu đồ hình thanh

Ví dụ 1: Khi khảo sát 200 người về lựa chọn màu của xe máy mà họ yêu
thích là
Màu xe Tần số Tần suất

Đỏ 30 15%

Đen 60 30%

Xanh 50 25%

Trắng 20 10%

Khác 40 20%

Tổng số 200 100%

Biểu đồ biểu thị số lượng màu xe.


19
4.3 Biểu đồ hình tròn
Biểu đồ hình tròn là dạng biểu đồ mà dữ liệu thể hiện các nhóm giá trị
khác nhau được phân biệt dựa trên màu sắc, nhóm giá trị nào có tần số
càng lớn thì màu sắc tượng trưng cho nhóm giá này sẽ to hơn các nhóm
giá trị khác.

20
4.3. Biểu đồ hình tròn

Ví dụ 1: Khi khảo sát 200 người về lựa chọn màu của xe máy mà họ yêu
thích là
Màu xe Tần số Tần suất

Đỏ 30 15%

Đen 60 30%

Xanh 50 25%

Trắng 20 10%

Khác 40 20%

Tổng số 200 100%

Biểu đồ biểu thị số lượng màu xe.


21
Đối với dữ liệu định lượng nhiều biểu hiện có thể lựa chọn các hình
thức biểu diễn như sau:

1. Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy

2. Đồ thị hình cột, thanh, hình tròn

3. Biểu đồ nhánh và lá

4. Phân tổ dữ liệu
Dữ liệu định lượng cũng tương tự như dữ liệu định tính trong biểu
diễn bảng và đồ thị, ở đây chúng ta chỉ trình bày phân tổ dữ liệu và
biểu đồ nhánh và lá. Tuy nhiên, trong dữ liệu định lượng nếu có số
biểu hiện ít thì thông thường hay chọn biểu đồ nhánh và lá; ngược
lại ta thường phải phân tổ dữ liệu trước khi biểu diễn dữ liệu.
4.4 Biểu đồ nhánh, lá và cách xây dựng
a. Biểu đồ nhánh, lá:
Phương pháp nhánh và lá là các dữ liệu thu thập được sẽ được tách
thành 2 phần: phần nhánh và phần lá.

Việc phân chia này chỉ có tính quy ước và khá linh hoạt.

Các chữ số bên phải của dữ liệu là lá, tương ứng các chữ số còn lại bên
tay trái là nhánh.

24
4.4 Biểu đồ nhánh, lá và cách xây dựng
b. Cách xây dựng:

1. Xây dựng nhánh cho biểu đồ: Sắp xếp các giá trị nhánh theo thứ tự tăng
dần.
2. Xây dựng lá cho biểu đồ: Lần lượt xếp các dữ liệu quan sát của dữ liệu và
từ trái qua phải.
3. Sắp xếp lại theo thứ tự tăng dần của lá để có biểu đồ đẹp hơn.

25
Ví dụ 3: Chúng ta có dữ liệu trong mẫu điều tra về tuổi của các học
viên tham gia một khóa học kỹ năng mềm tại một trung tâm như sau:

28 23 30 24 19 21 39 22 22 31 37 33 20 30 35

21 26 27 25 29 27 21 25 28 26 29 29 22 32 27

Xây dựng biểu đồ nhánh, lá cho dữ liệu trên.

Nhận định: dữ liệu hiện có chỉ ở hàng chục, số nhỏ nhất là 19 và lớn
nhất là 39. Vậy, nhánh là hàng chục và lá là hàng đơn vị. Vậy nhánh sẽ có
3 giá trị là 1, 2 và 3.
Ví dụ 3: Chúng ta có dữ liệu trong mẫu điều tra về tuổi của các học viên tham gia một khóa học kỹ năng
mềm tại một trung tâm như sau:
28 23 30 24 19 21 39 22 22 31 37 33 20 30 35
21 26 27 25 29 27 21 25 28 26 29 29 22 32 27
Xây dựng biểu đồ nhánh, lá cho dữ liệu trên.

1. Xây dựng nhánh cho biểu đồ. Sắp xếp các giá trị nhánh theo thứ tự tăng dần

1
2
3
2. Xây dựng lá cho biểu đồ.
3. Sắp xếp lại theo thứ tự tăng dần của lá để có biểu đồ đẹp hơn.
Ví dụ 3: Chúng ta có dữ liệu trong mẫu điều tra về tuổi của các học viên tham gia một khóa học kỹ năng
mềm tại một trung tâm như sau:
28 23 30 24 19 21 39 22 22 31 37 33 20 30 35
21 26 27 25 29 27 21 25 28 26 29 29 22 32 27
Xây dựng biểu đồ nhánh, lá cho dữ liệu trên.

1. Xây dựng nhánh cho biểu đồ. Sắp xếp các giá trị nhánh theo thứ tự tăng dần
2. Xây dựng lá cho biểu đồ.
3. Sắp xếp lại theo thứ tự tăng dần của lá để có biểu đồ đẹp hơn.

1 9
2 011122234556677788999
3 00123579
Trong thực tế, đồ thị nhánh và lá có thể tách nhánh nếu như một nhánh là khá
dài như sau:
Tuoi Stem-and-Leaf Plot
Frequency Stem & Leaf
1.00 1 . 9
9.00 2 . 011122234
12.00 2 . 556677788999
5.00 3 . 00123
3.00 3 . 579
Stem width: 10.00
Each leaf: 1 case(s)
4.5 Phân tổ dữ liệu
a. Phân tổ dữ liệu:

Áp dụng cho trường hợp dữ liệu định lượng có nhiều biểu hiện, phân tổ đều
nhau. Phân tổ dữ liệu là căn cứ vào một hay một số đặc điểm nào đó để sắp
xếp các đơn vị quan sát vào các tổ, nhóm có tính chất khác nhau.

30
4.5 Phân tổ dữ liệu
a. Phân tổ dữ liệu:
Ví dụ 4: Khảo sát giá cả 1129 mặt hàng tại một thành phố với giá dao động
từ 15 đến 60 (ngàn đồng/kg).
Sau khi gom dữ liệu:
Giá cả (ngàn đồng/Kg) Tần số (mặt hàng) Tần suất (%) Tần suất tích lũy (%)

Từ 15 đến 20 146 12.9 12.9

Từ 21 đến 30 410 36.3 49.2

Từ 31 đến 40 293 26.0 75.2

Từ 41 đến 50 187 16.6 91.8

Từ 51 đến 60 93 8.2 100

Tổng 1129 100


31
=> Kiểu phân tổ theo kinh nghiệm. Thực tế, thường phân nhóm đều nhau.
Các yêu cầu khi tiến hành phân tổ:

1. Các tổ không được trùng nhau, để cho mỗi quan sát chỉ thuộc về một tổ.

2. Tất cả các tổ được phân chia bảo đảm bao quát hết tất cả các giá trị hiện
có của tập dữ liệu.

3. Tránh không để tổ rỗng do không có quan sát nào thuộc về tổ đó.


Các bước của thủ tục phân tổ đều:
1. Xác định số tổ cần chia là k tổ (nên chia trong khoảng từ trên 5 tổ đến dưới 15
tổ).
Một công thức tham khảo xác định được số tổ cần chia phù hợp cho từng bộ dữ
liệu cụ thể là
hay ( 2n )
1/3
k = 2n   
3
n là số quan sát của tập dữ liệu.

Lưu ý: Tùy vào tập dữ liệu để kết quả tính được làm tròn lên hay làm tròn xuống
cho phù hợp.
Các bước của thủ tục phân tổ đều:
2. Xác định trị số khoảng cách tổ
X max − X min
h=
k

Lưu ý: Giá trị h tính được nếu là một số lẻ cũng thường được xem xét làm tròn để
dễ theo dõi các khoảng cách tổ hơn.
Các bước của thủ tục phân tổ đều:
3. Xác định giới hạn dưới và giới hạn trên của các tổ.

Lưu ý: Khi xác định giới hạn dưới của tổ đầu tiên cần đảm bảo giá trị của nó
bằng hoặc nhỏ hơn giá trị 𝑋𝑋𝑚𝑚𝑚𝑚𝑚𝑚 để bao quát được giá trị 𝑋𝑋𝑚𝑚𝑚𝑚𝑚𝑚 trong tổ đầu tiên.
Tương tự, cho xác định giới hạn trên.
Các bước của thủ tục phân tổ đều:
4. Phân chia các quan sát vào các tổ: ta điểm qua các quan sát, quan sát có giá trị
phù hợp vào tổ nào thì ta xếp nó vào tổ đó.

Lưu ý: Quy ước thông thường là khi gặp một quan sát có giá trị bằng đúng cận
trên của một tổ thì ta xếp quan sát đó vào tổ kế tiếp.
Ví dụ 5: Chúng ta có dữ liệu của một mẫu điều tra nhỏ về tuổi của 30
học viên tại Trung tâm Anh ngữ như sau:

35 28 23 30 24 19 21 39 22 22
21 26 27 25 29 27 21 25 28 26
31 37 33 20 30 29 29 27 22 32

Xác định số tổ cần chia theo công thức.


Ví dụ 5: Chúng ta có dữ liệu của một mẫu điều tra nhỏ về tuổi của 30 học viên tại Trung tâm Anh ngữ như sau:
35 28 23 30 24 19 21 39 22 22
21 26 27 25 29 27 21 25 28 26
31 37 33 20 30 29 29 27 22 32
Thực hiện phân tổ dữ liệu.

1. Xác định số tổ cần chia theo công thức.


= k (=
2n )
1/3
( 2.30
= )
1/3
3.9 Nên lấy tròn là 4 tổ
X max − X min 39 − 19
2. Xác định số khoảng cách tổ: =h = = 5
k 4
nên các tổ lần lượt sẽ là: 19-24, 24-29, 29-34, 34-39. 39?
Ví dụ 5: Chúng ta có dữ liệu của một mẫu điều tra nhỏ về tuổi của 30 học viên tại Trung tâm Anh ngữ như sau:
35 28 23 30 24 19 21 39 22 22
21 26 27 25 29 27 21 25 28 26
31 37 33 20 30 29 29 27 22 32
Thực hiện phân tổ dữ liệu.

Cách giải quyết:

Độ tuổi (tuổi) Tần số (Số sinh viên) Tần suất (%)

19-24 9 30.00
24-29 10 33.33
29-34 8 26.67
34 trở lên 3 10.00
Tổng số 30 100.00
Bài tập vận dụng chương 1
Có số liệu về doanh thu các ngày của một cửa hàng internet tháng
11/2009 như sau, hãy:
- Phân nhóm số liệu thành 4 nhóm với khoảng cách bằng nhau.
- Lập bảng tần số
- Xác định % số ngày trong tháng có doanh thu từ 800 000đ trở lên.
- Biểu diễn số liệu đã phân nhóm bằng đồ thị.
Đ/v : 1000đ

700 940 765 860 870 890

950 650 750 850 855 780

760 735 600 780 920 690

620 730 830 860 750 1000

740 800 750 680 880 790

You might also like