You are on page 1of 10

BÀI TẬP THỐNG KÊ ỨNG DỤNG - NHÓM 7

Thu thập dữ liệu và trình bày thống kê về bảng chéo, đồ thị phân tán, mối quan
hệ giữa hai biến.
_____________________________________________________________________

_____________________________________________________________________
_____
A. Thu thập dữ liệu
- Tên đề tài: KHẢO SÁT TÌNH HÌNH ĐI MUỘN CỦA SINH VIÊN UEH.
- Bảng khảo sát để thu thập dữ liệu gồm 6 câu hỏi như sau:
1. Giới tính của bạn là gì?
2. Bạn đã từng đi học muộn hay không?
3. Bạn đi học muộn trung bình bao nhiêu phút?
4. Khoảng cách từ nhà đến trường của bạn là bao nhiêu? (Đơn vị: m)
- Từ đó nhóm chúng em thu thập được bảng dữ liệu như sau:

Giới
STT Đi học muộn Thời gian đi muộn (phút) Khoảng cách (m)
tính

1 Nữ Đã từng 20 7000
2 Nữ Đã từng 10 800
3 Nữ Đã từng 5 2000
4 Nữ Đã từng 10 9500
5 Nữ Đã từng 10 1400
6 Nam Chưa từng 0 19000
7 Nữ Đã từng 10 1000
8 Nữ Đã từng 10 5000
9 Nam Đã từng 10 3000

10 Nam Đã từng 15 3000

11 Nữ Đã từng 10 3500

12 Nữ Đã từng 20 2500

13 Nữ Đã từng 20 4000
14 Nữ Đã từng 20 3000
15 Nam Đã từng 5 3000
16 Nữ Đã từng 20 900
17 Nữ Đã từng 30 800
18 Nữ Đã từng 20 2500
19 Nam Đã từng 15 9000
20 Nữ Đã từng 30 8000
21 Nam Đã từng 10 6000

22 Nữ Đã từng 15 5000

23 Nữ Đã từng 20 3000

24 Nữ Đã từng 30 800
25 Nữ Đã từng 30 1900

26 Nữ Đã từng 5 500

27 Nam Đã từng 10 8000

28 Nam Đã từng 5 8000

29 Nam Đã từng 15 300

30 Nam Đã từng 15 13000


31 Nam Đã từng 20 600
32 Nam Đã từng 2 13000

33 Nữ Đã từng 30 1500

34 Nam Chưa từng 0 4000

35 Nam Đã từng 10 3000

36 Nam Đã từng 10 5000


37 Nam Đã từng 90 5000

38 Nữ Đã từng 10 4000

39 Nữ Chưa từng 0 3800


40 Nữ Đã từng 5 1500
41 Nữ Đã từng 5 1000
42 Nam Đã từng 30 7000
43 Nam Đã từng 10 8000

44 Nam Đã từng 15 5000


45 Nữ Đã từng 30 3500
46 Nam Đã từng 3 13000
47 Nữ Đã từng 10 2000

48 Nam Đã từng 10 8000

49 Nữ Đã từng 15 9000
50 Nam Đã từng 10 50
51 Nam Đã từng 15 9000

52 Nữ Đã từng 60 3000

53 Nam Đã từng 0 12000

54 Nam Đã từng 120 20000

55 Nữ Đã từng 5 2800
56 Nữ Đã từng 5 2900
57 Nữ Đã từng 5 2800
58 Nữ Đã từng 10 5000

59 Nữ Đã từng 10 15000

60 Nữ Đã từng 10 4000

61 Nữ Đã từng 10 3000

62 Nữ Đã từng 120 10000


63 Nữ Đã từng 30 1400
64 Nữ Đã từng 20 900
65 Nữ Đã từng 10 800

66 Nam Đã từng 5 6.3000


67 Nam Đã từng 5 6.700

68 Nam Đã từng 5 6.700

69 Nữ Đã từng 60 3000

70 Nữ Chưa từng 0 2000


71 Nam Đã từng 15 5000
72 Nam Chưa từng 0 10000
73 Nữ Đã từng 45 400

74 Nữ Đã từng 75 4500

75 Nam Đã từng 25 7500

76 Nữ Đã từng 60 250

77 Nữ Chưa từng 0 1200


78 Nam Chưa từng 0 4500
79 Nam Đã từng 20 500
80 Nam Đã từng 10 400
81 Nữ Đã từng 5 600
82 Nam Đã từng 20 3000
83 Nam Đã từng 40 5000
84 Nam Đã từng 45 1500
85 Nam Chưa từng 0 500

86 Nữ Đã từng 25 250

87 Nữ Đã từng 25 2000
88 Nữ Chưa từng 50 2000

89 Nữ Đã từng 30 3000

90 Nam Đã từng 30 8000

91 Nữ Đã từng 25 3000

92 Nam Đã từng 90 6000

93 Nữ Chưa từng 0 2000

94 Nam Đã từng 80 2500

95 Nam Đã từng 40 6000

96 Nam Chưa từng 0 4500


97 Nữ Đã từng 60 6000
98 Nam Đã từng 40 6000
99 Nam Chưa từng 0 6500
100 Nữ Chưa từng 0 2500

B. Trình bày thống kê về bảng chéo, đồ thị phân tán, mối quan hệ giữa hai biến.
1. Phân tích số liệu
- Trong quá trình phân tích, những số liệu không đáng kể (dữ liệu = 0) đã được loại
bỏ;
- Từ bảng dữ liệu trên, ta sắp xếp được hai bảng theo thứ tự tăng dần của hai biến thời
gian đi trễ và khoảng cách từ nhà đến trường như sau:

Bảng 1.1. Bảng dữ liệu thu thập về biến thời gian đi muộn (phút)
Bảng 1.2. Bảng dữ liệu thu thập về biến khoảng cách (m)
50 250 250 300 400 400 500 500 600 600
800 800 800 800 900 900 1000 1000 1400 1400
200
1500 1500 1500 1900 2000 0 2000 2000 2500 2500
300
2500 2800 2800 3000 3000 0 3000 3000 3000 3000
350
3000 3000 3000 3000 3000 0 3500 4000 4000 4000
500
4500 5000 5000 5000 5000 0 5000 5000 5000 6000
670
6000 6000 6000 6000 6300 0 6700 7000 7000 7500
800
8000 8000 8000 8000 8000 0 9000 9000 9000 9500
1300
10000 0 13000 13000

2. Bảng chéo
- Bảng chéo đã tóm tắt dữ liệu cho hai biến định lượng gồm: thời gian đi trễ và khoảng
cách.
- Các nhãn bên trái và bên trên xác định các nhóm của hai biến. (Như Bảng 2.1)
2.1. Độ rộng của nhóm

→ Để thuận tiện hơn trong phân phối tần số, độ rộng của nhóm thời gian đi trễ được
lấy dựa theo phương trình là 9 và độ rộng của nhóm khoảng cách từ nhà đến trường
được lấy dựa theo phương trình là 3500. (Trong quá trình nghiên cứu, phép tính đã
được lược bỏ những giá trị quá xa)
Bảng 2.1. Bảng chéo khảo sát tình hình đi muộn của sinh viên UEH theo thời
gian đi muộn và khoảng cách từ nhà đến trường

Thời gian (phút)


Khoảng cách (m) Tổng
< 11 11 -- 20 21 -- 30 31 -- 40 >= 41
<1000 6 5 3 0 1 15
1000 -- 4500 16 7 7 0 1 31
4501 -- 8000 11 4 4 3 0 22
>=8001 3 4 0 0 0 7
Tổng 36 20 14 3 2 75

- Sử dụng hàm COUNTIF(); và COUNTIFS();


- Thông tin từ bảng chéo:
 Phần lớn các bạn sinh viên UEH sẽ có khoảng thời gian đi trễ là nhỏ hơn 20
phút và có khoảng cách từ nhà đến trường là chưa đến 4000m.
 Trong các khoảng thời gian từ 20 phút trở lên, các bạn có ở cách trường hơn
8000m không có trường hợp đi trễ hoặc đi trễ với số lần rất ít.
2.2. Phân phối tần số
- Phần trăm theo hàng:

Bảng 2.2. Phân phối tần suất phần trăm cho dữ liệu thời gian đi trễ và khoảng
cách từ nhà đến trường theo hàng ngang
Thời gian (phút)
Khoảng cách
(m) 11 - 31 -
< 11 20 21 - 30 40 >= 41 Tổng
<1000 40.00 33.33 20.00 0.00 6.67 100
1000 -- 4500 51.61 22.58 22.58 0.00 3.23 100
4501 -- 8000 50.00 18.18 18.18 13.64 0.00 100
>=8001 42.86 57.14 0.00 0.00 0.00 100

→ Cách tính tần suất mỗi giá trị hàng ngang:

Nhận xét:
- Dựa vào bảng tần số đã tính:
Với khoảng cách dưới 4000m, trong tổng số phần trăm, phần trăm đi trễ dưới 20 phút
( tức là 47,92 %) chiếm phần trăm nhiều nhất và trên 60 phút ( 2,08%) chiếm phần
trăm ít nhất.
- Phần trăm theo cột:
Bảng 2.3. Phân phối tần suất phần trăm cho dữ liệu thời gian đi trễ và khoảng
cách từ nhà đến trường theo cột
Khoảng cách Thời gian (phút)
(m) < 11 11 -- 20 21 -- 30 31 -- 40 >= 41
<1000 16.67 25.00 21.43 0.00 50.00
1000 -- 4500 44.44 35.00 50.00 0.00 50.00
4501 -- 8000 30.56 20.00 28.57 100.00 0.00
>=8001 8.33 20.00 0.00 0.00 0.00
Tổng 100 100 100 100 100

→ Cách tính tần suất mỗi giá trị hàng

ngang:

Nhận xét:
Trong khoảng thời gian đi trễ dưới 20 phút, trong tổng số phần trăm, phần trăm
khoảng cách dưới 4000m (50%) chiếm số phần trăm nhiều nhất, và trên 12000
(6,52%) chiếm số phần trăm ít nhất.
3. Đồ thị phân tán
3.1. Phân tích dữ liệu
- Trình bày đồ họa về mối quan hệ giữa hai biến định lượng: Thời gian đi muộn và
khoảng cách;
- Biến khoảng cách được biểu diễn ở trục hoành và biến thời gian đi muộn trên trục
tung;
- Những điểm giá trị trên đồ thị thể hiện mối quan hệ tổng quát giữa hai biến;
- Trong đó, đường xu hướng cung cấp một xấp xỉ về mối quan hệ về thời gian đi muộn
và khoảng cách.
3.2.
- Ta có bảng dữ liệu sau khi xử lý như sau:
Bảng 3.1. Bảng dữ liệu thu thập về hai biến thời gian đi muộn (phút) và khoảng
cách (m)

Thời Thời Thời Thời


gian đi Khoảng gian đi Khoảng gian đi Khoảng gian đi Khoảng
muộn cách (m) muộn cách (m) muộn cách (m) muộn cách (m)
(phút) (phút) (phút) (phút)
20 7000 15 5000 15 5000 5 6300
10 800 20 3000 30 3500 5 6700
5 2000 30 800 3 13000 5 6700
10 9500 30 1900 10 2000 60 3000
10 1400 5 500 10 8000 15 5000
10 1000 10 8000 15 9000 45 400
10 5000 5 8000 10 50 75 4500
10 3000 15 300 15 9000 25 7500
15 3000 15 13000 60 3000 60 250
10 3500 20 600 120 20000 20 500
20 2500 2 13000 5 2800 10 400
20 4000 30 1500 5 2800 5 600
20 3000 10 3000 10 5000 20 3000
5 3000 10 5000 10 1.5000 40 5000
20 900 90 5000 10 4000 45 1500
30 800 10 4000 10 3000 25 250
20 2500 5 1500 120 10000 25 2000
15 9000 5 1000 30 1400 50 2000
30 8000 30 7000 20 900 30 3000
10 6000 10 8000 10 800 30 8000
25 3000 80 2500 60 6000 40 6000
90 6000 40 6000
3.3. Đồ thị phân tán

Hình 3.1. Đồ thị phân tán của hai biến thời gian đi muộn (phút) và khoảng cách
(m)
Nhận xét:
- Đồ thị phân tán cho biết mối quan hệ giữa hai biến thời gian đi muộn (phút) và
khoảng cách từ nhà đến trường (m).
- Khoảng thời gian đi muộn (phút) càng nhiều liên hệ với khoảng cách từ nhà đến
trường (m) càng xa.
- Trong đồ thị, các điểm dữ liệu phân bố theo xu hướng thành một đường thẳng dốc
lên nên 2 biến này có mối liên hệ tuyến tính thuận chiều nhưng giữa 2 biến thể hiện
mối quan hệ yếu.
4. Mối quan hệ giữa hai biến
- Sau khi dùng các dữ liệu ta có bảng sau:
Bảng 4.1 Bảng tính phương sai, độ lệch chuẩn của hai biến thời gian (phút) và khoảng
cách (m)

You might also like