You are on page 1of 3

Bài thực hành số 2: TIỀN XỬ LÝ DỮ LIỆU

Sinh viên sử dụng các phần mềm (Excel, SPSS, hoặc Origin...) để xử lý dữ liệu của mỗi bài
sau. Kết quả trình bày trong Báo cáo.
(Sau đây chỉ là gợi ý, sinh viên có thể sử dụng bất kỳ phần mềm nào có hàm tương tự để xử lý
số liệu)

Bài 1. Cho bảng dữ liệu sau:


No. List 1 List 2 List 3 List 4
1 4 3 1 4
2 3 4 2 3
3 5 2 3 4
4 3 3 2 5
5 4 4 1 4
6 5 2 5
7 4 5 2 4
8 4 3 5
9 5 4 2 5
10 4 5 4 5
- Thống kê số dữ liệu mất
- Phục dựng, thay thế các dữ liệu đã mất đó.
Hướng dẫn: Sử dụng SPSS
- Nhập số liệu vào Data View
- Tìm dữ liệu bị mất:
o Chọn: Analyze – Missing Value Analysis
o Copy bảng kết quả vào Báo cáo, kết luận về số dữ liệu bị mất của các biến.
- Thay thế dữ liệu bị mất:
o Chọn: Transform – Replace Missing Values
o Chọn biến cần phục dựng dữ liệu – OK
o Copy kết quả vào Báo cáo, đánh dẫu dữ liệu đã được phục dựng, ghi chú phương
pháp sử dụng để phục dựng dữ liệu.

Bài 2. Dữ liệu PCBs (polychlorinated biphenyls) đo được theo thời gian như sau:
29 62 33 189 289 135 54 120 209 176 100 137 112
120 66 90 65 139 28 201 49 22 27 104 56 35
- Vẽ đồ thị dạng phân tán theo thời gian (từ trái qua phải), nhận xét
- Thực hiện làm trơn dữ liệu
Hướng dẫn: Sử dụng Origin
- Nhập số liệu
- Vẽ đồ thị:
o Chọn: Plot – Scatter (đồ thị dạng phân tán)
o Copy đồ thị vào Báo cáo
- Làm trơn dữ liệu:
o Vẽ đồ thị dạng line
o Chọn: Analysis – Signal processing – Smoothing, open dialog
o Thay đổi số Points of Window cho phù hợp
o Copy hình sau khi làm trơn vào Báo cáo

Bài 3. Các mẫu đất ở 5 khu vực khác nhau được phân tích các thông số, kết quả thể hiện trên
bảng sau:
Tỉ trọng Thành phần sét
Khu vực pH Thành phần cát (%)
(g/cm3) (%)
1 5.3 1.2 14 22
2 5.6 1.1 18 6
3 5.4 1.6 12 18
4 4.4 1.5 26 40
5 4.6 1.1 25 9
Hãy xác định khu vực nào có đặc điểm tương tự nhau?
Hướng dẫn: Sử dụng Origin
- Nhập dữ liệu
- Cài dữ liệu cùng một dạng biến X
- Chọn: Statistics – Multivariate Analysis – Hierarchical Cluster Analysis
- Copy biểu đồ Dendrogram vào Báo cáo, nhận xét và xác định khu vực có đặc điểm tương
tự nhau

Bài 4. Dữ liệu đo thông số chất lượng không khí của 10 điểm quan trắc như sau:
STT PM10 SO2 CO2 CO
1 230 125 200 109
2 181 99 55 107
3 165 97 105 98
4 150 115 85 71
5 97 120 0 82
6 192 100 150 103
7 181 80 85 111
8 189 90 120 93
9 172 95 110 86
10 170 125 130 78
Phân nhóm các trạm quan trắc.
Hướng dẫn: Làm tương tự như Bài 3

Bài 5. Hãy chuẩn hóa dữ liệu sau theo phương pháp Z-score
ED SS TP TN NH4-N NO3-N COD
Station NTU
(mS/cm) (mg/L) (mg/L) (mg/L) (mg/L) (mg/L) (mg/L)
1 124 23.16 41.83 0.058 0.058 0.709 7.44 103.48
2 34 28.47 47.58 0.302 1.457 1.626 14.9 80.38
3 132.78 29.22 43.89 0.339 1.599 1.476 15.87 67.15
4 108.93 27.08 48.9 0.294 0.818 0.972 16.17 61.54
5 83.59 24.12 67.82 0.375 1.695 1.17 17.92 89.15
6 114.89 19.9 51.33 0.303 1.019 1.031 13.12 88.58
7 99.42 30.18 49.67 0.252 0.989 1.032 9.13 89.92
8 102.17 42.16 67.25 0.173 0.919 0.859 13.3 112.67
9 135.83 26.59 39.67 0.221 0.993 1.24 13.43 70.42
10 97.67 24.46 36.42 0.25 0.898 1.343 11.75 67.75
11 97.5 26.54 41.92 0.299 0.9 1.038 13.92 68.42
12 97.92 32.45 54.17 0.2 0.91 1.689 13.83 77.17
13 116.67 28.47 50 0.145 0.926 1.312 20.72 64.5
14 125 8.88 16.25 0.068 1.331 1.243 14.64 54
15 142.88 19.48 47.24 0.176 0.786 1.47 17.23 39.17

Hướng dẫn: thực hiện trong Excel


- Sử dụng công thức tính Z-score để quy tính ra một bảng số liệu được chuẩn hóa
- Copy bảng chuẩn hóa vào trong Báo cáo

You might also like