You are on page 1of 5

Làm sạch dữ liệu

(kèm file lamsachdulieu.sav)

1. Vì sao phải làm sạch dữ liệu?


Sau khi nhập dữ liệu xong, cần phải thực hiện kiểm tra lại vì có thể còn một số sai sót như nhập dữ liệu
sai, bị bỏ sót hoặc thừa thông tin. Những lỗi trên có thể do phỏng vấn viên hiểu sai ý người trả lời và
nhập liệu sai, hoặc người được phỏng vấn trả lời sai ý, hoặc người đọc soát chưa phát hiện được….Chẳng
hạn như, khi bạn đã quy ước cho biến giới tính: 1 đại diện cho giới tính nam và 0 đại diện cho giới tính
nữ, nhưng sau khi thực hiện lệnh đếm tần số cho biến giới tính thì bạn thu được kết quả như dưới đây:

Dễ thấy rằng khi nhập dữ liệu, thay vì nhập số 1 cho quan sát có giới tính nam thì bạn nhập hai lần, tức
là số 11.
2. Một số biện pháp giảm sai sót khi nhập liệu
- Thiết kế bản câu hỏi rõ ràng, dễ hỏi, dễ trả lời.
- Chọn lọc và huấn luyện phỏng vấn viên kỹ lưỡng, điều tra phỏng vấn thử trước khi phỏng vấn thât.
- Các bản câu hỏi sau khi phỏng vấn xong phải được đọc soát kiểm tra lỗi, chỉnh sửa trước khi nhập dữ
liệu.
- Việc mã hóa phải được tiến hành tập trung với một số ít cá nhân phụ trách việc nhập liệu chứ không
nên phân tán để tránh bị rối do thiếu sự thống nhất.
3. Các phương pháp làm sạch dữ liệu
3.1. Dùng bảng tần số
- Lập bảng tần số cho tất cả các biến, đọc soát để tìm giá trị lạ tại các biến như giá trị 11 trong ví dụ trên.
- Dùng lệnh Find để tìm vị trí của giá trị lỗi và chỉnh sửa lại. Cụ thể như sau:
B1: Trên cửa sổ Data View, chọn toàn bộ cột tương ứng với biến có giá trị lỗi.
B2: Vào menu Edit → Find. Nhập giá trị 11 vào ô Find, bấm nút Find next thì vị trí của ô chứa giá trị
lỗi 11 trên màn hình sẽ đổi thành màu vàng để bạn dễ nhận thấy.

1
B3: Truy ngược lại số thứ tự của hàng đó, bạn sẽ tìm được bảng câu hỏi tương ứng, trong trường hợp
này lỗi sai ứng với quan sát thứ 16.

3.2. Dùng bảng phối hợp hai biến hay ba biến


- Lập bảng kết hợp biến rồi dựa vào các quan hệ logic để phát hiện ra lỗi. Chẳng hạn như khi lập bảng
kết hợp biến tuổi với biến nghề nghiệp mà bạn phát hiện thấy có trường hợp 13 tuổi mà nghề nghiệp ghi
là giáo viên, tức là một trong hai biến đã bị nhập sai. Sau khi phát hiện có lỗi, dùng lệnh Select Cases để
tìm ra trường hợp có lỗi đó.

2
B1: Vào menu Data → Select Cases. Trong hộp thoại này, chọn mục If condition is satisfied để chỉ
định cho SPSS lọc ra những trường hợp thỏa điều kiện tuổi = 13 và nghề = giáo viên (trong file
lamsachdulieu nghề giáo viên được mã hóa là 2).

B2: Bấm vào nút If … phía dưới If condition is satisfied để mở tiếp hộp thoại Select Cases: If

Chọn sáng biến Tuoi, nhấp nút mũi tên đưa nó sang khung nhập hàm bên phải, nhập dấu =, nhập số 13,
nhập dấu &, lặp lại các thao tác trên với biến nghe. Bấm nút Continue để trở lại hộp thoại Select Cases,
ta được hình dưới đây:

3
B3: Trước khi bấm nút OK trên hộp thoại Select Cases thì nhớ kiểm tra là trong khung Output, chọn
mục Filter out unselected cases chứ không phải Delete unselected cases (xóa đi những trường hợp
không thỏa mãn điều kiện). Khi lệnh này được thực hiện thì SPSS sẽ tạo ra một biến mới trong danh sách
biến đã có sẵn, tên biến mới này là filter_$, biến này nhận giá trị 0 tại tất cả những tình huống không
thỏa mãn và nhận giá trị 1 tại tình huống thỏa điều kiện của lệnh If, tức là tình huống bị sai sót. Chú ý
rằng biến filter_$ là biến tạm, do đó khi thực hiện một lệnh Select Cases mới thì biến này sẽ mất đi. Bên
cạnh đó, các ô đánh dấu hàng sẽ được gạch chéo tại các hàng không được chọn. Điều này có nghĩa là các
hàng không có dấu gạch chéo ở ô đánh dấu hàng sẽ nhận giá trị 1 tại biến filter_$.
Chú ý: Bất cứ khi nào thực hiện thành công lệnh Select Cases để tìm kiếm hay lựa chọn được những
trường hợp cần lọc, bạn phải trở lại hộp thoại Select Cases trả lại tình huống All Cases. Nếu không thì
các lệnh thống kê sau đó sẽ chỉ được thực hiện với những trường hợp được lọc. Khi đó, các kết quả không
còn chính xác nữa.
- Đến đây, bạn sẽ gặp một vấn đề khác là nếu số quan sát quá lớn thì việc tìm những quan sát nhận giá
trị 1 ở biến filter_$ hay dòng không gạch chéo khá mất công. Lúc này, bạn cần sử dụng lệnh Sort Cases.
B1: Vào menu Data → Sort Cases, đưa biến bạn muốn sắp xếp thứ tự (ở tình huống này là filter_$) vào
khung Sort by. Chọn hình thức sắp xếp tăng dần (Ascending) hay giảm dần (Descending). Nhấp OK.
4
Từ số 1 trên biến filter_$, dò ngược lại số thứ tự của dòng bạn sẽ tìm ra vị trí bản câu hỏi bị lỗi.

3.3. Cách tìm lỗi đơn giản ngay trên cửa sổ dữ liệu
Bạn có thể dùng lệnh Sort Cases vừa nói trên để tìm ra những lỗi đơn giản ngay trên cửa sổ dữ liệu.
Chẳng hạn như với tình huống giới tính, chỉ cần chọn lệnh sắp xếp dữ liệu giảm dần, nếu giá trị lớn nhất
không phải là 2 mà là một giá trị bất kỳ lớn hơn 2 thì có nghĩa là bạn đã tìm ra lỗi rồi.

You might also like