Professional Documents
Culture Documents
Làm sạch dữ liệu
Làm sạch dữ liệu
Dễ thấy rằng khi nhập dữ liệu, thay vì nhập số 1 cho quan sát có giới tính nam thì bạn nhập hai lần, tức
là số 11.
2. Một số biện pháp giảm sai sót khi nhập liệu
- Thiết kế bản câu hỏi rõ ràng, dễ hỏi, dễ trả lời.
- Chọn lọc và huấn luyện phỏng vấn viên kỹ lưỡng, điều tra phỏng vấn thử trước khi phỏng vấn thât.
- Các bản câu hỏi sau khi phỏng vấn xong phải được đọc soát kiểm tra lỗi, chỉnh sửa trước khi nhập dữ
liệu.
- Việc mã hóa phải được tiến hành tập trung với một số ít cá nhân phụ trách việc nhập liệu chứ không
nên phân tán để tránh bị rối do thiếu sự thống nhất.
3. Các phương pháp làm sạch dữ liệu
3.1. Dùng bảng tần số
- Lập bảng tần số cho tất cả các biến, đọc soát để tìm giá trị lạ tại các biến như giá trị 11 trong ví dụ trên.
- Dùng lệnh Find để tìm vị trí của giá trị lỗi và chỉnh sửa lại. Cụ thể như sau:
B1: Trên cửa sổ Data View, chọn toàn bộ cột tương ứng với biến có giá trị lỗi.
B2: Vào menu Edit → Find. Nhập giá trị 11 vào ô Find, bấm nút Find next thì vị trí của ô chứa giá trị
lỗi 11 trên màn hình sẽ đổi thành màu vàng để bạn dễ nhận thấy.
1
B3: Truy ngược lại số thứ tự của hàng đó, bạn sẽ tìm được bảng câu hỏi tương ứng, trong trường hợp
này lỗi sai ứng với quan sát thứ 16.
2
B1: Vào menu Data → Select Cases. Trong hộp thoại này, chọn mục If condition is satisfied để chỉ
định cho SPSS lọc ra những trường hợp thỏa điều kiện tuổi = 13 và nghề = giáo viên (trong file
lamsachdulieu nghề giáo viên được mã hóa là 2).
B2: Bấm vào nút If … phía dưới If condition is satisfied để mở tiếp hộp thoại Select Cases: If
Chọn sáng biến Tuoi, nhấp nút mũi tên đưa nó sang khung nhập hàm bên phải, nhập dấu =, nhập số 13,
nhập dấu &, lặp lại các thao tác trên với biến nghe. Bấm nút Continue để trở lại hộp thoại Select Cases,
ta được hình dưới đây:
3
B3: Trước khi bấm nút OK trên hộp thoại Select Cases thì nhớ kiểm tra là trong khung Output, chọn
mục Filter out unselected cases chứ không phải Delete unselected cases (xóa đi những trường hợp
không thỏa mãn điều kiện). Khi lệnh này được thực hiện thì SPSS sẽ tạo ra một biến mới trong danh sách
biến đã có sẵn, tên biến mới này là filter_$, biến này nhận giá trị 0 tại tất cả những tình huống không
thỏa mãn và nhận giá trị 1 tại tình huống thỏa điều kiện của lệnh If, tức là tình huống bị sai sót. Chú ý
rằng biến filter_$ là biến tạm, do đó khi thực hiện một lệnh Select Cases mới thì biến này sẽ mất đi. Bên
cạnh đó, các ô đánh dấu hàng sẽ được gạch chéo tại các hàng không được chọn. Điều này có nghĩa là các
hàng không có dấu gạch chéo ở ô đánh dấu hàng sẽ nhận giá trị 1 tại biến filter_$.
Chú ý: Bất cứ khi nào thực hiện thành công lệnh Select Cases để tìm kiếm hay lựa chọn được những
trường hợp cần lọc, bạn phải trở lại hộp thoại Select Cases trả lại tình huống All Cases. Nếu không thì
các lệnh thống kê sau đó sẽ chỉ được thực hiện với những trường hợp được lọc. Khi đó, các kết quả không
còn chính xác nữa.
- Đến đây, bạn sẽ gặp một vấn đề khác là nếu số quan sát quá lớn thì việc tìm những quan sát nhận giá
trị 1 ở biến filter_$ hay dòng không gạch chéo khá mất công. Lúc này, bạn cần sử dụng lệnh Sort Cases.
B1: Vào menu Data → Sort Cases, đưa biến bạn muốn sắp xếp thứ tự (ở tình huống này là filter_$) vào
khung Sort by. Chọn hình thức sắp xếp tăng dần (Ascending) hay giảm dần (Descending). Nhấp OK.
4
Từ số 1 trên biến filter_$, dò ngược lại số thứ tự của dòng bạn sẽ tìm ra vị trí bản câu hỏi bị lỗi.
3.3. Cách tìm lỗi đơn giản ngay trên cửa sổ dữ liệu
Bạn có thể dùng lệnh Sort Cases vừa nói trên để tìm ra những lỗi đơn giản ngay trên cửa sổ dữ liệu.
Chẳng hạn như với tình huống giới tính, chỉ cần chọn lệnh sắp xếp dữ liệu giảm dần, nếu giá trị lớn nhất
không phải là 2 mà là một giá trị bất kỳ lớn hơn 2 thì có nghĩa là bạn đã tìm ra lỗi rồi.