Professional Documents
Culture Documents
B3. Kiem Tra, Loc Va Chuyen Doi So Lieu
B3. Kiem Tra, Loc Va Chuyen Doi So Lieu
1
Mục tiêu
1. Nêu những đặc tính của bảng hỏi và kiểm tra số liệu.
2. Nêu một số lỗi thường gặp trong bộ số liệu và các bước tiến hành làm
sạch số liệu.
3. Ứng dụng kỹ thuật làm sạch số liệu để tìm ra các lỗi thông thường
trong bộ số liệu.
4. Sử dụng được lệnh mã hóa lại biến số và tính được giá trị biến số mới.
5. Sử dụng lệnh đếm và xử lý được yêu cầu đếm các biến số nhiều lựa
chọn.
6. Sử dụng công cụ hợp nhất các file số liệu để thêm vào các trường hợp
hoặc thêm vào các biến số.
2
Làm sạch số liệu
3
Những đặc tính của bảng hỏi và kiểm tra số liệu
4
Lọc số liệu
Một số lỗi thông thường
1) Lỗi bỏ trống số liệu (Missing): những ô bắt buộc phải nhập số liệu thì
lại bỏ trống; không có giá trị (phân biệt với trường hợp bỏ trống do sự
ràng buộc giữa các biến số).
2) Lỗi nhập sai giá trị đã mã hóa (Ví dụ: biến giới tính được mã hóa 1:
nam, 2: nữ nhưng số liệu lại có những giá trị 3, 4, 5…).
3) Lỗi logic giữa các biến số. (Ví dụ: Tình trạng hút thuốc là không hút
nhưng số điếu hút là 10 điếu/ngày. Bệnh nhân không có BHYT nhưng
mục thanh toán lại ghi là thanh toán bằng BHYT. Tuổi của đối tượng
nghiên cứu là 5 nhưng nghề nghiệp là cán bộ công chức).
5
Lọc số liệu
6
Lọc số liệu
Lỗi logic
7
Các bước làm sạch số liệu
Sử dụng các kỹ Xác định vị trí Kiểm tra lại số liệu trên
thuật để phát hiện lỗi trong bộ phiếu phỏng vấn và sửa
lỗi trong bộ số liệu số liệu lỗi số liệu trên phần mềm
8
Một số kỹ thuật làm sạch số liệu
9
Sắp xếp số liệu (Sort Cases)
Có thể sắp xếp giá trị của biến số theo thứ tự tăng dần hoặc giảm dần.
Phát hiện giá trị bỏ trống hoặc giá trị nhập sai.
Chọn lệnh Sort Cases theo đường dẫn Data Sort Cases.
Tăng dần
Giảm dần
Sắp xếp số liệu (Sort Cases)
Ví dụ 1: Sử dụng bộ số liệu thiếu máu ở vùng A, sắp xếp giá trị biến số tuổi
theo thứ tự tăng dần, các giá trị bỏ trống xuất hiện ở trên cùng hiển thị tại
màn hình Data View:
Ví dụ 2: Sử dụng bộ số liệu thiếu máu ở vùng A, sắp xếp giá trị biến số giới
tính theo thứ tự giảm dần, phát hiện giá trị nhập sai là 3 so với giá trị mã
hóa ban đầu (1. Nam và 2. Nữ) hiển thị tại màn hình Data View:
Sử dụng bảng phân bố tần số (Frequencies)
Kiểm tra số liệu cho biến số định tính.
Phát hiện lỗi bỏ trống số liệu, lỗi nhập sai giá trị đã mã hóa.
Sử dụng câu lệnh Frequencies theo đường dẫn Analyze
Descriptive Statistics Frequencies. Đưa biến số cần kiểm tra vào
ô Variable(s) rồi nhấn OK.
Kết quả hiển thị ở màn hình Output:
Biến số ở cột
Sử dụng bảng chéo (Crosstabs)
Lỗi logic
Lệnh tìm kiếm (Find)
Lệnh tìm kiếm (Find)
Bôi đen
biến cần tìm
2 lệnh này sẽ chỉ hiển thị trên màn hình chứa kết quả (Output) khi phân
tích số liệu
18
Lựa chọn các trường hợp (Select Cases)
Tích chọn If
condition is
satisfied
Tích chọn
If…
19
Lựa chọn các trường hợp (Select Cases)
Ô nhập điều kiện
cần lựa chọn
21
Lọc số liệu
Nếu không dùng lệnh
Tách tập số liệu (Split File) Split File thì chọn lại
Analyze all cases
22
CHUYỂN ĐỔI SỐ LIỆU
(Transform)
23
Mã hóa lại biến số (Recode)
24
Mã hóa lại biến số (Recode)
Khai báo biến số
mới
Mã hóa từ …đến…
Ô chứa các giá trị đã mã hóa
(VD: 10-15 tuổi)
Sau khi khai báo giá trị cũ và
Mã hóa giá trị nhỏ nhất đến… mới ta nhấn Add để đưa vào ô
(VD: < 5 tuổi ta nhập vào 4 này, nhấn Change để thay đổi,
hoặc 4.9999) nhấn Remove để xóa
Mã hóa những
giá trị còn lại Tích chọn để biến số mới có
dạng chuỗi (string)
Mã hóa lại biến số (Recode)
Mã hóa lại biến số (Recode)
Mã hóa lại biến số (Recode)
Sử dụng bảng tần suất (Frequencies để kiểm tra lại biến số mới sau khi mã hóa
- Tổng số trường hợp có đúng so với biến số cũ?
- Số nhóm có đúng như mã hóa?
Mã hóa lại biến số (Recode)
Mã hóa từ biến số ban đầu là biến số định tính
Ví dụ: Trong số liệu thiếu máu ở vùng A, trình độ học vấn mẹ là một biến số định tính
có 6 giá trị, số liệu phân tích yêu cầu sắp xếp thành 3 nhóm học vấn.
Nhóm 1: Tiểu học trở xuống.
Nhóm 2: THCS.
Nhóm 3: THPT trở lên.
Mã hóa lần
lượt các giá trị
của biến ban
đầu
Mã hóa lại biến số (Recode)
Recode into same variables
33
Mã hóa lại biến số (Recode)
Mã hóa tự động (Automatic Recode)
Mã hóa tự động là kỹ thuật mã hóa tự động từ một biến số ban đầu là biến số dạng
chuỗi ký tự (string) sang biến số dạng số (numeric) với các nhóm được gán tự động
vào các con số theo thứ tự 1, 2, 3,…
34
Công cụ tính toán giữa các biến số (Compute)
Công cụ tính toán giữa các biến số để tạo ra một biến số mới phù hợp với yêu cầu của quá
trình phân tích số liệu. Để sử dụng công cụ này, chọn lệnh Compute theo đường dẫn
Transform Compute.
Công cụ đếm (Count)
Công cụ Count được dùng để tạo ra một biến số mới chứa kết quả số lần xuất
hiện của một hay nhiều giá trị được chỉ định ra trong danh sách các biến số
được chọn trong ô Variables.
Biến số mới được tạo ra gọi là biến số đích (Target Variable) sẽ chứa các giá trị
cộng dồn mỗi khi gặp được giá trị cần đếm trong một hoặc nhiều biến số
được chọn.
Công cụ xử lý đối với câu hỏi nhiều lựa chọn
(Multiple Response)
Đối với câu hỏi nhiều lựa chọn, người trả lời có thể chọn nhiều đáp án khác
nhau.
Số liệu nhập vào được chia làm nhiều biến số sơ cấp tương ứng với số đáp án
hiện có của biến số đó.
Yêu cầu phân tích gộp các biến số sơ cấp này thành một biến số tương ứng với
câu hỏi ban đầu và mô tả biến số đó.
Công cụ xử lý đối với câu hỏi nhiều lựa chọn được sử dụng đối với trường hợp
này.
Hợp nhất các file số liệu (Merge files)
SPSS cho phép ta hợp nhất các trường hợp hoặc các biến số từ một file số liệu
bên ngoài vào file số liệu hiện hành.
Cả hai đều tạo ra một file số liệu mới chứa tất cả các trường hợp hoặc các biến
số từ các file số liệu khác nhau:
Biến số trên 2 file số liệu là khác nhau, chỉ giống nhau ở biến số khóa (Key
variable), thường là mã số hoặc số thứ tự của đối tượng quan sát. Biến số khóa
giúp giá trị các trường hợp khớp với nhau ở 2 file số liệu.
Trong trường hợp có biến số giống nhau ở 2 file số liệu, có thể phải bỏ một
trong 2 biến số ở file số liệu mới.
Hợp nhất các file số liệu (Merge files)
Thêm vào các biến số (Add Variables)
Ví dụ: Nghiên cứu thiếu máu ở vùng A được tiến hành qua 2 giai đoạn: Giai đoạn 1 phỏng
vấn về thông tin nhân khẩu học, khám lâm sàng và giai đoạn 2 xét nghiệm công thức máu.
Cả 2 file số liệu có cùng biến số khóa là mã số phiếu có giá trị từ 1 đến 400 và được sắp xếp
theo thứ tự giống nhau.