You are on page 1of 43

KHOA Y TẾ CÔNG CỘNG

BỘ MÔN THỐNG KÊ Y TẾ-DÂN SỐ-SỨC KHỎE SINH SẢN

KIỂM TRA, LỌC VÀ CHUYỂN


ĐỔI SỐ LIỆU

1
Mục tiêu

1. Nêu những đặc tính của bảng hỏi và kiểm tra số liệu.
2. Nêu một số lỗi thường gặp trong bộ số liệu và các bước tiến hành làm
sạch số liệu.
3. Ứng dụng kỹ thuật làm sạch số liệu để tìm ra các lỗi thông thường
trong bộ số liệu.
4. Sử dụng được lệnh mã hóa lại biến số và tính được giá trị biến số mới.
5. Sử dụng lệnh đếm và xử lý được yêu cầu đếm các biến số nhiều lựa
chọn.
6. Sử dụng công cụ hợp nhất các file số liệu để thêm vào các trường hợp
hoặc thêm vào các biến số.

2
Làm sạch số liệu

 Mục đích nhằm giảm thiểu sai sót trong bộ số liệu.


 Làm sạch số liệu ban đầu có thể thực hiện ngay trong quá trình thu thập
thông tin, nghĩa là khâu quản lý và giám sát tại thực địa phải tốt.
 Khâu nhập số liệu vào phần mềm cũng cần chú trọng vấn đề giảm thiểu sai
sót trong quá trình nhập liệu.
 Sử dụng phần mềm để làm sạch số liệu sau khi số liệu đã nhập là bước cuối
cùng, nếu các khâu trước đó thực hiện tốt thì giai đoạn này sẽ tiết kiệm thời
gian và giảm thiểu sai sót.

3
Những đặc tính của bảng hỏi và kiểm tra số liệu

Những đặc tính của bảng hỏi


• Tính logic của các câu trả lời
• Tính đầy đủ của một câu trả lời và một bảng hỏi
• Tính hợp lý và xác thực của các câu trả lời
 Quá trình kiểm tra, rà soát lại bảng câu hỏi là nhằm mục đích kiểm tra, phát
hiện, sửa chữa và thông báo kịp thời cho người thu thập số liệu tránh những sai
sót tiếp theo.
 Khi phát hiện có thiếu sót trong bảng hỏi, tùy thuộc vào mức độ sai sót cụ thể
ta có thể lựa chọn cách xử lý như sau:
- Trả lại bộ phận thu thập số liệu để kiểm tra.
- Tiến hành thu thập lại các biến số bị thiếu sót.
- Suy luận logic từ các câu trả lời khác.
- Loại bỏ toàn bộ bảng hỏi.

4
Lọc số liệu
Một số lỗi thông thường
1) Lỗi bỏ trống số liệu (Missing): những ô bắt buộc phải nhập số liệu thì
lại bỏ trống; không có giá trị (phân biệt với trường hợp bỏ trống do sự
ràng buộc giữa các biến số).
2) Lỗi nhập sai giá trị đã mã hóa (Ví dụ: biến giới tính được mã hóa 1:
nam, 2: nữ nhưng số liệu lại có những giá trị 3, 4, 5…).
3) Lỗi logic giữa các biến số. (Ví dụ: Tình trạng hút thuốc là không hút
nhưng số điếu hút là 10 điếu/ngày. Bệnh nhân không có BHYT nhưng
mục thanh toán lại ghi là thanh toán bằng BHYT. Tuổi của đối tượng
nghiên cứu là 5 nhưng nghề nghiệp là cán bộ công chức).

5
Lọc số liệu

Lỗi bỏ trống số liệu

Lỗi nhập sai giá trị đã mã hóa

6
Lọc số liệu

Lỗi logic

7
Các bước làm sạch số liệu

Sử dụng các kỹ Xác định vị trí Kiểm tra lại số liệu trên
thuật để phát hiện lỗi trong bộ phiếu phỏng vấn và sửa
lỗi trong bộ số liệu số liệu lỗi số liệu trên phần mềm

8
Một số kỹ thuật làm sạch số liệu

• Sắp xếp số liệu (Sort Cases)


• Sử dụng bảng phân bố tần số (Frequencies)
• Sử dụng bảng mô tả (Descriptives)
• Sử dụng bảng chéo (Crosstabs)
• Lựa chọn các trường hợp (Select Cases)
• Tách tập số liệu (Split File)
• Lệnh tìm kiếm (Find)

9
Sắp xếp số liệu (Sort Cases)
 Có thể sắp xếp giá trị của biến số theo thứ tự tăng dần hoặc giảm dần.
 Phát hiện giá trị bỏ trống hoặc giá trị nhập sai.
 Chọn lệnh Sort Cases theo đường dẫn Data  Sort Cases.

Biến số cần sắp xếp

Tăng dần
Giảm dần
Sắp xếp số liệu (Sort Cases)
Ví dụ 1: Sử dụng bộ số liệu thiếu máu ở vùng A, sắp xếp giá trị biến số tuổi
theo thứ tự tăng dần, các giá trị bỏ trống xuất hiện ở trên cùng hiển thị tại
màn hình Data View:

Ví dụ 2: Sử dụng bộ số liệu thiếu máu ở vùng A, sắp xếp giá trị biến số giới
tính theo thứ tự giảm dần, phát hiện giá trị nhập sai là 3 so với giá trị mã
hóa ban đầu (1. Nam và 2. Nữ) hiển thị tại màn hình Data View:
Sử dụng bảng phân bố tần số (Frequencies)
 Kiểm tra số liệu cho biến số định tính.
 Phát hiện lỗi bỏ trống số liệu, lỗi nhập sai giá trị đã mã hóa.
 Sử dụng câu lệnh Frequencies theo đường dẫn Analyze 
Descriptive Statistics  Frequencies. Đưa biến số cần kiểm tra vào
ô Variable(s) rồi nhấn OK.
 Kết quả hiển thị ở màn hình Output:

Giá trị bỏ trống


(trường hợp kiểu
biến số là String)

Giá trị nhập sai


Sử dụng bảng mô tả (Descriptives)
 Kiểm tra sơ bộ các biến số định lượng.
 Phát hiện lỗi bỏ trống số liệu hay giá trị quá lớn hoặc quá bé so với
trung bình chung của tổng thể.
 Sử dụng câu lệnh Descriptives theo đường dẫn Analyze  Descriptive
Statistics  Descriptives. Đưa biến số cần kiểm tra vào ô Variable(s)
rồi nhấn OK.
 Kết quả hiển thị ở màn hình Output:

Bỏ trống 2 trường Giá trị quá lớn so với trung


hợp (so với mẫu bình độ tuổi là 5,88
nghiên cứu là 600)
Sử dụng bảng chéo (Crosstabs)
 Kiểm tra lỗi logic giữa các biến số.
 Sử dụng câu lệnh Crosstabs theo đường dẫn Analyze  Descriptive Statistics 
Crosstabs.
 Đưa biến số Biết cân nặng lúc sinh của trẻ (bietcnls) vào cột (Column).
 Đưa biến số Cân nặng lúc sinh của trẻ (cnls) vào hàng (Row).
 Nhấn OK.
Biến số ở hàng

Biến số ở cột
Sử dụng bảng chéo (Crosstabs)

Lỗi logic
Lệnh tìm kiếm (Find)
Lệnh tìm kiếm (Find)
Bôi đen
biến cần tìm

Nhập giá trị


cần tìm

Chọn Entire cell nếu


muốn tìm chính xác giá
trị trong ô Find

Nhấn Find Next cho


đến khi tìm ra giá trị
cần tìm
Lọc số liệu

1. Lựa chọn các trường hợp (Select Cases)

2. Tách tập số liệu (Split File)

 2 lệnh này sẽ chỉ hiển thị trên màn hình chứa kết quả (Output) khi phân
tích số liệu

18
Lựa chọn các trường hợp (Select Cases)
Tích chọn If
condition is
satisfied

Tích chọn
If…

19
Lựa chọn các trường hợp (Select Cases)
Ô nhập điều kiện
cần lựa chọn

Lưu ý: nếu loại biến là string


thì giá trị đưa vào cần có
dấu ngoặc kép “ “

Các biểu thức so


sánh
Lựa chọn các trường hợp (Select Cases)

Lưu ý: nếu không sử


dụng Select Cases ta
trở lại lệnh Select
Cases và chọn All
cases hoặc nhấn nút
Reset.

21
Lọc số liệu
Nếu không dùng lệnh
Tách tập số liệu (Split File) Split File thì chọn lại
Analyze all cases

Kết quả sẽ được tách


theo nhóm nhưng nằm
trong một bảng

Đưa biến vào


ô này để tách
nhóm dữ liệu

Kết quả sẽ được tách


theo nhóm và nằm ở các
bảng khác nhau

22
CHUYỂN ĐỔI SỐ LIỆU
(Transform)

23
Mã hóa lại biến số (Recode)

Có 2 phương pháp chủ yếu:


1. Mã hóa số liệu cũ (Old value)  số liệu mới (New value)  lưu trữ trên biến số
gốc (số liệu cũ bị mất).
(Recode into same variable)
2. Mã hóa số liệu cũ  số liệu mới  lưu trữ trên biến số mới (lưu ý khai báo biến
số mới ở phần Output Variable)
(Recode into different variable)
Thường sử dụng phương pháp 2 để tránh mất số liệu cũ.
Ngoài ra còn có phương pháp mã hóa tự động (Automatic Recode)

24
Mã hóa lại biến số (Recode)
Khai báo biến số
mới

Recode into same variable Recode into different variable


Mã hóa lại biến số (Recode)
Ví dụ: Chia chiều cao thành 4 nhóm
Nhóm 1: <75cm Nhóm 2: 75- <100cm
Nhóm 3: 100- <125cm Nhóm 4: ≥ 125cm
Sử dụng lệnh: Recode into different variable
Ô chứa biến số Đặt tên biến
cần mã hóa số mới (lưu ý
quy định đặt
tên biến số)

Đặt nhãn biến


số
Mã hóa lại biến số (Recode)
Giá trị cũ Giá trị mới
Mã hóa lại biến số (Recode)

Mã hóa một giá trị


nhất định (1, 2, 3, 4…)
Nhập giá trị mới

Mã hóa từ …đến…
Ô chứa các giá trị đã mã hóa
(VD: 10-15 tuổi)
Sau khi khai báo giá trị cũ và
Mã hóa giá trị nhỏ nhất đến… mới ta nhấn Add để đưa vào ô
(VD: < 5 tuổi ta nhập vào 4 này, nhấn Change để thay đổi,
hoặc 4.9999) nhấn Remove để xóa

Mã hóa từ… đến giá trị lớn nhất


(VD: > 10 tuổi ta nhập vào 11 hoặc 10.0001)

Mã hóa những
giá trị còn lại Tích chọn để biến số mới có
dạng chuỗi (string)
Mã hóa lại biến số (Recode)
Mã hóa lại biến số (Recode)
Mã hóa lại biến số (Recode)
Sử dụng bảng tần suất (Frequencies để kiểm tra lại biến số mới sau khi mã hóa
- Tổng số trường hợp có đúng so với biến số cũ?
- Số nhóm có đúng như mã hóa?
Mã hóa lại biến số (Recode)
Mã hóa từ biến số ban đầu là biến số định tính

Ví dụ: Trong số liệu thiếu máu ở vùng A, trình độ học vấn mẹ là một biến số định tính
có 6 giá trị, số liệu phân tích yêu cầu sắp xếp thành 3 nhóm học vấn.
Nhóm 1: Tiểu học trở xuống.
Nhóm 2: THCS.
Nhóm 3: THPT trở lên.

Mã hóa lần
lượt các giá trị
của biến ban
đầu
Mã hóa lại biến số (Recode)
Recode into same variables

• Về nguyên tắc thực hiện giống với Recode into different


variable.
• Không khai báo biến số mới.
• Số liệu cũ sẽ bị mất.

33
Mã hóa lại biến số (Recode)
Mã hóa tự động (Automatic Recode)
Mã hóa tự động là kỹ thuật mã hóa tự động từ một biến số ban đầu là biến số dạng
chuỗi ký tự (string) sang biến số dạng số (numeric) với các nhóm được gán tự động
vào các con số theo thứ tự 1, 2, 3,…

34
Công cụ tính toán giữa các biến số (Compute)
Công cụ tính toán giữa các biến số để tạo ra một biến số mới phù hợp với yêu cầu của quá
trình phân tích số liệu. Để sử dụng công cụ này, chọn lệnh Compute theo đường dẫn
Transform Compute.
Công cụ đếm (Count)

 Công cụ Count được dùng để tạo ra một biến số mới chứa kết quả số lần xuất
hiện của một hay nhiều giá trị được chỉ định ra trong danh sách các biến số
được chọn trong ô Variables.
 Biến số mới được tạo ra gọi là biến số đích (Target Variable) sẽ chứa các giá trị
cộng dồn mỗi khi gặp được giá trị cần đếm trong một hoặc nhiều biến số
được chọn.
Công cụ xử lý đối với câu hỏi nhiều lựa chọn
(Multiple Response)
 Đối với câu hỏi nhiều lựa chọn, người trả lời có thể chọn nhiều đáp án khác
nhau.
 Số liệu nhập vào được chia làm nhiều biến số sơ cấp tương ứng với số đáp án
hiện có của biến số đó.
 Yêu cầu phân tích gộp các biến số sơ cấp này thành một biến số tương ứng với
câu hỏi ban đầu và mô tả biến số đó.
 Công cụ xử lý đối với câu hỏi nhiều lựa chọn được sử dụng đối với trường hợp
này.
Hợp nhất các file số liệu (Merge files)

 SPSS cho phép ta hợp nhất các trường hợp hoặc các biến số từ một file số liệu
bên ngoài vào file số liệu hiện hành.
 Cả hai đều tạo ra một file số liệu mới chứa tất cả các trường hợp hoặc các biến
số từ các file số liệu khác nhau:

Thêm vào các trường hợp (Add Cases)


Thêm vào các biến số (Add Variables)
Hợp nhất các file số liệu (Merge files)
Thêm vào các trường hợp (Add Cases)
• Công cụ Add Cases cho phép ta hợp nhất số liệu trong file số liệu hiện hành với
số liệu từ một file bên ngoài, với điều kiện file số liệu đó phải chứa các biến số
giống như biến số trong tập số liệu hiện hành.
• Sau khi thao tác, số liệu từ file ngoài sẽ được sao chép vào file số liệu hiện
hành.
• Công cụ này thích hợp cho việc tiến hành cùng một nghiên cứu hay nhập liệu ở
nhiều nơi rồi gộp kết quả lại với nhau.
Có 2 trường hợp:
 Số liệu từ file ngoài và file hiện hành có biến số giống nhau
 Số liệu file ngoài và file hiện hành khác nhau về một vài biến số
Hợp nhất các file số liệu (Merge files)
Thêm vào các trường hợp (Add Cases)
Ví dụ: Trong số liệu thiếu máu ở vùng A, một bộ số liệu có 400 trường hợp, phân
công cho 2 người nhập vào 2 file số liệu khác nhau, người thứ nhất nhập phiếu có
số thứ tự từ 1 đến 200, người thứ 2 nhập phiếu có số thứ tự từ 201 đến 400. Gộp
2 file số liệu này thành một file chung.

DataMerge filesAdd Cases.


Hợp nhất các file số liệu (Merge files)
Thêm vào các biến số (Add Variables)
 Công cụ Add Variables cho phép hợp nhất số liệu trong file hiện hành và một
file bên ngoài với điều kiện file bên ngoài này phải chứa cùng các trường hợp
với file hiện hành nhưng khác nhau về biến số.
 Số liệu sau khi được hợp nhất sẽ nằm trên file hiện hành và chứa các biến số
của 2 file số liệu.
 Công cụ này thích hợp cho các nghiên cứu tiến hành theo các giai đoạn khác
nhau.

 Biến số trên 2 file số liệu là khác nhau, chỉ giống nhau ở biến số khóa (Key
variable), thường là mã số hoặc số thứ tự của đối tượng quan sát. Biến số khóa
giúp giá trị các trường hợp khớp với nhau ở 2 file số liệu.
 Trong trường hợp có biến số giống nhau ở 2 file số liệu, có thể phải bỏ một
trong 2 biến số ở file số liệu mới.
Hợp nhất các file số liệu (Merge files)
Thêm vào các biến số (Add Variables)
Ví dụ: Nghiên cứu thiếu máu ở vùng A được tiến hành qua 2 giai đoạn: Giai đoạn 1 phỏng
vấn về thông tin nhân khẩu học, khám lâm sàng và giai đoạn 2 xét nghiệm công thức máu.
Cả 2 file số liệu có cùng biến số khóa là mã số phiếu có giá trị từ 1 đến 400 và được sắp xếp
theo thứ tự giống nhau.

Data Merge files Add Variables


Lượng giá sau lớp học (5 phút)

You might also like