Professional Documents
Culture Documents
Hồ Chí Minh
Khoa Quản trị Kinh doanh
Nội dung
2.1 Chất lượng dữ liệu
Chương 2: Làm sạch dữ liệu 2.2 Các biện pháp ngăn ngừa
2.3 Các phương pháp làm sạch dữ liệu
2.3.1 Dùng bảng tần số.
Giáo trình điện tử
2.3.2 Dùng bảng phối hợp hai hay nhiều biến.
1
2011-2012
2
2.1 Chất lượng dữ liệu 2.2 Các biện pháp ngăn ngừa
Rất quan trọng Thiết kế bảng câu hỏi
Các yếu tố: Chọn và huấn luyện phỏng viên
Độ chính xác Đọc và chỉnh sửa trước khi nhập liệu.
Đầy đủ
Tính nhất quán Lý do?
Kịp thời
Không dư thừa
Phù hợp
Tính thể hiện
Khả năng tiếp cận
3 4
1
Đọc dữ liệu
Cấu trúc cơ bản của file dữ liệu thống kê
SPSS
Cases (rows) & variables (columns)
Tập tin dữ liệu thống kê SPSS: “.sav”
Ví dụ: demo.sav
Đọc dữ liệu từ ứng dụng khác:
Microsoft Excel
MANAGING DATA Database (Microsoft Access)
Text files
5 6
2.3 Các phương pháp làm sạch dữ liệu Case Summaries procedure
Bảng tần số Xem tất cả dữ liệu hay 1 phần của file đó,
(Analyze\Descriptive Statistics\Frequencies) nhóm theo hoặc sắp xếp theo tổ chức DL.
Lựa chọn các quan sát Limit cases to first: số case có giới hạn đầu tiên.
Data\Select cases Show only valid case: chỉ có những giá trị hợp lệ
Bảng phối hợp hai hay ba biến Show case numbers: số thứ tự của mỗi case
Analyze\Tables\Custom Tables…
Data View
7 8
2
Bảng tần số Lựa chọn các quan sát (Select Cases)
Lập bảng tần số cho tất cả các biến Công cụ Select Cases đưa ra một vài
Đọc soát, tìm giá trị lạ tại các biến phương pháp cho phép ta lựa chọn ra
những nhóm nhỏ các trường hợp quan sát
dựa trên tiêu chuẩn hay điều kiện cụ thể.
Ta cũng có thể dùng phương pháp này để
lựa chọn một mẫu ngẫu nhiên các trường
hợp quan sát từ tổng thể dữ liệu. Để thực
hiện lệnh lựa chọn các quan sát này ta
chọn Data/select cases từ menu ta sẽ có
hộp thoại
Lựa chọn các quan sát (Select Cases) Bảng phối hợp hai hay ba biến
All Case: Không điều kiện Khảo sát mối liên hệ giữa các cặp kết hợp của các
biến
If condition is satisfied: Thỏa điều kiện
Down (Rows): tạo nên các dòng của bảng
Random sample of case: Ngẫu nhiên Across (Columns): phân tách biến thành các cột
Based on time or case range: Quan sát của bảng
trong khoảng Layout (Statistics Labels Appear): Sắp xếp các đại
lượng thống kê đã tính ra.
Omit Label: bỏ hiện thị nhãn biến
All Combinations (nested): 2 biến lồng ghép trong
nhau
Each sparately (stacked): 2 biến độc lập với nhau
3
Defining Variable Properties for
Data View Categorical Variables
Chọn toàn bộ cột tương ứng với biến có giá Quét các giá trị thực tế và danh sách tất cả
trị lỗi các giá trị dữ liệu duy nhất cho mỗi biến
Edit\Find được lựa chọn.
Xác định các giá trị không có nhãn và tính
năng cung cấp một "nhãn tự động".
Cung cấp khả năng sao chép nhãn giá trị
được xác định từ một biến khác để biến
được lựa chọn hoặc để biến thêm.
14
4
Tạo một biến Categorical từ một
biến Scale Mã hóa lại (recode)
Ví dụ, biến inccat được nhóm lại thành bốn Công dụng: xác định giá trị của một biến
loại. Biến phân loại này sử dụng các giá trị thành một giá trị mới phù hợp hơn (thường
số nguyên 1-4 để đại diện cho các loại thu dùng cho biến định lượng, đôi khi vẫn có
nhập sau đây (trong hàng ngàn): ít hơn $ thể dùng cho biến định tính)
25, $ 25 - $ 49, $ 50 - $ 74, $ 75 hoặc cao 1. Mã hóa trên cùng một biến (Recode into
hơn. same variables). Mất biến cũ, chỉ còn biến
Transform\ Visual Binning… mới.
2. Mã hóa trên cùng một biến(Recode into
diffenrent variables). Tạo biến mới, vẫn duy
trì biến cũ
17
5
Công cụ tính toán giữa các biến
Biến dạng Category thành Dichotomy (Compute)
Biến dạng category: biến phân loại có thể Công cụ compute được dùng để tính toán
có nhiều trị số mã hóa tượng trưng cho giữa các giá trị trong các biến và kết quả sẽ
nhiều trạng thái, biểu hiện khác nhau. được lưu giữ trong một biến mới hoặc là
Biến Dichotomy: biến phân loại chỉ có 2 trị một biến khác sẳn có hoặc biến chứa đựng
số mã hóa tượng trưng cho 2 trạng thái hay giá trị đang tính toán.
2 biểu hiện khác nhau. Job start = age - employ
Lệnh Count: chuyển biến Category dạng
đơn và biến Category dạng câu hỏi nhiều
trả lời thành 1 biến Dichotomy duy nhất.
Công cụ này giúp ta có thể tự động thay Là phương pháp mã hóa tự động các giá trị
thế các giá trị bị thiếu trong tập dữ liệu. dạng chuổi sang dạng số vào trong một
Transform/replace missing value biến mới. Biến mới này sẽ chứa các con số
Method nguyên liên tục, mỗi con số nguyên trong
biến mới sẽ đại diện cho các giá trị dạng
Series mean
chuổi giống nhau .
Mean of nearby point
Median of near by point Ví dụ: bạn có biến giới tính (male, female),
Linear interpolation muốn mã hóa lại thành (1: male. 2:
Linear trend at point.
female)
Span of nearby points: Dãy số liền kề. Transform/Automatic Recode
6
Tài liệu tham khảo Hỏi & Đáp …
[1] Hà Trọng Quang, “Xử lý dữ liệu nghiên cứu với SPSS for windows”, Đại
học Công Nghiệp Tp.HCM, 2008.
[2] Hoàng Trọng, “Xử lý dữ liệu nghiên cứu với SPSS ”, Đại học Kinh tế tp.
HCM, 2008.
[5] Nguyễn Duy Tâm, “Phân tích dữ liệu”,
http://sites.google.com/site/tam0505/spss, 2011.
25 26