Chapter 2 - Data Cleansing

Trường Đại Học Công nghiệp Tp.
Hồ Chí Minh
Khoa Quản trị Kinh doanh
Nội dung
 2.1 Chất lượng dữ liệu
Chương 2: Làm sạch dữ liệu  2.2 Các biện pháp ngăn ngừa
 2.3 Các phương pháp làm sạch dữ liệu
 2.3.1 Dùng bảng tần số.
Giáo trình điện tử
 2.3.2 Dùng bảng phối hợp hai hay nhiều biến.
 2.4 Xử lý trên biến

Biên soạn bởi: Nguyễn Minh Toàn
1
2011-2012
2
2.1 Chất lượng dữ liệu 2.2 Các biện pháp ngăn ngừa
 Rất quan trọng  Thiết kế bảng câu hỏi
 Các yếu tố:  Chọn và huấn luyện phỏng viên
 Độ chính xác  Đọc và chỉnh sửa trước khi nhập liệu.
 Đầy đủ
 Tính nhất quán Lý do?
 Kịp thời
 Không dư thừa
 Phù hợp
 Tính thể hiện
 Khả năng tiếp cận
3 4
1
Đọc dữ liệu
 Cấu trúc cơ bản của file dữ liệu thống kê
SPSS
 Cases (rows) & variables (columns)
 Tập tin dữ liệu thống kê SPSS: “.sav”
 Ví dụ: demo.sav
 Đọc dữ liệu từ ứng dụng khác:
 Microsoft Excel
MANAGING DATA  Database (Microsoft Access)
 Text files
5 6
2.3 Các phương pháp làm sạch dữ liệu Case Summaries procedure
 Bảng tần số  Xem tất cả dữ liệu hay 1 phần của file đó,
(Analyze\Descriptive Statistics\Frequencies) nhóm theo hoặc sắp xếp theo tổ chức DL.
 Lựa chọn các quan sát  Limit cases to first: số case có giới hạn đầu tiên.
 Data\Select cases  Show only valid case: chỉ có những giá trị hợp lệ
 Bảng phối hợp hai hay ba biến  Show case numbers: số thứ tự của mỗi case
 Analyze\Tables\Custom Tables…
 Data View
7 8
2
Bảng tần số Lựa chọn các quan sát (Select Cases)
 Lập bảng tần số cho tất cả các biến  Công cụ Select Cases đưa ra một vài
 Đọc soát, tìm giá trị lạ tại các biến phương pháp cho phép ta lựa chọn ra
những nhóm nhỏ các trường hợp quan sát
dựa trên tiêu chuẩn hay điều kiện cụ thể.
Ta cũng có thể dùng phương pháp này để
lựa chọn một mẫu ngẫu nhiên các trường
hợp quan sát từ tổng thể dữ liệu. Để thực
hiện lệnh lựa chọn các quan sát này ta
chọn Data/select cases từ menu ta sẽ có
hộp thoại
Lựa chọn các quan sát (Select Cases) Bảng phối hợp hai hay ba biến
 All Case: Không điều kiện  Khảo sát mối liên hệ giữa các cặp kết hợp của các
biến
 If condition is satisfied: Thỏa điều kiện
 Down (Rows): tạo nên các dòng của bảng
 Random sample of case: Ngẫu nhiên  Across (Columns): phân tách biến thành các cột
 Based on time or case range: Quan sát của bảng
trong khoảng  Layout (Statistics Labels Appear): Sắp xếp các đại
lượng thống kê đã tính ra.
 Omit Label: bỏ hiện thị nhãn biến
 All Combinations (nested): 2 biến lồng ghép trong
nhau
 Each sparately (stacked): 2 biến độc lập với nhau
3
Defining Variable Properties for
Data View Categorical Variables
 Chọn toàn bộ cột tương ứng với biến có giá  Quét các giá trị thực tế và danh sách tất cả
trị lỗi các giá trị dữ liệu duy nhất cho mỗi biến
 Edit\Find được lựa chọn.
 Xác định các giá trị không có nhãn và tính
năng cung cấp một "nhãn tự động".
 Cung cấp khả năng sao chép nhãn giá trị
được xác định từ một biến khác để biến
được lựa chọn hoặc để biến thêm.
14
2.4 Xử lý trên biến

 Mã hóa lại biến (Transform\Recode\)
 Into Same Variables…
 Into Different Variables…
 Biến dạng Category thành Dichotomy
 Transform\Count
 Tính toán giá trị biến mới từ biến có sẵn
 Transform\Compute…
XỬ LÝ TRÊN BIẾN  Thay thế giá trị bị thiếu
 Transform\Replace Missing Value
 Công cụ tự động mã hóa lại
 Transform/Automatic Recode
15 16
4
Tạo một biến Categorical từ một
biến Scale Mã hóa lại (recode)
 Ví dụ, biến inccat được nhóm lại thành bốn Công dụng: xác định giá trị của một biến
loại. Biến phân loại này sử dụng các giá trị thành một giá trị mới phù hợp hơn (thường
số nguyên 1-4 để đại diện cho các loại thu dùng cho biến định lượng, đôi khi vẫn có
nhập sau đây (trong hàng ngàn): ít hơn $ thể dùng cho biến định tính)
25, $ 25 - $ 49, $ 50 - $ 74, $ 75 hoặc cao  1. Mã hóa trên cùng một biến (Recode into
hơn. same variables). Mất biến cũ, chỉ còn biến
 Transform\ Visual Binning… mới.
 2. Mã hóa trên cùng một biến(Recode into
diffenrent variables). Tạo biến mới, vẫn duy
trì biến cũ
17
Mã hóa trên cùng một biến Old and New Values

 Chuyển 1 biến định lượng (có nhiều giá trị)  Value: từng giá trị cũ rời rạc ứng với 1 giá
thành 1 biến định tính. trị mới.
 Ví dụ: Từ 18-60 có 42 độ tuổi=> 42 hàng.  System-missing: giá trị khuyết của hệ
Chia thành 4 tổ: (18-25); (26-35); (36- thống
45); (46-60) or (18-30); (31-40); (41-50);  System or user missing: giá trị khuyết của
(51-60). hệ thống hoặc do người sử dụng định nghĩa
 Range: một khoảng giá trị ứng với 1 gt mới
 Range…through: khoảng giữa 2 giá trị
 Lowesr through: gt nhỏ nhất đến gt xác định
 Through Highest:từ gt xác định đến gt lớn nhất
5
Công cụ tính toán giữa các biến
Biến dạng Category thành Dichotomy (Compute)
 Biến dạng category: biến phân loại có thể  Công cụ compute được dùng để tính toán
có nhiều trị số mã hóa tượng trưng cho giữa các giá trị trong các biến và kết quả sẽ
nhiều trạng thái, biểu hiện khác nhau. được lưu giữ trong một biến mới hoặc là
 Biến Dichotomy: biến phân loại chỉ có 2 trị một biến khác sẳn có hoặc biến chứa đựng
số mã hóa tượng trưng cho 2 trạng thái hay giá trị đang tính toán.
2 biểu hiện khác nhau.  Job start = age - employ
 Lệnh Count: chuyển biến Category dạng
đơn và biến Category dạng câu hỏi nhiều
trả lời thành 1 biến Dichotomy duy nhất.
Công cụ tự động mã hóa lại

Thay thế giá trị bị thiếu (missing value) (automatic recode)
 Công cụ này giúp ta có thể tự động thay  Là phương pháp mã hóa tự động các giá trị
thế các giá trị bị thiếu trong tập dữ liệu. dạng chuổi sang dạng số vào trong một
 Transform/replace missing value biến mới. Biến mới này sẽ chứa các con số
 Method nguyên liên tục, mỗi con số nguyên trong
biến mới sẽ đại diện cho các giá trị dạng
 Series mean
chuổi giống nhau .
 Mean of nearby point
 Median of near by point  Ví dụ: bạn có biến giới tính (male, female),
 Linear interpolation muốn mã hóa lại thành (1: male. 2:
 Linear trend at point.
female)
 Span of nearby points: Dãy số liền kề.  Transform/Automatic Recode
6
Tài liệu tham khảo Hỏi & Đáp …
 [1] Hà Trọng Quang, “Xử lý dữ liệu nghiên cứu với SPSS for windows”, Đại
học Công Nghiệp Tp.HCM, 2008.
 [2] Hoàng Trọng, “Xử lý dữ liệu nghiên cứu với SPSS ”, Đại học Kinh tế tp.
HCM, 2008.
 [5] Nguyễn Duy Tâm, “Phân tích dữ liệu”,
http://sites.google.com/site/tam0505/spss, 2011.
25 26

Chapter 2 - Data Cleansing

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chapter 2 - Data Cleansing

Uploaded by

Copyright:

Available Formats

Trường Đại Học Công nghiệp Tp.

 2.4 Xử lý trên biến

2.4 Xử lý trên biến

Mã hóa trên cùng một biến Old and New Values

Công cụ tự động mã hóa lại

You might also like