Professional Documents
Culture Documents
Lecture 4-Data Preprocessing-SV
Lecture 4-Data Preprocessing-SV
1
2
4.1. Tổng quan về giai đoạn tiền xử lý dữ liệu 4.1. Tổng quan về giai đoạn tiền xử lý dữ liệu
Giai đoạn tiền xử lý dữ liệu Chất lượng dữ liệu (data quality)
Quá trình xử lý dữ liệu thô/gốc (raw/original data) nhằm Tính chính xác (accuracy): giá trị được ghi nhận đúng
cải thiện chất lượng dữ liệu (quality of the data) và do đó, với giá trị thực.
cải thiện chất lượng của kết quả phân tích và khai phá dữ
liệu. Tính hiện hành (currency/timeliness): giá trị được ghi
Dữ liệu thô/gốc nhận không bị lỗi thời.
Có cấu trúc, bán cấu trúc, phi cấu trúc Tính toàn vẹn (completeness): tất cả các giá trị dành cho
một biến/thuộc tính đều được ghi nhận.
Các hệ thống cơ sở dữ liệu (database systems)
Chất lượng dữ liệu (data quality): tính chính xác, tính Tính nhất quán (consistency): tất cả giá trị dữ liệu đều
hiện hành, tính toàn vẹn, tính nhất quán được biểu diễn như nhau trong tất cả các trường hợp.
3 4
4.1. Tổng quan về giai đoạn tiền xử lý dữ liệu 4.1. Tổng quan về giai đoạn tiền xử lý dữ liệu
Pattern Evaluation/
Presentation
Task-relevant Data
Data
Cleaning
Data Integration
Data Sources 5 6
4.1. Tổng quan về giai đoạn tiền xử lý dữ liệu 4.1. Tổng quan về giai đoạn tiền xử lý dữ liệu
Các kỹ thuật tiền xử lý dữ liệu Các kỹ thuật tiền xử lý dữ liệu
Làm sạch dữ liệu (data cleaning/cleansing): loại bỏ nhiễu Làm sạch dữ liệu (data cleaning/cleansing)
(remove noise), hiệu chỉnh những phần dữ liệu không nhất Tóm tắt hoá dữ liệu: nhận diện đặc điểm chung của dữ
quán (correct data inconsistencies) liệu và sự hiện diện của nhiễu hoặc các phần tử kì dị
Tích hợp dữ liệu (data integration): trộn dữ liệu (merge (outliers)
data) từ nhiều nguồn khác nhau vào một kho dữ liệu Xử lý dữ liệu bị thiếu (missing data)
Biến đổi dữ liệu (data transformation): chuẩn hoá dữ liệu Xử lý dữ liệu bị nhiễu (noisy data)
(data normalization) Tích hợp dữ liệu (data integration)
Thu giảm dữ liệu (data reduction): thu giảm kích thước dữ
Vấn đề dư thừa (redundancy)
liệu (nghĩa là giảm số phần tử) bằng kết hợp dữ liệu (data
Phát hiện và xử lý mâu thuẫn giá trị dữ liệu (detection
aggregation), loại bỏ các đặc điểm dư thừa (redundant
and resolution of data value conflicts)
features) (nghĩa là giảm số chiều/thuộc tính dữ liệu), gom
cụm dữ liệu
7 8
4.2. Thống kê mô tả về dữ liệu 4.2. Thống kê mô tả về dữ liệu
Central measures
Arithmetic mean: this is the most popular and useful
Descriptive statistics measure of central location
Sum of measurements
Mean =
Measures of central Measures of Number of measurements
Distributions
tendency variability
Sample mean Population mean
n N
n N
variance,
interquatile range
Sample size Population size
9 10
Solution: First, sort the salaries, then Solution: Sort the salaries, & locate
locate the middle value. the two middle values.
26,26,28,29,30,32,109 26,26,28,29, 29.5,30,31,32,109
13 14
Mean Mode
Median
Figure 1
Figure 2
17 18
2 ni 1 ( x i x ) 2
s
19 n1 20
4.2. Thống kê mô tả về dữ liệu 4.2. Thống kê mô tả về dữ liệu
Measures of variability Measures of variability
Standard deviation Coefficient of variation
• The standard deviation of a set of measurements is the • The coefficient of variation of a set of measurements
square root of the variance. is the standard deviation divided by the mean value.
21 22
25 26
S Q1 Q2 Q3 L
27 28
4.2. Thống kê mô tả về dữ liệu 4.2. Thống kê mô tả về dữ liệu
Box plots Box plots
Example: create a box plot for the data regarding the
number of customers who purchased petrol in an 440 680
independent petrol station each day in the last 200 days.
Solution: The following are the relevant summary S Q1 Q2 Q3 L
statistics for the data: 410 530 560 590 700
• Q2 = 560
• Q3 = 590
29 30
440 680 S Q1 Q2 Q3 L
410 530 560 590 700
S Q1 Q2 Q3 L
700 25% 50% 25%
410 530 560 590
The distribution is very symmetrical.
25% 50% 25%
25% 25%
31
410 700 32
4.3. Làm sạch dữ liệu 4.3. Làm sạch dữ liệu
Xử lý dữ liệu bị thiếu (missing data): dùng giá trị thay thế như
Xử lý dữ liệu bị thiếu (missing data) giá trị trung bình, số trung vị, số mode,…
Nhận diện phần tử biên (outliers) và giảm thiểu nhiễu
(noisy data)
Xử lý dữ liệu không nhất quán (inconsistent data)
33 34
S Q1 Q2 Q3 L
410 530 560 590 700
37 38
39 40
4.4. Biến đổi dữ liệu 4.4. Biến đổi dữ liệu
Biến đổi dữ liệu: quá trình biến đổi hay kết hợp dữ liệu vào Chuẩn hóa (normalization)
những dạng thích hợp cho quá trình phân tích và khai phá
min-max normalization
dữ liệu
41 42
Hỗ trợ kiểm tra tính chính xác và giúp hiểu cấu trúc của
dữ liệu nhiều chiều.
Hỗ trợ phát hiện thông tin thiếu sót về các mối quan hệ
giữa các thuộc tính dữ liệu.
43 44
4.5. Rời rạc hóa dữ liệu 4.5. Rời rạc hóa dữ liệu
Giảm số lượng giá trị của một thuộc tính liên tục (continuous Các phương pháp rời rạc hóa dữ liệu cho các thuộc tính số
attribute) bằng các chia miền trị thuộc tính thành các khoảng
(intervals) Binning
Các nhãn (labels) được gán cho các khoảng (intervals) này và được
Cluster analysis
dùng thay giá trị thực của thuộc tính
Các trị thuộc tính có thể được phân hoạch theo một phân cấp …
(hierarchical) hay ở nhiều mức phân giải khác nhau
(multiresolution)
45 46