You are on page 1of 4

Khai thác dữ liệu

Đặc điểm chung của quá trình khai phá dữ liệu


- Quá trình khai thác dữ liệu là một quá trình bao gồm nhiều giai đoạn, chẳng hạn
như làm sạch dữ liệu, trích xuất tính năng, và thiết kế thuật toán.

- Data preprocessing có thể là giai đoạn quan trọng nhất


- Các loại dữ liệu cơ bản
+ Dữ liệu định hướng không phụ thuộc (Nondependency-oriented data): đề cập
đến các dữ liệu mà không có sự phụ thuộc hoặc liên kết với nhau. Trong kiểu dữ
liệu này, mỗi mục dữ liệu độc lập và không ảnh hưởng đến các mục dữ liệu khác.
Ví dụ, trong một danh sách người dùng, thông tin về mỗi người như tên, tuổi, địa
chỉ không có sự phụ thuộc vào thông tin của người khác.
+ Dữ liệu định hướng phụ thuộc (Dependency-oriented data): đề cập đến các dữ
liệu mà có sự phụ thuộc hoặc liên kết với nhau. Trong kiểu dữ liệu này, một mục
dữ liệu có thể phụ thuộc vào các mục dữ liệu khác để xác định, tạo ra mối quan hệ
hoặc tương tác giữa chúng. Ví dụ, trong một cơ sở dữ liệu về quan hệ gia đình,
mỗi mục dữ liệu có thể phụ thuộc vào mục dữ liệu khác để xác định quan hệ họ
hàng, chẳng hạn như quan hệ cha con, anh em...
Phân thành 2 loại:
+Phụ thuộc ngầm(Implicit dependencies): là các mối quan hệ hoặc sự phụ
thuộc giữa các thành phần hoặc dữ liệu mà không được rõ ràng biểu thị hoặc
không được khai báo một cách rõ ràng. Ví dụ, trong bài toán phân loại email vào
các hộp thư đến (inbox) và thư rác (spam), các phụ thuộc ngầm định có thể xuất
hiện khi một từ hoặc cụm từ cụ thể không được liệt kê như một tiêu chí phân loại,
nhưng vẫn có tác động tới quyết định cuối cùng. Một từ như "viagra" có thể
không được liệt kê trong các tiêu chí phân loại, nhưng vẫn ảnh hưởng đến quyết
định vì nó ngầm hiểu là một yếu tố tiêu cực cho việc phân loại thư.
+Phụ thuộc tường minh(Explicit dependencies): là các mối quan hệ hoặc sự
phụ thuộc giữa các thành phần hoặc dữ liệu được biểu thị và khai báo một cách rõ
ràng. Ví dụ, trong một mô hình dữ liệu quan hệ (relational database model),
explicit dependencies được biểu thị thông qua các ràng buộc (constraints) như
khóa ngoại (foreign key), khóa chính (primary key) và các quan hệ liên kết
(relationships) giữa các bảng.
Dữ liệu chuỗi thời gian (time-series).
Dãy và chuỗi (strings) rời rạc.
Dữ liệu không gian.
Dữ liệu mạng và đồ thị.

Có 4 bài toán nền tảng trong quá trình khai phá dữ liệu
Khai phá mẫu liên hệ: Khai phá mẫu liên hệ là một phương pháp trong
lĩnh vực khai phá dữ liệu (data mining) và được áp dụng trong việc
khám phá thông tin tiềm ẩn và hiểu sâu hơn về mối quan hệ và tương
tác giữa các yếu tố trong dữ liệu. Ví dụ, trong một cơ sở dữ liệu bán lẻ,
khai phá mẫu liên hệ có thể giúp tìm ra các mẫu mua hàng liên quan,
chẳng hạn như "Khi khách hàng mua sản phẩm A, họ thường mua sản
phẩm B cùng lúc" hoặc "Khi khách hàng mua sản phẩm A, họ có xu
hướng mua sản phẩm C trong tương lai".
Gom cụm dữ liệu: Chia tập data thành các cluster mà mỗi phần tử trong
cluster có mối quan hệ tương đương nhau. Chia nhóm khách hàng, Tóm
tắt dữ liệu.
Phát hiện ngoại lại: xác định các điểm outlier khác xa với các điểm còn
lại. Phát hiện xâm nhập, Phát hiện gian lận thẻ tín dụng, Phát hiện các
sự kiện đáng quan tâm từ thông tin sensor, Chẩn đoán y khoa.
Phân loại dữ liệu: phân loại data theo nhãn label nào đó. Marketing có
mục tiêu. Phát hiện xâm nhập. Phát hiện bất thường có giám sát.

Chuẩn bị dữ liệu
- Trích xuất đặc trưng và khả năng biến đổi của kiểu dữ liệu.
- Làm sạch dữ liệu
- Rút gọn chọn lọc và biến đổi dữ liệu
+ Giảm số chiều bằng phép xoay trục (SVD vs PCA)
+ Giảm số chiều bằng biến đổi dữ liệu (Haar wavelet transform,
Multidimensional Scaling (MDS), Spectral Transformation and
Embedding of Graphs. )

You might also like