Professional Documents
Culture Documents
Khai thác dữ liệu
Khai thác dữ liệu
Có 4 bài toán nền tảng trong quá trình khai phá dữ liệu
Khai phá mẫu liên hệ: Khai phá mẫu liên hệ là một phương pháp trong
lĩnh vực khai phá dữ liệu (data mining) và được áp dụng trong việc
khám phá thông tin tiềm ẩn và hiểu sâu hơn về mối quan hệ và tương
tác giữa các yếu tố trong dữ liệu. Ví dụ, trong một cơ sở dữ liệu bán lẻ,
khai phá mẫu liên hệ có thể giúp tìm ra các mẫu mua hàng liên quan,
chẳng hạn như "Khi khách hàng mua sản phẩm A, họ thường mua sản
phẩm B cùng lúc" hoặc "Khi khách hàng mua sản phẩm A, họ có xu
hướng mua sản phẩm C trong tương lai".
Gom cụm dữ liệu: Chia tập data thành các cluster mà mỗi phần tử trong
cluster có mối quan hệ tương đương nhau. Chia nhóm khách hàng, Tóm
tắt dữ liệu.
Phát hiện ngoại lại: xác định các điểm outlier khác xa với các điểm còn
lại. Phát hiện xâm nhập, Phát hiện gian lận thẻ tín dụng, Phát hiện các
sự kiện đáng quan tâm từ thông tin sensor, Chẩn đoán y khoa.
Phân loại dữ liệu: phân loại data theo nhãn label nào đó. Marketing có
mục tiêu. Phát hiện xâm nhập. Phát hiện bất thường có giám sát.
Chuẩn bị dữ liệu
- Trích xuất đặc trưng và khả năng biến đổi của kiểu dữ liệu.
- Làm sạch dữ liệu
- Rút gọn chọn lọc và biến đổi dữ liệu
+ Giảm số chiều bằng phép xoay trục (SVD vs PCA)
+ Giảm số chiều bằng biến đổi dữ liệu (Haar wavelet transform,
Multidimensional Scaling (MDS), Spectral Transformation and
Embedding of Graphs. )