Professional Documents
Culture Documents
Chúng ta bị tràn ngập trong dữ liệu – Nhưng lại thiếu (cần) tri
thức
Khai phá dữ liệu: Giúp tự động phân tích các tập dữ liệu rất
lớn để khám phá ra các tri thức
lớn,
Khai Phá Dữ Liệu
3
Khai p
phá dữ liệu
ệ – Định
ị nghĩa
g
Khai phá dữ liệu (Data mining – DM) – Khám phá tri thức
từ dữ liệu (Knowledge discovery from data)
Là việc trích rút ra được các mẫu
ẫ hoặc tri thức quan trọng từ một
lượng dữ liệu (rất) lớn
quan trọng = không tầm thường, ẩn, chưa được biết đến, và
có thể hữu ích
Task-relevant Data
Data Cleaning
Data Integration
Pattern Evaluation
Knowledge
Data Mining Engine base
Database or Data
Warehouse Server
Data Exploration
Statistical Summary, Querying, and Reporting
thứ được
T i thức
Tri đ khá phá
khám há
Sự đặc trưng, sự phân biệt, luật kết hợp, phân lớp, phân cụm, xu
hướng/dịch chuyển, phân tích ngoại lai (outlier)
Các cách nhìn (quan điểm) khác nhau dẫn đến các cách
phân biệt khác nhau về Khai phá dữ liệu
ể dữ liệu nào được khai phá?
Dựa theo dữ liệu: Những kiểu
Dựa theo tri thức: Những kiểu tri thức nào được khám phá?
Dựa theo phương pháp: Những kiểu kỹ thuật nào được áp dụng?
Dựa theo ứng dụng (bài toán): Những kiểu ứng dụng (bài toán)
nào phù hợp để giải quyết?
Các đánh g
giá dựa trên mục tiêu ((objective)
j ) và dựa trên
chủ quan (subjective)
Dựa trên mục tiêu (objective): dựa trên sự thống kê và các cấu
trúc của các mẫu
Vd: dựa trên các giá trị độ hỗ trợ (support),
(support) độ tin cậy
(confidence)
Dựa trên chủ quan (subjective): dựa trên sự tin cậy của người
dùngg đối với dữ liệu
Vd: sự ngạc nhiên, sự mới mẻ, … đối với người dùng
Mức độ tiện ích (Utility): khả năng hữu ích của mẫu
Độ hỗ trợ của các luật kết hợp
Ngưỡng nhiễu đối với phân lớp học được
Các kiểu tri thức khác nhau đòi hỏi các cách biểu diễn
khác nhau ((đối với các mẫu tìm được)
ợ )
Luật kết hợp
Phân lớp,
Phân cụm
…
Khai Phá Dữ Liệu
24
DM: Các ứng
g dụng
ụ g tiềm năng
g
Phân tích dữ liệu và hỗ trợ quyết định
Phân tích và quản lý thị trường
Quảng cáo cá nhân (target marketing), quản lý quan hệ khách
hàng (CRM), phân tích giỏ hàng, bán hàng liên quan (cross-
selling), phân chia thị trường
Phân tí
Phâ tích
h và ả lý rủi
à quản ủi ro
Dự đoán, giữ khách hàng, phân tích cạnh tranh
Phát hiện gian lận và phát hiện các mẫu bất thường (outliers)
Quảng
g cáo cá nhân ((Target
g marketing)
g)
Tìm ra (xác định) những nhóm khách hàng “mẫu” có cùng các đặc
điểm về sở thích, mức thu nhập, thói quen chi tiêu, …
Xác định các mẫu (kiểu) chi trả/mua bán thường xuyên