L1-Gioi Thieu Khai Pha Du Lieu

Khai Phá Dữ Liệu
Nguyễn Nhật Quang

quangnn-fit@mail.hut.edu.vn
Viện Công nghệ Thông tin và Truyền thông

Trường Đại học Bách Khoa Hà Nội
Năm học 2010-2011
Nội dung môn học:
Giới thiệu về Khai phá dữ liệu

ề công cụ WEKA
Giới thiệu về
Tiền xử lý dữ liệu
Phát hiện các luật kết hợp
Các kỹ thuật phân lớp và dự đoán
Các kỹ thuật phân nhóm

2
Tại
ạ sao cần khai p
phá dữ liệu?
ệ
Sự gia tăng bùng nổ của dữ liệu: Từ mức độ terabytes đến
mức độ petabytes
Thu thập
Th hậ ddữ liệ
liệu và ồ tạii của
à sự tồn ủ ddữ liệ
liệu
Các công cụ thu thập dữ liệu tự động, các hệ thống cơ sở dữ
liệu, World Wide Web, xã hội số
Cá ồ dữ liệ
Các nguồn liệu phong
h phú
hú
Kinh doanh: Internet, thương mại điện tử, giao dịch thương
mại, chứng khoán,…
Khoa học: Tín hiệu cảm biến,
biến tin sinh
sinh, thí nghiệm mô
phỏng/giả lập,…
Xã hội: Tin tức, máy ảnh số, các mạng xã hội
Chúng ta bị tràn ngập trong dữ liệu – Nhưng lại thiếu (cần) tri
thức
Khai phá dữ liệu: Giúp tự động phân tích các tập dữ liệu rất
lớn để khám phá ra các tri thức
lớn,
3
Khai p
phá dữ liệu
ệ – Định
ị nghĩa
g
Khai phá dữ liệu (Data mining – DM) – Khám phá tri thức
từ dữ liệu (Knowledge discovery from data)
Là việc trích rút ra được các mẫu
ẫ hoặc tri thức quan trọng từ một
lượng dữ liệu (rất) lớn
quan trọng = không tầm thường, ẩn, chưa được biết đến, và
có thể hữu ích
Các tên gọi khác

Khám phá tri thức trong các cơ sở dữ liệu (Knowledge discovery
in databases - KDD)
Trích rút tri thức (Knowledge extraction)
Phân tích mẫu/dữ liệu (Data/pattern analysis)
…
Khai phá dữ liệu khác với…

Tìm kiếm thông tin (Information retrieval)
ấ (SQL) đối
Xử lý các câu truy vấn ố với các cơ sở dữ liệu
4
DM: Lịch
ị sử p
phát triển
1989 IJCAI Workshop on Knowledge Discovery in Databases
Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W.
Frawley, 1991)
1991-1994 Workshops on Knowledge Discovery in Databases
Advances in Knowledge g Discoveryy and Data Mining
g ((U. Fayyad,
yy , G.
Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
1995-1998 International Conferences on Knowledge Discovery in
Databases and Data Mining (KDD’95-98)
(KDD 95 98)
Journal of Data Mining and Knowledge Discovery (1997)
ACM SIGKDD conferences since 1998 and (Journal) SIGKDD Explorations
More conferences on data mining
PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM
(2001), etc.
ACM Transactions on KDD starting in 2007
5
Các bước của quá trình KD
1. Tìm hiểu lĩnh vực của bài toán (ứng dụng)
Các mục đích của bài toán, các tri thức cụ thể của lĩnh vực
2. Tạo nên (thu thập) một tập dữ liệu phù hợp
3. Làm sạch và tiền xử lý dữ liệu
4. Giảm kích thước của dữ liệu, chuyển đổi dữ liệu
Xác định các thuộc tính quan trọng, giảm số chiều (số thuộc tính),
biểu diễn bất biến
5. Lựa chọn chức năng khai phá dữ liệu
Tóm tắt hóa (summarization),
(s mmari ation) phân loại/phân lớp
lớp, hồi quy/dự
q /d
đoán, kết hợp, phân cụm
6. Lựa chọn/Phát triển (các) giải thuật khai phá dữ liệu phù hợp
7 Tiến hành quá trình khai phá dữ liệu
7.
8. Đánh giá mẫu thu được và biểu diễn tri thức
Hiển thị hóa, chuyển đổi, bỏ đi các mẫu dư thừa, …
9 Sử dụng các tri thức được khám phá
9.

6
Quá trình khám phá tri thức (1)
Đây là cách nhìn của giới
nghiên cứu về các hệ thống dữ
liệu và kho dữ liệu
Khai phá dữ liệu đóng vai trò Pattern Evaluation
quan trọng trong quá trình
khám phá tri thức Data Mining
Task-relevant Data
Data Warehouse Selection
Data Cleaning
Data Integration
Databases (Han and Kamber - Data mining: Concepts and Techniques)

7
Quá trình khám phá tri thức (2)
(Han and Kamber - Data mining: Concepts and Techniques)
Input Data Data Pre- Data Post-

Processing Mining Processing
Data integration Pattern discovery Pattern evaluation

Normalization Association & correlation Pattern selection
Feature selection Classification Pattern interpretation
Clustering
Dimension reduction Pattern visualization
Outlier analysis
…………
Đây là cách nhìn của giới nghiên cứu về học máy và

thố kê
thống
8
Kiến trúc hệ thống khai phá dữ liệu
Graphical User Interface
Pattern Evaluation
Knowledge
Data Mining Engine base
Database or Data
Warehouse Server
data cleaning, integration, and selection
Data World-Wide Other Info

Database Repositories (Han and Kamber -
Warehouse Web
Data mining: Concepts
and Techniques)

9
Khai phá dữ liệu cho kinh doanh
Increasing potential
to support
business decisions End User
Decision
Making
Data Presentation Business

Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst
Data Exploration
Statistical Summary, Querying, and Reporting
Data Preprocessing/Integration, Data Warehouses

DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
(Han and Kamber - Data mining:
Concepts and Techniques) 10
DM – Các lĩnh vực
ự liên q
quan
Công nghệ cơ sở dữ liệu (Database technology)
Giải thuật (Algorithm)
Thống kê (Statistics)
Học máy (Machine learning)
Nhận dạng mẫu (Pattern recognition)
Hiển thị hóa (Visualization)
Tính toán hiệu năng cao (High-performance computing)

11
Phân tích dữ liệu
ệ
Lượng dữ liệu rất lớn
Các giải thuật (phân tích dữ liệu) cần phải hoạt động tốt với
những tập dữ liệu lên đến hàng terabytes,
terabytes hoặc thậm chí
petabytes
Dữ liệu được biểu diễn trong không gian nhiều chiều (số
lượng rất lớn các thuộc tính)
Vd: Dữ liệu trong lĩnh vực tin sinh (bioinformatics) có thể được
biểu diễn bởi hàng chục ngàn thuộc tính
Dữ liệu có độ phức tạp (rất) cao
Cá ồ dữ liệu
Các lluồng liệ vàà dữ liệ
liệu th
thu nhận
hậ từ các
á mạng cảm ả biế
biến
Dữ liệu liên tục theo thời gian, dữ liệu phụ thuộc theo thời gian,
chuỗi dữ liệu
Dữ liệu có cấu trúc, dữ liệu dạng đồ thị, các mạng xã hội
Các cơ sở dữ liệu hỗn tạp
Dữ liệu phụ thuộc không gian/thời gian, dữ liệu đa phương tiện
Cần các chương
g trình ((ứng ụ g) p
g dụng) ệ mới,, phức
phân tích dữ liệu p
tạp hơn
12
DM – Nhiều cách nhìn (quan điểm)
Dữ liệu được khai phá
Dữ liệu quan hệ, kho dữ liệu, dữ liệu giao dịch, luồng dữ liệu, dữ
liệ h
liệu ớ đối ttượng, dữ liệ
hướng liệu phụ
h th ộ khô
thuộc không gian,
i dữ liệ
liệu liê
liên
tục theo thời gian, dữ liệu dạng văn bản, dữ liệu đa phương tiện,
dữ liệu hỗn tạp, dữ liệu trên WWW, …
thứ được
T i thức
Tri đ khá phá
khám há
Sự đặc trưng, sự phân biệt, luật kết hợp, phân lớp, phân cụm, xu
hướng/dịch chuyển, phân tích ngoại lai (outlier)
Các kỹ thuật được sử dụng

Dựa trên cơ sở dữ liệu, phân tích kho dữ liệu, học máy, thống kê,
hiển thị hóa, …
Các ứng dụng (bài toán) thực tế

Kinh doanh bán lẻ, viễn thông, ngân hàng, phát hiện gian lận tài
g chứng
chính, khai phá dữ liệu sinh học, phân tích thị trường g
ả khai phá Web, …
khoán, khai phá văn bản,
13
DM – Các cách p
phân biệt
ệ
Theo chức năng tổng quát
Khai phá dữ liệu mô tả: Tìm các mẫu (mà con người có thể
hiểu/diễn giải được) biểu diễn/mô tả dữ liệu
Khai phá dữ liệu dự đoán: Sử dụng một số biến để dự đoán giá
trị (chưa biết, hoặc trong tương lai) của các biến khác
Các cách nhìn (quan điểm) khác nhau dẫn đến các cách
phân biệt khác nhau về Khai phá dữ liệu
ể dữ liệu nào được khai phá?
Dựa theo dữ liệu: Những kiểu
Dựa theo tri thức: Những kiểu tri thức nào được khám phá?
Dựa theo phương pháp: Những kiểu kỹ thuật nào được áp dụng?
Dựa theo ứng dụng (bài toán): Những kiểu ứng dụng (bài toán)
nào phù hợp để giải quyết?

14
DM: Khái q
quát hóa
Tích hợp thông tin và xây dựng các kho dữ liệu
Làm sạch dữ liệu, chuyển đổi dữ liệu, tích hợp dữ liệu, và mô
hì h d
hình dữ liệ
liệu nhiều
hiề chiều
hiề ((multi-dimensional
l i di i ld
data model)
d l)
Công nghệ khối dữ liệu (data cube)

Các phương pháp hiệu quả để
ể tính toán kết
ế hợp nhiều
ề chiều
ề của
dữ liệu
Xử lý phân tích trực tuyến (Online analytical processing – OLAP)
Mô tả khái niệm theo nhiều chiều: Sự đặc trưng và sự

phân biệt
Tổng quát hóa, tắt, và tương phản các đặc tính của dữ liệu
hóa tóm tắt
Vd: Các vùng khô vs. các vùng ướt

15
DM: Phân tích kết hợp và tương quan
Các mẫu hoặc các tập mục (itemsets) thường xuyên
Những ụ ((sản p
g mục phẩm)) nào thường y được
g xuyên ợ mua
cùng nhau, trong siêu thị BigC?
Kết hợp (association), tương quan (correlation), và
nguyên nhân (causality)
Ví dụ về một luật kết hợp (association rule)
Bánh mỳ Æ Sữa [0.5%, 75%] (độ hỗ trợ – support,
độ tin ậ – confidence)
ti cậy fid )
Các mục kết hợp ở mức cao, thì cũng tương quan ở
mức cao?
Làm thế nào để khám phá các mẫu (luật) như vậy trong
các tập dữ liệu lớn?

16
DM: Phân lớp
p và dự
ự đoán
Phân lớp (classification) và dự đoán (prediction)
Xây dựng các mô hình (các hàm mục tiêu) dựa trên một số ví dụ
h /h ấ luyện
học/huấn l ệ
Mô tả và phân biệt các lớp (các khái niệm) cho việc dự đoán trong
tương lai
mới, hoặc dự đoán các giá trị kiểu số
Phân lớp các ví dụ mới
Các phương pháp điển hình

Cây quyết định (Decision tree learning), Phân lớp Naïve Bayes
(Naïve Bayes classification),
classification) Máy vectơ hỗ trợ (Support vector
machine), Mạng nơ-ron nhân tạo (Artificial neural networks), Học
quy nạp luật (Rule induction), Hồi quy tuyến tính (Linear
regression), …
Các ứng dụng điển hình

Phát hiện gian lận thẻ tín dụng, quảng cáo trực tiếp (phù hợp với
g người),
từng g ), phân
p ạ ự đoán các loại
loại/dự ạ bệnh,
ệ , phân
p ạ các trang
loại g
Web, …
17
DM: Phân cụm và phân tích ngoại lai
Phân cụm (Cluster analysis)
Phương pháp học không giám sát (unsupervised learning) –
khô có
không ó thông
hô tin
i vềề nhãn
h lớlớp
Nhóm dữ liệu lại thành các cụm (clusters)
Nguyên tắc: Cực đại hóa sự tương tự giữa các đối tượng trong
cùng một cụm – nhưng cực tiểu hóa sự tương tự giữa các đối
tượng khác cụm
Có rất nhiều phương pháp và ứng dụng (bài toán)
Phân tích ngoại lai (Outlier analysis/detection)

Ngoại lai (Outlier): Một đối tượng rất khác biệt với các đối tượng
khác (trong một cụm)
Nhiễ của
Nhiễu ủ dữ liệu,
liệ hay
h là ngoạii lệ?
Các phương pháp: phân cụm, phân tích hồi quy, …
Rất hữu ích trong các bài toán phát hiện gian lận (giả mạo), hoặc
phân tích các sự kiện hiếm khi xảy ra

18
DM: Phân tích xu hướng và tiến triển
Phân tích chuỗi (sequence), xu hướng (trend), và tiến
triển (evolution)
Phân tích xu hướng và sự dịch chuyển (khỏi xu hướng)
Khai phá các mẫu kiểu chuỗi (sequential patterns)
Vd: Đầu tiên mua máy ảnh số
số, sau đó mua các thẻ nhớ SD
dung lượng lớn, …
Phân tích tính chu kỳ (Periodicity analysis)
Phân tí
Phâ tích h ỗi dữ liệu
h chuỗi liệ liê
liên ttục th
theo thời gian
i (ti
(time-series)
i ) và
à
chuỗi dữ liệu sinh học
Phân tích dựa trên sự tương tự (Similarity-based analysis)
Khai phá các luồng dữ liệu

Có thứ tự, thay đổi theo thời gian, có thể vô hạn, các luồng dữ
liệu

19
DM: Phân tích mạng và cấu trúc
Khai phá đồ thị dữ liệu (Graph mining)
Tìm ra các đồ thị con (các phần của đồ thị ban đầu), các cây (dữ
liệu XML)
XML), các cấu trúc con (dữ liệu Web) … thường xuyên xảy ra
Phân tích mạng thông tin (Information network analysis)
Các mạng xã hội: các tác nhân (các đối tượng, các nút) và các
mối q ệ (các
quan hệ ( ạ )
cạnh)
Vd: Mạng các tác giả (học giả) trong lĩnh vực Trí tuệ nhân tạo
Các mạng hỗn tạp (khác nhau)
Vd: Một người có thể tham gia nhiều mạng khác nhau (bạn bè, gia
đình bạn cùng lớp/trường
đình, lớp/trường, những người cùng sở thích nghe nhạc
Rock,…)
Các liên kết (links) mang rất nhiều thông tin ngữ nghĩa: Khai phá
các liên kết (Link mining)
Kh i phá
Khai há W
Web
b (W
(Web
b mining)
i i )
WWW là một mạng thông tin khổng lồ: PageRank (Google)
Phân tích các mạng thông tin Web
Khám phá cộng đồng WebWeb, Khai phá ý kiến (Opinion mining)
mining), Khai
phá dữ liệu truy cập Web (usage mining)
20
Tất cả các mẫu đều quan trọng?
Quá trình khai phá dữ liệu có thể sinh (phát hiện) ra hàng
ngàn mẫu – Không phải tất cả các mẫu đều quan trọng
Các đánh giá về mức độ quan trọng của các mẫu
Một mẫu là quan trọng, nếu nó: dễ hiểu đối với người dùng, vẫn
đúng đối với các dữ liệu mới (ở một mức độ chắc chắn nhất
đị h) hữ
định), hữu d ới mẻ,
dụng, mới ẻ h ặ giúp
hoặc iú xác
á nhận
hậ một ột giả à đó
iả thiết nào
của một người dùng
Các đánh g
giá dựa trên mục tiêu ((objective)
j ) và dựa trên
chủ quan (subjective)
Dựa trên mục tiêu (objective): dựa trên sự thống kê và các cấu
trúc của các mẫu
Vd: dựa trên các giá trị độ hỗ trợ (support),
(support) độ tin cậy
(confidence)
Dựa trên chủ quan (subjective): dựa trên sự tin cậy của người
dùngg đối với dữ liệu
Vd: sự ngạc nhiên, sự mới mẻ, … đối với người dùng

21
Đánh giá mức độ quan trọng của mẫu
Mức độ đơn giản (Simplicity)
Độ dài của các luật kết hợp
Kích thước của cây quyết định học được
Mức độ tin cậy

y (Certainty/Confidence)
( y )
Độ tin cậy (confidence) của các luật kết hợp
Độ chính xác của phân lớp học được
Mức độ tiện ích (Utility): khả năng hữu ích của mẫu
Độ hỗ trợ của các luật kết hợp
Ngưỡng nhiễu đối với phân lớp học được
Tính mới mẻ (Novelty): mẫu mới, chưa bao giờ được

biết đến

22
Tìm tất cả các mẫu quan trọng?
Tìm tất cả các mẫu quan trọng: Tính hoàn chỉnh
(completeness)
Một hệ thống khai phá dữ liệu có thể tìm được tất cả các mẫu
quan trọng không?
Chúng
g ta có cần phải
p tìm tất cả các mẫu q ọ g không?
quan trọng g
Tìm kiếm vét cạn (exhaustive) vs. heuristic
Chỉ tìm các mẫu q ọ g Bài toán tối ưu

quan trọng:
Một hệ thống khai phá dữ liệu có thể tìm chỉ các mẫu quan trọng?
Các phương pháp
mẫu, sau đó loại bỏ đi các
Trước hết cứ sinh (tìm) ra tất cả các mẫu
mẫu không quan trọng
(Trong quá trình khai phá dữ liệu) Chỉ sinh ra các mẫu quan
trọng

23
Hiển thịị các mẫu tìm được
ợ
Các người dùng khác nhau, các mục đích sử dụng khác
nhau sẽ yêu cầu các dạng hiển thị khác nhau đối với các
ẫ tìm
mẫu tì được
đ
Hiển thị bằng: các luật, các bảng, biểu đồ so sánh, …
Phân cấp khái niệm

Tri thức khám phá được có thể sẽ dễ hiểu hơn khi được biểu diễn
ở mức khái quát hóa cao hơn
Sự phân cấp khái niệm cho phép nhìn (xét) dữ liệu theo các cách
nhìn
hì khác
khá nhau
h
Các kiểu tri thức khác nhau đòi hỏi các cách biểu diễn
khác nhau ((đối với các mẫu tìm được)
ợ )
Luật kết hợp
Phân lớp,
Phân cụm
…
24
DM: Các ứng
g dụng
ụ g tiềm năng
g
Phân tích dữ liệu và hỗ trợ quyết định
Phân tích và quản lý thị trường
Quảng cáo cá nhân (target marketing), quản lý quan hệ khách
hàng (CRM), phân tích giỏ hàng, bán hàng liên quan (cross-
selling), phân chia thị trường
Phân tí
Phâ tích
h và ả lý rủi
à quản ủi ro
Dự đoán, giữ khách hàng, phân tích cạnh tranh
Phát hiện gian lận và phát hiện các mẫu bất thường (outliers)
Các ứng dụng khác

Khai phá văn bản (nhóm tin – news group, email, tài liệu)
Khai phá Web
Khai phá dữ liệu luồng (chuỗi)
Phân tích dữ liệu sinh học và tin sinh

25
Ứng dụng: Phân tích thị trường (1)
Nguồn của dữ liệu từ đâu?
Các giao dịch sử dụng thẻ tín dụng, các thẻ khách hàng thường
xuyên,
ê cácá phiếu
hiế giảm
iả giá,
iá các ộ gọii phàn
á cuộc hà nàn ủ khá
à của kháchh
hàng
Quảng
g cáo cá nhân ((Target
g marketing)
g)
Tìm ra (xác định) những nhóm khách hàng “mẫu” có cùng các đặc
điểm về sở thích, mức thu nhập, thói quen chi tiêu, …
Xác định các mẫu (kiểu) chi trả/mua bán thường xuyên
Phân tích thị trường (Cross-market analysis)

Tìm ra các mối liên kết/tương quan giữa các sản phẩm bán ra
(hoặc giữa các đợt bán hàng), để đưa ra các dự đoán
Lập hồ sơ khách hàng (Customer profiling)

Những kiểu khách hàng nào mua những mặt hàng nào (phân
nhóm, hoặc phân loại)

26
Ứng dụng: Phân tích thị trường (2)
Phân tích yêu cầu khách hàng
Xác định các sản phẩm phù hợp nhất cho các nhóm khách hàng
khác nhau
Dự đoán những yếu tố nào sẽ thu hút được các khách hàng mới
ấ những thông tin tóm tắt

Cung cấp ắ
Các báo cáo tóm tắt theo nhiều chiều (yếu tố)
Các thông tin thống kê (xu hướng
hướng, dịch chuyển)

27
Ứng
g dụng:
ụ g QQuản lý
ý rủi ro
Lập kế hoạch tài chính và đánh giá tài sản
Phân tích và dự đoán luồng tiền mặt
Phân tích các tuyên bố tài chính của doanh nghiệp để đánh giá tài
sản
Phân tích các chuỗi dữ liệu tài chính
Lập kế hoạch sử dụng tài nguyên

Tóm tắt và so sánh các tài nguyên và sự khai thác (sử dụng)
Cạnh tranh trong kinh doanh

Theo dõi các đối thủ cạnh tranh trong kinh doanh và các xu
hướng của thị trường
Nhóm các khách hàng theo từng lớp, và định giá cho từng lớp
Xây dựng chiến lược giá trong một thị trường cạnh tranh cao

28
Ứng
g dụng:
ụ g Phát hiện
ệ ggian lận
ậ
Các phương pháp: Phân cụm và xây dựng mô hình dự
đoán gian lận, phân tích ngoại lai (outlier)
Các ứng dụng: Chăm sóc sức khỏe, bán lẻ, các dịch vụ
sử dụng thẻ tín dụng, viễn thông
ể ô-tô: “kịch bản” một chuỗi
Bảo hiểm ỗ các va chạm
Rửa tiền: các giao dịch chuyển tiền đáng ngờ
Bảo hiểm y tế: sự móc nối giữa bệnh nhân và bác sỹ
sỹ, các xét
nghiệm không cần thiết
Viễn thông: các kiểu cuộc gọi bất thường
Công nghiệp bán lẻ: phát hiện các người làm thuê gian lận
Chống khủng bố

29
DM: Các vấn đề thách thức
Tính hiệu quả (efficiency) và tính ổn định (scalability) của các
giải thuật khai phá dữ liệu
Các phương pháp
Cá á khai phá ệ song song, phân tán, luồng
á dữ liệu ồ
(stream), và tăng cường (incremental)
Xử lý với dữ liệu có số chiều (số thuộc tính) lớn
Xử lý với dữ liệu chứa nhiễu (lỗi), không chắc chắn, không
hoàn chỉnh
Đưa (tích hợp) vào quá trình khai phá dữ liệu các ràng buộc
buộc, tri
thức chuyên gia, tri thức nền tảng (background knowledge)
Đánh giá mẫu và tích hợp tri thức
Khaii phá
Kh há các
á kiể
kiểu dữ liệu ất khác
liệ rất khá nhau
h (dữ liệu
liệ tin
ti sinh,
i h WWeb,
b
mạng thông tin,…)
Tích hợp khai phá dữ liệu vào các thiết bị hoạt động
Bảo đảm tính an ninh, toàn vẹn, riêng tư trong khai phá dữ liệu
30

L1-Gioi Thieu Khai Pha Du Lieu

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

L1-Gioi Thieu Khai Pha Du Lieu

Uploaded by

Copyright:

Available Formats

Khai Phá Dữ Liệu

Nguyễn Nhật Quang

Viện Công nghệ Thông tin và Truyền thông

 Giới thiệu về Khai phá dữ liệu

Khai Phá Dữ Liệu

 Các tên gọi khác

 Khai phá dữ liệu khác với…

Khai Phá Dữ Liệu

Data Warehouse Selection

Databases (Han and Kamber - Data mining: Concepts and Techniques)

Khai Phá Dữ Liệu

Input Data Data Pre- Data Post-

Data integration Pattern discovery Pattern evaluation

 Đây là cách nhìn của giới nghiên cứu về học máy và

Graphical User Interface

data cleaning, integration, and selection

Data World-Wide Other Info

Khai Phá Dữ Liệu

Data Presentation Business

Data Preprocessing/Integration, Data Warehouses

Khai Phá Dữ Liệu

 Các kỹ thuật được sử dụng

 Các ứng dụng (bài toán) thực tế

Khai Phá Dữ Liệu

 Công nghệ khối dữ liệu (data cube)

 Mô tả khái niệm theo nhiều chiều: Sự đặc trưng và sự

Khai Phá Dữ Liệu

Khai Phá Dữ Liệu

 Các phương pháp điển hình

 Các ứng dụng điển hình

 Phân tích ngoại lai (Outlier analysis/detection)

Khai Phá Dữ Liệu

 Khai phá các luồng dữ liệu

Khai Phá Dữ Liệu

Khai Phá Dữ Liệu

 Mức độ tin cậy

 Tính mới mẻ (Novelty): mẫu mới, chưa bao giờ được

Khai Phá Dữ Liệu

 Chỉ tìm các mẫu q ọ g Bài toán tối ưu

Khai Phá Dữ Liệu

 Phân cấp khái niệm

 Các ứng dụng khác

Khai Phá Dữ Liệu

 Phân tích thị trường (Cross-market analysis)

 Lập hồ sơ khách hàng (Customer profiling)

Khai Phá Dữ Liệu

 ấ những thông tin tóm tắt

Khai Phá Dữ Liệu

 Lập kế hoạch sử dụng tài nguyên

 Cạnh tranh trong kinh doanh

Khai Phá Dữ Liệu

Khai Phá Dữ Liệu

You might also like

Giới thiệu về Khai phá dữ liệu

Các tên gọi khác

Khai phá dữ liệu khác với…

Đây là cách nhìn của giới nghiên cứu về học máy và

Các kỹ thuật được sử dụng

Các ứng dụng (bài toán) thực tế

Công nghệ khối dữ liệu (data cube)

Mô tả khái niệm theo nhiều chiều: Sự đặc trưng và sự

Các phương pháp điển hình

Các ứng dụng điển hình

Phân tích ngoại lai (Outlier analysis/detection)

Khai phá các luồng dữ liệu

Mức độ tin cậy

Tính mới mẻ (Novelty): mẫu mới, chưa bao giờ được

Chỉ tìm các mẫu q ọ g Bài toán tối ưu

Phân cấp khái niệm

Các ứng dụng khác

Phân tích thị trường (Cross-market analysis)

Lập hồ sơ khách hàng (Customer profiling)

ấ những thông tin tóm tắt

Lập kế hoạch sử dụng tài nguyên

Cạnh tranh trong kinh doanh