You are on page 1of 43

Bài giảng môn học:

Khai phá dữ liệu (7080508)

CHƯƠNG 1: TỔNG QUAN


VỀ KHAI PHÁ DỮ LIỆU

08/2021
Nội dung chương 1

1.1 Tại sao phải khai phá dữ liệu?

1.2 Định nghĩa về khai phá dữ liệu

1.3 Các bước phát hiện tri thức

1.4 Ứng dụng trong khai phá dữ liệu

2
1. 1 Tại sao phải khai phá dữ liệu
Sự gia tăng bùng nổ của
dữ liệu: Từ mức độ
terabyter đến mức độ
petabytes
ü Thu thập dữ liệu và sự
tồn tại của dữ liệu
ü Các nguồn dữ liệu
phong phú
à Chúng ta bị tràn ngập trong
dữ liệu, nhưng lại thiếu tri thức
à KPDL: giúp tự động phân
1ch các tập dữ liệu rất lớn,
để phát hiện ra các tri thức
3
1.1 Tại sao phải khai phá dữ liệu

4
1.1 Tại sao phải khai phá dữ liệu

5
Dữ liệu lớn (Big Data) là gì?

• Dữ liệu lớn (Big Data) là thuật ngữ


sử dụng cho tập hợp các dữ liệu quá lớn và
phức tạp khiến cho việc xử lý các dữ liệu
này trở nên khó khăn khi sử dụng các kỹ
thuật quản lý dữ liệu truyền thống.
6
Đặc trưng của dữ liệu lớn:

+ Khối lượng (Volume): lượng dữ liệu được tạo ra


+ Tốc độ (Velocity): Tốc độ dữ liệu được
tạo ra và tốc độ chuyển đổi dữ liệu.
+ Đa dạng (Variety): Các kiểu dữ liệu
được sử dụng
+ Độ chính xác (Veracity): Độ tin cậy
của dữ liệu
+ Giá trị (Value): Giá trị của dữ liệu (Gartner.2014)

7
Các kiểu dữ liệu (Data type)
• Dữ liệu có cấu trúc (Structured)
• Dữ liệu phụ thuộc vào mô hình dữ liệu và nằm trong
một trường cố định trong một bản ghi.
• Lưu trữ trong cơ sở dữ liệu.

8
Các kiểu dữ liệu (Data type)
– Dữ liệu không cấu trúc (Unstructured)
• Dữ liệu không phụ thuộc vào mô hình dữ liệu vì nội dung theo
các ngữ cảnh, cách thức và ngôn ngữ khác nhau.
• Email.

9
Các kiểu dữ liệu (Data type)
– Dữ liệu bán cấu trúc (Semi-Structured)
• Bao gồm dữ liệu có cấu trúc và không có cấu trúc.
• XML dữ lieu, file JSON

10
Tập dữ liệu
+ Một tập dữ liệu (dataset) là một tập
hợp các đối tượng (objects) và các
thuộc <nh của chúng
+ Mỗi thuộc dnh (aeribute) mô tả
một đặc điểm của một đối tượng
Vd: Các thuộc <nh Refund, Marital
Status, Taxable Income, Cheat
Một tập các giá trị của các thuộc <nh
mô tả một đối tượng
Khái niệm “đối tượng” còn được
tham chiếu đến với các tên gọi khác:
bản ghi (record), điểm dữ liệu (data
point), trường hợp (case), mẫu
(sample), thực thể (enWty), hoặc ví dụ
(instance) 11
Các kiểu tập dữ liệu
Bản ghi (Record)
+ Các bản ghi trong csdl quan hệ
+ Ma trận dữ liệu
+ Biểu diễn văn bản (document)
+ Dữ liệu giao dịch
Đồ thị (Graph)
+ World Wide Web
+ Mạng thông tin, hoặc mạng xã hội
+ Các cấu trúc phân tử (Molecular
structures)
Có trật tự (Ordered)
+ Dữ liệu không gian (vd: bản đồ)
+ Dữ liệu thời gian (vd: time-series data)
+ Dữ liệu chuỗi (vd: chuỗi giao dịch)
+ Dữ liệu chuỗi di truyền (genetic
sequence data)
12
Data – InformaNon - Knowledge
• Dữ liệu Data: là các yếu tố thô, chưa được xử lý, bao gồm: văn bản, số liệu, ký
hiệu, hình ảnh, âm thanh,…
• Thông Hn InformaTon là dữ liệu đã được xử lý để đáp ứng yêu cầu của
người dùng

• Tri thức/kiến thức: Knowledge: bao gồm


những dữ kiện, thông Hn, sự
mô tả hay kĩ năng có được
nhờ trải nghiệm hay thông
qua giáo dục.

13
1.2. Định nghĩa về khai phá dữ liệu
Định nghĩa về tri thức
Tri thức bao gồm những dữ kiện, thông Wn, sự mô tả, hay kỹ
năng có được nhờ trải nghiệm hay thông qua giáo dục. Sự hình
thành của tri thức liên quan đến những quá trình nhận thức,
khám phá và học hỏi của mỗi người.

14
1.2. Định nghĩa về khai phá dữ liệu
Định nghĩa Khai phá dữ liệu
Khai phá dữ liệu (đôi khi còn gọi là khám phá tri thức) là một
qua trình phân <ch dữ liệu theo nhiều khía cạnh và tổng hợp nó
lại để có được thông Wn hữu ích hay tri thức. Như vậy có thể coi
nó là bước quan trọng nhất trong quá trình phát hiện tri thức.

15
1.2. Định nghĩa về khai phá dữ liệu
Định nghĩa Khai phá dữ liệu
Theo J.Han và M.Kamber (2006) Data
Mining Concepts and Techniques,
Elsevier Inc, 2006.
Quan niệm 1:
Khai phá dữ liệu (Data Mining) là quá
trình trích chọn ra tri thức từ trong một
tập hợp rất lớn dữ liệu.
Khai phá dữ liệu = Phát hiện tri thức từ
dữ liệu (KDD: Knowledge Discovery
From Data).
Quan niệm 2:
Khai phá dữ liệu (Data Mining) chỉ là
một bƣớc quan trọng trong quá trình
phát hiên tri thức từ dữ liệu (KDD).
16
1.2. Định nghĩa về khai phá dữ liệu
Định nghĩa Khai phá dữ liệu
Hà Quang Thụy và các tác giả (2009) Giáo trình Khai phá
dữ liệu Web, NXB Giáo dục, 2009
Khái niệm: Phát hiện tri thức trong cơ sở dữ liệu (đôi khi
còn đƣợc gọi là khai phá dữ liệu) là một quá trình không
tầm thường nhằm phát hiện ra những mẫu có giá trị, mới,
hữu ích tiềm năng và có thể thể hiểu được từ dữ liệu.

17
1.2. Định nghĩa về khai phá dữ liệu
Định nghĩa Khai phá dữ liệu
Khai phá dữ liệu Là quá trình tính toán để tìm ra các mẫu
trong các bộ dữ liệu lớn liên quan đến các phương pháp
tại giao điểm của máy học, thống kê và các hệ thống cơ
sở dữ liệu (Wikipedia)

18
1.3. Các bước phát hiện tri thức
Cách nhìn của giới nghiên về dữ liệu

19
1.3. Các bước phát hiện tri thức
Đây là cách nhìn của giới nghiên cứu học máy và thống kê

20
1.3. Các bước phát hiện tri thức
1. Tìm hiểu lĩnh vực của bài toán (ứng dụng)
Các mục đích của bài toán, các tri thức cụ thể của lĩnh vực
2. Tạo nên (thu thập) một tập dữ liệu phù hợp
3. Làm sạch và pền xử lý dữ liệu
4. Giảm kích thước của dữ liệu, chuyển đổi dữ liệu
Xác định các thuộc <nh quan trọng, giảm số chiều (số thuộc <nh),
biểu diễn bất biến
5. Lựa chọn chức năng khai phá dữ liệu
Tóm tắt hóa (summarizaWon), phân loại/phân lớp, hồi quy/dự
đoán, kết hợp, phân cụm
6. Lựa chọn/Phát triển (các) giải thuật khai phá dữ liệu phù hợp
7. Tiến hành quá trình khai phá dữ liệu
8. Đánh giá mẫu thu được và biểu diễn tri thức
Hiển thị hóa, chuyển đổi, bỏ đi các mẫu dư thừa, ...
9. Sử dụng các tri thức được phát hiện 21
1.3. Các bước phát hiện tri thức
1 Lựa chọn (Selecpon)
Khởi tạo tập dữ liệu đích liên quan
đến tri thức muốn phát
hiện
2 Tiền xử lý (Preprocessing)
Tìm các đặc trưng hữu dụng, rút
gọn chiều/biến,
3 Chuyển đổi (Transformapon)
Xem xét các khía cạnh khác nhau
của dữ liệu
4 Khai phá dữ liệu (Data Mining) *
5 Giải thích/Đánh giá
(InterpretaWon/EvaluaWon)

22
1.3. Các bước phát hiện tri thức
4 Khai phá dữ liệu (Data Mining) *
vLựa chọn chức năng của ứng dụng :
phân lớp, hồi quy, phân cụm, phân
hạng (ranking)
v Lựa chọn thuật toán tương ứng
từng chức năng
v Tìm mẫu (pa‚ern) thích hợp tương
ứng chức năng để giải thích/đánh
giá thường có <nh chất sau :
Tính hiểu được
Tính so sánh
Tính phát hiện tri thức

23
Ví dụ phát hiện tri thức

24
Ví dụ phát hiện tri thức

25
Ví dụ phát hiện tri thức

26
Ví dụ phát hiện tri thức

27
Ví dụ phát hiện tri thức

28
Ví dụ phát hiện tri thức

29
Ví dụ phát hiện tri thức

30
1.4. Ứng dụng trong khai phá dữ liệu
Ø Phân <ch dữ liệu tài chính (Financial Data Analysis)
Ø Công nghiệp bán lẻ (Retail Industry)
Ø Công nghiệp viễn thông (TelecommunicaWon Industry)
Ø Phân <ch dữ liệu sinh học (Biological Data Analysis)
Ø Phát hiện xâm nhập (Intrusion DetecWon)

31
1.4. Ứng dụng trong khai phá dữ liệu
Ø Phân Xch dữ liệu tài chính (Financial Data Analysis)
ü Dự đoán khả năng vay và thanh toán của khách
hàng, phân tích chính sách tín dụng đối với khách
hàng.
ü Phân tích hành vi khách hàng (vay, gửi tiền)
ü Phân loại và phân nhóm khách hàng mục tiêu cho tiếp
thị tài chính
ü Phát hiện các hoạt động rửa tiền và tội phạm tài chính
khác

32
1.4. Ứng dụng trong khai phá dữ liệu
Ø Công nghiệp bán lẻ (Retail Industry)
ü Khai phá dữ liệu trên kho dữ liệu khách hàng
ü Phân tích đa chiều trên kho dữ liệu khách hàng
về doanh số bán hàng, khách hàng, sản phẩm, thời
gian và khu vực.
ü Phân tích hiệu quả của các chiến dịch bán hàng,
Marketing.
ü Quản trị mối quan hệ khách hàng (CRM).
ü Giới thiệu và tư vấn sản phẩm phù hợp cho khách
hàng

33
1.4. Ứng dụng trong khai phá dữ liệu
Ø Công nghiệp viễn thông (TelecommunicaTon Industry)
ü Phân tích dữ liệu đa chiều viễn thông.
ü Xây dựng các mô hình phát hiện gian lận.
ü Phát hiện bất thường trong giao dịch viễn thông.
ü Phân tích hành vi sử dụng dịch vụ viễn thông của khách
hàng
ü Sử dụng các công cụ trực quan trong phân tích dữ liệu
viễn thông

34
1.4. Ứng dụng trong khai phá dữ liệu
Ø Phân Xch dữ liệu sinh học (Biological Data Analysis)
Khai phá dữ liệu sinh học là một phần rất quan trọng của lĩnh
vực Tin -Sinh học(Bioinformatics). Sau đây là một số ứng
dụng của khai phá dữ liệu ứng dụng trong sinh học:
ü Lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ
sở dữ liệu Gen.
ü Xây dựng mô hình khai phá các mạng di truyền và cấu
trúc của Gen, protein
ü Xây dựng các công cụ trực quan trong phân tích dữ
liệu di truyền.

35
1.4. Ứng dụng trong khai phá dữ liệu
Ø Phát hiện xâm nhập (Intrusion DetecTon)
Phát triển các thuật toán khai phá dữ liệu để phát hiện xâm
nhập.
ü Phân tích kết hợp, tương quan và khác biệt để phát
hiện xâm nhập
ü Phân tích dòng dữ liệu dữ liệu (Analysis of Stream
data) để phát hiện bất thường.

36
1.4. Ứng dụng trong khai phá dữ liệu
Phân Vch dữ liệu và hỗ trợ quyết định
ü Phân Xch và quản lý thị trường
- Quảng cáo cá nhân (target markeJng), quản lý
quan hệ khách hàng (CRM), phân 1ch giỏ hàng, bán
hàng liên quan (crossselling), phân chia thị trường
ü Phân Xch và quản lý rủi ro
- Dự đoán, giữ khách hàng, phân 1ch cạnh tranh
ü Phát hiện gian lận và phát hiện các mẫu bất
thường (outliers)

37
Phân Kch và quản lý thị trường
Nguồn của dữ liệu từ đâu?
+ Các giao dịch sử dụng thẻ <n dụng, các thẻ khách hàng
thường xuyên, các phiếu giảm giá, các cuộc gọi phàn nàn của
khách hàng
+ Quảng cáo cá nhân (Target markeWng)
+ Tìm ra (xác định) những nhóm khách hàng “mẫu” có cùng các
đặc điểm về sở thích, mức thu nhập, thói quen chi Wêu, …
+ Xác định các mẫu (kiểu) chi trả/mua bán thường xuyên
+ Phân <ch thị trường (Cross-market analysis)
+ Tìm ra các mối liên kết/tương quan giữa các sản phẩm bán ra
(hoặc giữa các đợt bán hàng), để đưa ra các dự đoán
+ Lập hồ sơ khách hàng (Customer profiling)
+ Những kiểu khách hàng nào mua những mặt hàng nào (phân
nhóm, hoặc phân loại)
38
Phân Kch và quản lý thị trường
+ Phân 1ch thị trường (Cross-market analysis)
+ Tìm ra các mối liên kết/tương quan giữa các sản
phẩm bán ra (hoặc giữa các đợt bán hàng), để đưa ra
các dự đoán
+ Lập hồ sơ khách hàng (Customer profiling)
+ Những kiểu khách hàng nào mua những mặt hàng
nào (phân nhóm, hoặc phân loại)

39
Phân Kch và quản lý rủi ro
+ Lập kế hoạch tài chính và đánh giá tài sản
+ Phân <ch và dự đoán luồng Wền mặt
+ Phân <ch các tuyên bố tài chính của doanh nghiệp để đánh giá
tài sản
+ Phân <ch các chuỗi dữ liệu tài chính
+ Lập kế hoạch sử dụng tài nguyên
+ Tóm tắt và so sánh các tài nguyên và sự khai thác (sử dụng)
+ Cạnh tranh trong kinh doanh
+ Theo dõi các đối thủ cạnh tranh trong kinh doanh và các xu
hướng của thị trường
+ Nhóm các khách hàng theo từng lớp, và định giá cho từng lớp
+ Xây dựng chiến lược giá trong một thị trường cạnh tranh cao

40
Phân Kch trong phát hiện gian lận
+ Các phương pháp: Phân cụm và xây dựng mô hình
dự đoán gian lận, phân 1ch ngoại lai (outlier)
+ Các ứng dụng: Chăm sóc sức khỏe, bán lẻ, các dịch
vụ sử dụng thẻ 1n dụng, viễn thông
+ Bảo hiểm ô-tô: “kịch bản” một chuỗi các va chạm
+ Rửa Jền: các giao dịch chuyển Jền đáng ngờ
+ Bảo hiểm y tế: sự móc nối giữa bệnh nhân và bác sỹ,
các xét nghiệm không cần thiết
+ Viễn thông: các kiểu cuộc gọi bất thường
+ Công nghiệp bán lẻ: phát hiện các người làm thuê
gian lận
+ Chống khủng bố
41
Thảo luận

Hãy nêu một vài bài toán thực tế


xung quanh bạn có thể áp dụng khai
phá dữ liệu để Vm ra được tri thức

42
Những kiến thức cần trang bị?

43

You might also like