You are on page 1of 71

KHAI PHÁ DỮ LIỆU

Bài 2. Tiền xử lý dữ liệu


Giáo viên: TS. Trần Mạnh Tuấn
Bộ môn: Hệ thống thông tin
Khoa: Công nghệ thông tin
Email: tmtuan@tlu.edu.vn
Điện thoai: 0983.668.841
1
Nội dung

1 Tổng quan về giai đoạn tiền xử lý dữ liệu

2 Tóm tắt mô tả về dữ liệu

3 Làm sạch dữ liệu

4 Tích hợp dữ liệu

5 Biến đổi dữ liệu

6 Thu giảm dữ liệu

7 Rời rạc hóa dữ liệu


8 Tạo cây phân cấp ý niệm
2
Tổng quan về giai đoạn tiền xử lý dữ liệu

Tình huống KPDL giáo dục

3
Tổng quan về giai đoạn tiền xử lý dữ liệu

Tình huống KPDL giáo dục

4
Tổng quan về giai đoạn tiền xử lý dữ liệu

5
Tổng quan về giai đoạn tiền xử lý dữ liệu

6
Tổng quan về giai đoạn tiền xử lý dữ liệu

7
Tổng quan về giai đoạn tiền xử lý dữ liệu

8
Tổng quan về giai đoạn tiền xử lý dữ liệu

9
Tổng quan về giai đoạn tiền xử lý dữ liệu

10
Tóm tắt mô tả về dữ liệu

11
Tóm tắt mô tả về dữ liệu

12
Tóm tắt mô tả về dữ liệu

13
Tóm tắt mô tả về dữ liệu

14
Tóm tắt mô tả về dữ liệu

15
Tóm tắt mô tả về dữ liệu

16
Tóm tắt mô tả về dữ liệu

17
Tóm tắt mô tả về dữ liệu

18
Làm sách dữ liệu

19
Làm sách dữ liệu

20
Làm sách dữ liệu

21
Làm sách dữ liệu

22
Làm sách dữ liệu

23
Làm sách dữ liệu

24
Làm sách dữ liệu

25
Làm sách dữ liệu

26
Làm sách dữ liệu

27
Làm sách dữ liệu

28
Làm sách dữ liệu

29
Làm sách dữ liệu

30
Tích hợp dữ liệu

31
Tích hợp dữ liệu

32
Tích hợp dữ liệu

33
Tích hợp dữ liệu

34
Tích hợp dữ liệu

35
Tích hợp dữ liệu

36
Tích hợp dữ liệu

37
Tích hợp dữ liệu

38
Tích hợp dữ liệu

39
Tích hợp dữ liệu

40
Biến đổi dữ liệu

41
Biến đổi dữ liệu

42
Biến đổi dữ liệu

43
Biến đổi dữ liệu

44
Biến đổi dữ liệu

45
Biến đổi dữ liệu

46
Biến đổi dữ liệu

47
Biến đổi dữ liệu

48
Biến đổi dữ liệu

49
Thu giảm dữ liệu

50
Thu giảm dữ liệu

51
Thu giảm dữ liệu

52
Thu giảm dữ liệu

53
Thu giảm dữ liệu

54
Thu giảm dữ liệu

55
Thu giảm dữ liệu

56
Thu giảm dữ liệu

57
Thu giảm dữ liệu

58
Thu giảm dữ liệu

59
Rời rạc hoá dữ liệu

60
Rời rạc hoá dữ liệu

61
Rời rạc hoá dữ liệu

62
Tạo cây Ý niệm

63
Tạo cây Ý niệm

64
Tạo cây Ý niệm

65
Tạo cây Ý niệm

66
Tổng kết
Xây dựng và đánh giá các mô hình KPDL

➢ XD mô hình KPDL là một quá trình lặp.


➢ Cần phải khảo sát nhiều mô hình khác nhau để tìm ra mô
hình thích hợp.
➢ Mô hình có thể là cây quyết định, mạng nơ ron ...
➢ Việc lựa chọn mô hình sẽ ảnh hưởng đến giai đoạn chuẩn
bị dữ liệu.
➢ VD: mạng nơ ron yêu cầu các giá trị rõ ràng,….

67
Tổng kết
Xây dựng và đánh giá các mô hình KPDL

➢ XD mô hình KPDL đòi hỏi phải được kiểm thử chặt chẽ
nhằm đảm bảo tính chính xác và hiệu quả.
➢ Quá trình kiểm thử yêu cầu DL phải được chia làm hai phần,
phần đầu để XD mô hình, phần sau để kiểm thử.

68
Tổng kết
Triển khai mô hình và thu thập kết quả

➢ Dùng mô hình để tìm ra các mẫu có ý nghĩa dưới dạng biểu


diễn tương ứng với các ý nghĩa đó.
➢ Các mẫu này phải có khả năng sử dụng tiềm tàng, tức là sau
khi xử lý phải dẫn đến những hành động có ích nào đó, được
đánh giá bởi một hàm lợi ích.
▪ VD: trong dữ liệu các khoản vay, hàm lợi ích đánh giá khả
năng tăng lợi nhuận từ các khoản vay. Mẫu khai thác được
phải có giá trị với các DL mới với độ chính xác nào đó.

69
Tổng kết
Triển khai mô hình và thu thập kết quả

➢ Với các giải thuật và các nhiệm vụ của KPDL rất khác nhau,
các mẫu chiết xuất được cũng rất đa dạng.
➢ Mẫu chiết xuất được có thể là một mô tả xu hướng, một hành
động.
➢ Các mẫu có thể liên quan đến các giá trị của các trường trong
cùng một bản ghi, VD: Nếu độ ẩm 85% thì dự báo= trời mưa.
➢ Các mẫu cũng có thể liên quan đến các giá trị tổng hợp từ một
nhóm các bản ghi. VD như các khách hàng lớn tuổi thường
thích mua quần áo mầu xám
70
Trao đổi, câu hỏi?

71

You might also like