You are on page 1of 173

BÀI GIẢNG KHAI PHÁ DỮ LIỆU

Nội dung bổ sung về Khai phá dữ liệu

PGS. TS. Hà Quang Thụy


HÀ NỘI, 02-2022
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
http://uet.vnu.edu.vn/~thuyhq/

1
Nội dung
1. Học sâu
2. Học suốt đời
3. Khai phá quy trình

2
1. Học sâu

3
Công bố khoa học về học mạng nơron sâu

6/2/2
3

4
Sơ bộ về Trí tuệ nhân tạo
và học mạng nơ ron

5
Tổng quan về Trí tuệ nhân tạo
 Khái niệm
 Artificial Intelligence
 Hệ thống trí tuệ nhân tạo (Artificial intelligence
systems): con người, thủ tục, phần cứng, phần mềm,
dữ liệu và tri thức cần thiết phát triển hệ thống máy
tính & máy liên quan nhằm minh họa đặc trưng của trí
thông minh
 Được ứng dụng ở hầu hết các công nghiệp.
 Tham khảo tuyển tập “Kinh tế số, trí tuệ nhân tạo,
chuyển đổi số và liên hệ với Việt Nam (Tuyển tập các
nghiên cứu liên quan của Phòng Thí nghiệm Khoa
học dữ liệu và Công nghệ Tri thức), tháng 12/2020")”
https://uet.vnu.edu.vn/~
thuyhq/PPNCKH/Tuyen-tap.pdf

6
Trí tuệ nhân tạo
 Nguyễn Thanh Thủy, Hà Quang Thụy, Phan Xuân Hiếu, Nguyễn
Trí Thành. Trí tuệ nhân tạo trong thời đại số: Bối cảnh thế giới và
liên hệ với Việt Nam. Tạp chí Công thương. Trực tuyến ngày
21/8/2018. http://
tapchicongthuong.vn/bai-viet/tri-tue-nhan-tao-trong-thoi-dai-so-b
oi-canh-the-gioi-va-lien-he-voi-viet-nam-55038.htm

 .
 .

7
Hai trường phái Trí tuệ nhân tạo

8
Trường phái TTNT: các HT ví dụ

9
Cây TTNT: Nền tảng, công nghệ và ứng dụng

liên lĩnh vực


[Sharda19] Ramesh Sharda, Dursun Delen, Efraim Turban. Analytics, Data Science, & Artificial
Intelligence: Systems for Decision Support (11th Edition). Pearson, 2019.
10
Cây TTNT: Nền tảng, công nghệ và ứng dụng

liên lĩnh vực


[Sharda19] Ramesh Sharda, Dursun Delen, Efraim Turban. Analytics, Data Science, & Artificial
Intelligence: Systems for Decision Support (11th Edition). Pearson, 2019.
11
Các thành phần của trí tuệ nhân tạo

 Mạng nơ ron: đồ thị tính toán gồm các đơn vị cơ bản (nơ ron nhân
tạo) tạo sức mạnh lớn hơn nhờ kết nối chúng theo những cách đặc biệt
 Mô phỏng kết nối nơ ron con người qua hàng triệu năm

12
Lược sử TTNT và học máy mạng nơron

13
[Nguyen18] Nguyễn Thanh Thủy, Hà Quang Thụy, Phan Xuân Hiếu, Nguyễn Trí Thành. Trí tuệ
nhân tạo trong thời đại số: Bối cảnh thế giới và liên hệ với Việt Nam. Tạp chí Công
Thương: Các kết quả nghiên cứu khoa học và Ứng dụng công nghệ (ISSN 0866-7756).
Đăng trực tuyến từ ngày 21/08/2018.

6/2/2
3
[Kamath19] Uday Kamath, John Liu, James Whitaker. Deep Learning for NLP and Speech
Recognition. Springer, 2019.
Học mạng nơ ron: Mùa đông thứ hai
 Các sự kiện tiêu biểu [Kamath19]
 1992-1993: Bộ học sâu thứ nhất. Jürgen Schmidhuber.
Learning Complex, Extended Sequences Using the
Principle of History Compression. Neural Comput. 4(2):
234-242 (1992)
 1997: Long Short-Term Memory (LSTM)
 1998: Stochastic Gradient Descent (SGD)
 Mùa đông thứ hai
 87% thiết kế học mạng nơ ron (tạp chí chuyên về mạng
nơ ron) phạm sai lầm loại 1 (loại ví dụ đúng), sai lầm
loại 2 (nhận ví dụ sai) hoặc cả hai [Elder09].
 “quá khớp” dữ liệu mới.
[Raschka22] Sebastian Raschka. STAT 453: Introduction to Deep Learning and Generative
Models. http://stat.wisc.edu/~sraschka/teaching.
[Schmidhuber92] Jürgen Schmidhuber. Learning Complex, Extended Sequences Using the
Principle of History Compression. Neural Comput. 4(2): 234-242 (1992)
[Elder09] John Fletcher Elder, Robert Nisbet, Gary Miner. Handbook of statistical analysis and
data mining applications (1st edition). Elsevier, 2009.
14
Bùng nổ học sâu: Ba cột trụ
 Bùng nổ học sâu
 Thuật toán nòng cốt (lan truyền ngược, hàm mục tiêu,
tối ưu hóa hàm mục tiêu): không thay đổi đáng kể
 Kiến trúc: đồ thị tính toán, kiến trúc phức tạp
 Bùng nổ kiến trúc học sâu hiệu quả
 Ba cột trụ
 Bùng nổ dữ liệu, đặc biệt UGC (ví dụ, ảnh từ người sử
dụng. Nhiều miền ƯD: sẵn có các tập dữ liệu giàu có.
 Hệ thống tính toán: bộ XL CPU, GPU, TPU  FPGA,
ASIC  hệ thống (NVIDIA, v.v.). Phần mềm: mã nguồn
GitHub, công cụ: CUDA, khung TensorFlow, Keras,…
 Nỗ lực thực nghiệm: mức điều chỉnh tham số ví dụ+lô
nhỏ+ tập DLHL; tập DLHL được sử dụng nhiều lần
(epochs); huấn luyện dài: ngày/tuần/tháng. Sử dụng:
hàm tiền kích hoạt+kích hoạt đơn giản: nhanh
15
Mạng nơ ron nhân tạo và
học mạng nơ ron

16
Nơron nhân tạo: đơn vị tính toán

[Aggarwal18] Charu C. Aggarwal. Neural Networks and Deep Learning. A Textbook. Springer,
2018.

[Capra20] Maurizio Capra, Beatrice Bussolino, Alberto Marchisio, Guido Masera, Maurizio
Martina, Muhammad Shafique. Hardware and Software Optimizations for Accelerating
Deep Neural Networks: Survey of Current Trends, Challenges, and the Road Ahead.
CoRR abs/2012.11233, 2020.

 Hàm tiền kích hoạt  “tổng” (đầy đủ, bộ phận) đầu vào có trọng số
 Hàm kích hoạt  nhận đối số là kết quả hàm tổng và cho giá trị đầu ra 17
Phân rã tiền kích hoạt và (hậu) kích hoạt

 Giá trị tiền kích hoạt (pre-activation value) , kết quả tính
toán hàm tiền kích hoạt, về phổ biến là tổng theo kết nối
đầy đủ, , tuy nhiên, có kết nối không đầy đủ
 Giá trị hậu kích hoạt (post-activation value) : kết quả tính
toán hàm hậu kích hoạt, , giá trị dự đoán của . Lựa chọn
hàm kích hoạt là rất quan trọng.
 Lợi ích phân rã: tiền kích hoạt + kích hoạt
 Lưu ý: mọi lớp ẩn dùng chung một hàm kích hoạt
18
Các hàm kích hoạt phổ biến
 định danh (hàm tuyến tính): ,
nút đầu ra: giá trị thực (hồi quy tuyến tính).
 dấu: , nút đầu ra: giá trị nhị phân (phân lớp nhị
phân).
 sigmoid:,
nút đầu ra: một xác suất (hồi quy logistic),
tạo hàm mất mát cực đại khả năng.
 tanh:, nút đầu ra: giá trị cả dương/âm phù hợp hơn
sigmoid,
vi phân hướng tâm và lớn hơn sigmoid (hồi quy phi tuyến).
 Hàm tuyến tính tinh chỉnh (Rectified Linear Unit: ReLU): ,
 Hàm tanh cứng: .

19
Đồ thị hàm kích hoạt và đạo hàm

 ( 𝒙 ) =𝒙  ( 𝒙 ) =𝒔𝒊𝒈𝒏 ( 𝑥 )=
{
+1 𝑥≥0
−1 𝑥<0
1
 ( 𝒙 ) =sigmoid ( x )= −𝑥
1+𝑒

exp(− 𝑥)
𝜕𝜎
𝜕𝑥
=
0
≠0 { ∀ 𝑥 ≠0
𝑥=0
𝜕𝜎
=
𝜕𝑥 ( 1+exp(− 𝑥 ) )2
𝜕𝜎
=1
𝜕𝑥 Không liên tục, Thường được dùng làm
không phân biệt đươc, hàm kích hoạt, hiếm khi
hiếm làm hàm mất mát làm hàm tiền kích hoạt

 Hàm đạo hàm cung cấp độ dốc (gradient) trong học


mạng nơron: đạo hàm cần liên tục 20
Đồ thị hàm kích hoạt và đạo hàm (2)

.
𝟐𝒙
𝒆 −𝟏
 ( 𝒙 ) =𝒕𝒂𝒏𝒉 ( 𝒙 )= 𝟐𝒙  ( 𝒙 ) =𝒎𝒂𝒙 { 𝒙 ,𝟎 }
𝒆 +𝟏

𝜕  4 ∙ exp (2 𝑥 )
=
𝜕𝑥 ( exp ( 2𝑥 ) +1 )2
𝜕𝜎 1
𝜕𝑥
=
0{ ∀ 𝑥≥0
𝑥< 0
𝜕𝜎 1
𝜕𝑥
=
{0
∀ 𝑥 ∈ [ −1,1 ]
∀ 𝑥 ∉ [ −1 , 1 ]

ReLU và tanh cứng đa phần thay thế sigmoid và tanh mềm do


dễ dàng huấn luyện mạng nơron đa lớp hiện đại.
21
Hàm kích hoạt softmax cho đa đầu ra

 Hàm softmax cho đa đầu ra:


, đa () đầu ra tương ứng với lớp (phân lớp đa lớp). là
giá trị tiền kích hoạt.

22
Hàm tiền kích hoạt
Mạng LeNet-5 có 6 lớp ẩn

 Kết nối
 Đầy đủ: Mọi nút lớp trước kết nối mọi nút lớp tiếp theo. Trang trước
 Không đầy đủ: bộ phận lớp trước kết nối bộ phận lớp tiếp theo. Đặc
biệt, mạng nơron tích chập: convolutional neural network. Mạng
LeNet-5 (đoán nhận ảnh mười chữ số {0, 1, 2, …, 9}). Tối thiểu rủi
ro quá khớp khi kết hợp thông tin chi tiết / thiên vị cho miền cụ thể
 Dạng hàm
 Phổ biến: Tính tổng theo trọng số kết nối.
 Cá biệt: đa dạng toán tử như tích chập, lấy mẫu con, v.v. LeNet-5 23
Hàm mất mát
 “Hàm mất mát” (lost function) rất quan trọng, nhạy cảm
với ứng dụng
 Hai kiểu hàm mất mát
o “Bình phương lỗi” đơn giản: cho một thể hiện, cho
tập dữ liệu học.
o “entropy chéo”: giảm độ khác biệt hai biến ngẫu nhiên “quan sát”
và “dự báo”:; entropy của ; phân kỳ KL .
 “Mất mát lề” (hinge lost)
 Trường hợp dự đoán xác suất
o hồi quy nhị phân: với thực tế, dự đoán,
o phân lớp đa lớp: , XS dự đoán nhãn (liên hệ PL
Bayes Naïve)

24
Học mạng Perceptron

25
Mạng perceptron cơ bản

 Giới thiệu
 Perceptron cơ bản phân lớp nhị phân. “Đơn lớp”: lớp “đầu ra”
 Một thể hiện huấn luyện , ,
 Đầu vào mạng: , tham số , đầu ra
 Hàm tiền kích hoạt (hàm tuyến tính) toàn bộ:  =
 Hàm kích hoạt là hàm dấu
 Mô hình dự báo: = ()
 Mạng bổ sung nơron thiên vị (“perceptron thiên vị”) ở hình bên phải.
Khi đó = () ; Mất cân bằng dữ liệu.
26
Học mạng perceptron cơ bản
 Bài toán học
 Cho tập ví dụ huấn luyện
 Lỗi dự đoán một thể hiện là .
 Khi lỗi dự đoán  0: cần điều chỉnh giá trị tham số
thường theo tiếp cận hướng “âm” độ dốc lỗi (gradient
descent).
 Vấn đề : Tìm tập giá trị tham số để bộ phân lớp nhị
phân perceptron đạt hiệu năng cao nhất  cực tiểu lỗi
dự báo trong toàn bộ  tối ưu hóa một hàm mục tiêu
(hàm mất mát)
 Tiếp cận “độ dốc lỗi”: Hàm mục tiêu cần là một hàm trơn
(khả vi)
 Mất mát “lề” và “tiêu chí perceptron”

27
Hàm mất mát trong perceptron cơ bản
 Bài toán học
 “Hàm mất mát” (lost function) “bình phương tối thiểu”:
=;
hàm L dạng “cầu thang”, không khả vi, khó sử dụng
 Ngầm định xấp xỉ trơn độ dốc hàm mục tiêu:

 Điều chỉnh theo điểm/(lô nhỏ) dữ liệu:


; hoặc ; : tỷ lệ học.
; lô nhỏ dữ liệu
 Dữ liệu thuộc được lặp lại một số lần, mỗi lần là “thế hệ”
epoch

28
Mất mát lề và Tiêu chí Perceptron

 Tiêu chí perceptron


 Hàm kích hoạt định danh (tuyến tính)
 Hàm mất mát cần trơn theo giá trị tiền kích hoạt
 Hàm mất mát lề không trơn tại điểm 1
 Thay bằng hàm tiêu chí perceptron: trơn tại mọi điểm (kể
cả điểm 0)
 Hàm kích hoạt là hàm trơn và hợp từ tiêu chí perceptron
29
Perceptron và học máy cơ bản

 Hầu hết mô hình học máy cơ bản được biểu diễn bằng
mạng nơ ron đơn giản
30
Học mạng nơ ron đa lớp

31
Mạng perceptron đa lớp

 Hàm mất mát và cập nhật trọng số


 : Tìm véc tơ : > mọi , rc(i)
 Hàm mất mát:
 Thể hiện phân lớp đúng: không cập nhật, ngược lại cập nhật véc tơ
theo giảm độ dốc (: tỷ lệ học)
 Độ dốc:
 Cập nhật

32
Chiều sâu thay cho chiều rộng
 Đặt vấn đề
 Mạng nơ ron hai lớp: công cụ xấp xỉ hàm phổ quát đòi
hỏi lượng rất lớn đơn vị ẩn trong lớp ẩn
 Mạng nơ ron sâu (nhiều lớp) hơn đòi hỏi ít đơn vị ẩn
hơn, hàm hợp làm tăng độ mạnh của mạng.
 Mạng sâu
 Là một hình thức chính quy hóa
 Đặc trưng lớp sau được áp đặt từ lớp trước làm giảm
kích thước mạng.
 Số lượng tham số tổng cộng nhỏ hơn nhiều so với mạng
hai lớp cùng hiệu năng.
 Mạng nơ ron sâu ít vấn đề quá khớp
 Thách thức khác: triệt tiêu – bùng nổ độ dốc, độ phức tạp
tính toán, các thách thức khác

33
Mạng nơron sâu

 Khái niệm
 Có nhiều lớp: ngoài lớp đầu ra còn các lớp ẩn. Lưu ý, “lớp
đầu vào” (tuyền dữ liệu) không được coi là “lớp”
 Thiên vị hoặc không thiên vị
 Ví dụ: một đầu ra
34
Biểu diễn trọng số kết nối

 Biểu diễn trọng số kết nối


 Kết nối vô hướng: đơn vị tính toán là biến đơn
 Kết nối “ma trận”: đơn vị tính toán là đơn vị vector.
Học sâu  biến đổi ma trận

35
Mạng nơron sâu đa đầu ra

 Lớp đầu ra
 Đa đầu ra (k lớp) sử dụng hàm softmax: lớp softmax

36
Học sâu và hiệu năng của học sâu

 Học sâu
 Thêm các lớp ẩn (lớp đầu vào không được coi là một “lớp”). Mạng
truyền thẳng (feed-forward network). Các lớp ẩn:
o số lượng các nút có thể khác nhau,
o hàm tiền kích hoạt có thể khác nhau
o kết nối: đầy đủ và không đầy đủ
 Hiệu năng học sâu và học truyền thống
 Học truyền thống: ít dữ liệu  học sâu: nhiều dữ liệu
 Một số tác vụ hẹp cụ thể: thuật toán học sâu vượt qua con người
 Đồ thị tính toán với kết nối đặc biệt tạo sức mạnh
 Cân bằng về Hàm kích hoạt: phi tuyến  mọi lớp ẩn cùng một hàm
37
Vai trò của hàm kích hoạt phi tuyến
 Định lý
 Một mạng đa lớp chỉ sử dụng hàm kích hoạt định danh trong tất cả
các lớp sẽ được rút gọn thành mạng một lớp thực hiện hàm hồi quy
tuyến tính
 mạng sâu phần lớn chỉ có ý nghĩa khi hàm kích hoạt trong các
lớp trung gian là phi tuyến

38
Thuật toán lan truyền ngược
 Giai đoạn tiến
 Các đầu vào cho một thể hiện huấn luyện được đưa vào mạng nơ-
ron: một loạt tính toán chuyển tiếp trên các lớp, sử dụng tập các
trọng số hiện tại.
 Đầu ra dự đoán cuối cùng có thể được so sánh với kết quả của thể
hiện huấn luyện và đạo hàm của hàm mất mát đối với đầu ra hiện
thời được tính toán.
 Đạo hàm của hàm mất mát hiện thời này cần được tính theo trọng
số ở tất cả các lớp trong giai đoạn lùi.

39
Thuật toán lan truyền ngược
 Giai đoạn lùi
 Mục tiêu chính: tìm và tính toán độ dốc của hàm mất mát đối với các
trọng số khác nhau theo luật chuỗi tính đạo hàm hàm hợp: phức tạp.
 Các độ dốc của hàm mất mát được dùng để cập nhật các trọng số.
Vì các độ dốc này được học theo hướng lùi và bắt đầu từ nút đầu ra:
giai đoạn lan truyền ngược.

40
Thuật toán lan truyền ngược

41
Đạo hàm triệt tiêu hoặc bùng nổ
 Lan truyền ngược: Dạng quy hoạch động
 Giai đoạn tiến: Một được đưa vào mạng. Tính theo tập
trọng số hiện tại, đạo hàm hàm mất mát theo và .
 Giai đoạn lùi: Tìm các độ dốc (đạo hàm) hàm mất mát để
cập nhật các trọng số; từ lớp đầu ra theo luật chuỗi.

theo một đường đi.


 Do tồn tại nhiều đường đi.


 Đạo hàm triệt tiêu hoặc bùng nổ  chuẩn hóa

42
Thuật toán quy hoạch động biến kích hoạt
 Sử dụng pha tiến để tính giá trị mọi nút ẩn, đầu ra , hàm mất mát
đối với ví dụ học đã cho có đầu vào và đầu ra .
 Khởi động .
 Sử dụng công thức đệ quy sau đây:

o để tính từng giá trị theo mỗi hướng quay lui, trong đó là hàm
kích hoạt của mạng nơ ron: . Sau mỗi tính toán như vậy, tính
đạo hàm theo các trọng số ẩn như sau:
o (*)
o Trong trường hợp có thiên vị ẩn, do thực tế là nơ ron thiên vị
luôn hoạt động với giá trị kích hoạt là nên chỉ cần gán khi tính
toán đạo hàm riêng của hàm mất mát theo thiên vị của nút trong
vế phải của (*).
 Sử dụng đạo hàm riêng của hàm mất mát theo các trọng số để thực
hiện việc giảm độ dốc theo thống kê đối với ví dụ học

43
Thuật toán q/h động biến tiền kích hoạt
 Sử dụng pha tiến để tính giá trị mọi nút ẩn, đầu ra , hàm mất mát
đối với ví dụ học đã cho có đầu vào và đầu ra .
 Khởi động , trong đó là hàm kích hoạt của mạng nơ ron: .
 Sử dụng công thức đệ quy sau đây:

o để tính từng giá trị theo mỗi hướng quay lui. Sau mỗi tính toán
như vậy, tính đạo hàm theo các trọng số ẩn như sau:
o (**)
o Trong trường hợp có thiên vị ẩn, do thực tế là nơ ron thiên vị
luôn hoạt động với giá trị kích hoạt là nên chỉ cần gán khi tính
toán đạo hàm riêng của hàm mất mát theo thiên vị của nút trong
vế phải của (**).
 Sử dụng đạo hàm riêng của hàm mất mát theo các trọng số để thực
hiện việc giảm độ dốc theo thống kê đối với ví dụ học

44
Giảm độ dốc
 Lưu ý
 Trường hợp hình là lý tưởng, về tổng thể hàm mất mát rất phức tạp
 Khởi tạo ngẫu nhiên dẫn đến các tham số ban đầu là khác nhau
trong mỗi lần học mạng nơ ron khác nhau: (i) giảm độ dốc có thể đạt
đến các cực tiểu khác nhau ở mỗi lần chạy (cực tiểu địa phương);
(ii) mạng nơ ron có thể tạo ra các đầu ra dự đoán khác nhau.
 không tốn tại một thuật toán chung đảm bảo đạt cực tiểu toàn cục
cho mọi hàm mất mát.

45
Giảm độ dốc: Tình huống sự cố

46
Ba giải pháp điển hình
 Giảm độ dốc với động lượng (Hình vẽ)
o và
 Giảm độ dốc với động lượng tăng tốc Nesterov
o và
 Ước tính thời điểm thích hợp Adam
o và ,
o và ,
o , , của và

47
Lập lịch tỷ lệ học

 Lập lịch tỷ lệ học


 Tỷ lệ học  : siêu tham số quan trọng, độ lớn thay đổi tham số
theo hướng giảm độ dốc
 Thay đổi giá trị học trong suốt quá trình học mạng nơ ron
 Ba tiếp cận
 Giảm tỷ lệ học theo một nhân tử nào đó sau một số kỷ nguyên
(epoch): vỉ dụ, giảm một nửa sau mỗi năm kỷ nguyên hoặc chia
cho 10 sau mỗi 20 kỷ nguyên
 Giảm tỷ lệ học theo phân rã hàm mũ hay cosin tỷ lệ học theo thời
gian,
 Mỗi khi độ cải thiện mô hình không được xác thực, giảm tỷ lệ học
theo một hằng số cho trước (ví dụ, giảm đi một nửa)

48
Ba mạng nơ ron thông dụng

49
Mạng sâu: Mã hóa
h𝑝+1=Φ ( 𝑊 𝑇𝑝+1 h 𝑝 )

h1 =Φ ( 𝑊 1 𝑥 )
𝑇
𝑜=Φ ( 𝑊 𝑘 +1 h 𝑘)
𝑇

 Hàm kích hoạt


 Lớp ẩn đầu tiên
 Lớp ẩn trung gian
 Lớp đầu ra
50
Mạng nơ ron mã hóa tự động

 Giới thiệu chung


 Autoencoder/replicator
 : giá trị đầu ra của toàn bộ mạng
 Thường có kiến trúc đối xứng giữa đầu vào và đầu ra: bộ
trọng số ra từ lớp gắn với bộ trọng số vào lớp .
 Bộ mã hóa encoder đầu vào tới cho
 Bộ giải mã decoder từ tới đầu ra cho

51
Một mạng mã hóa cụ thể

 Bộ MTĐ cơ bản một lớp ẩn k đơn vị [Aggarwal18]


 , , chuẩn Frobenius
 : DL đầu vào chiều, : véc tơ chiều chứa giá trị kích
hoạt lớp ẩn, : trọng số kết nối lớp ẩn với lớp đầu ra (gọi
là giải mã), : trọng số kết nối lớp đầu vào tới lớp ẩn (gọi
là mã hóa)
 , nếu thì hội tụ

52
Mạng nơ ron tích chập

 Giới thiệu
 Áp dụng kết quả nghiên cứu võ não thị giác mèo (1959)
 AlexNet gồm hai nhóm lớp: nhóm lớp tích chập (C1-C5)
và nhóm lớp kết nối đầy đủ (FC6-FC8). Lớp tích chập:
hàm kích hoạt ReLU theo tích chập; ba lớp C1, C2, C5
còn có gộp cực đại MP (max-pooling) tiếp sau hàm
ReLU. Các lớp C1-C5, FC1, FC2 được dùng cho học
đặc trưng, lớp đầu ra FC8 dùng hàm softmax cho phân
lớp 1000 ảnh [Aggarwal18]
53
Phép nhân chập

 Lớp dạng tenxơ: (ví dụ, 2242243) RGB


 bản đồ đặc trưng (dọc  ngang)
 Lớp dùng bộ lọc/nhân (filter/kernel) nhân chập ten-xơ
lớp tạo ra ten-xơ dày .
 Vị trí nhân chập: từ (1,1) và sải bước :
 , , , …, *
 , , , …, *
 Sử dụng đệm padding: không bị thu hẹp/cho phép mở rộng 54
Phép nhận chập: gộp cực đại

 Lấy giá trị cực đại thay cho tính tổng


 Gộp cực đại với và .
 Học mạng nơ ron tích chập
 Lan truyền ngược
 Có thể sử dụng bỏ bớt (dropout)
 lớp tích chập có tính đặc thù: gộp cực đại/nhân chập
55
Mạng nơ ron hồi quy

(a) RNN (b) Trải mạng RRR (a) thành một dãy mạng theo thời gian

 Hồi quy/Tái phát (Recurrent)


 Dữ liệu dạng dãy: xâu văn bản, DNA, thời gian, v.v.

 .

56
Học mạng RNN

 Mạng RNN cho mô hình ngôn ngữ


 Học mạng RNN
 Lan truyền ngược đơn giản: (i) Softmax luôn ở đầu ra;
(ii) Softmax luôn đi kèm hàm mất mát entropy chéo
 ;

 ;

57
Mạng RNN hai chiều và đa lớp

58
Học sâu giải thích được

59
Bài báo về TTNT và Học sâu giải thích được

Truy vấn Cơ sở dữ liệu DBLP tháng 09/2021

6/2/23 60
Học sâu giải thích được

Liz Grennan, Andreas Kremer, Alex Singla và Peter Zipparo. Why businesses need explainable
AI—and how to deliver it. McKinsey’s Article, September 29, 2022.
6/2/23 61
Học sâu giải thích được

D. Gunning, D. Aha. DARPA’s Explainable Artificial Intelligence (XAI) Program. AI Magazine,


40(2), 44-58, 2019. https://doi.org/10.1609/aimag.v40i2.2850
6/2/23 62
.

 .

 .

63
M

 .

 .

64
Hạn chế và xu hướng
học sâu

65
Thách thức về tính toán
 Huấn luyện mô hình
 Thách thức lớn: thời gian huấn luyện mạng
 Miền văn bản và ảnh: hàng tuần
 Giải pháp
 Bộ xử lý độ họa GPU, có thể là TPU (Tensor PU)
 Thuật toán cộng tác Torch cho GPU
 Sử dụng mô hình
 Yêu cầu lượng nhỏ tính toán
 Nén mô hình là một giải pháp chung (Chắt lọc tri thức)
 Tiny Machine Learning

66
Thách thực tính toán: Ví dụ
GPT-3: 175 tý th/số 07/2020 [Brown20]

MS Turing NLG: 17 tỷ tham số


Khari Johnson. Microsoft trains world’s largest Transformer language
model. February 10, 2020,
https://venturebeat.com/2020/02/10/microsoft-trains-worlds-largest-
transformer-language-model/
Nvidia’s Megatron: 8,3 tỷ th/số

OpenAI’s GPT-2: 1,5 tỷ th/số

04/ 07/ 10/ 01/ 04/ 07/ 10/ 01/ 07/


2018 2018 2018 2019 2019 2019 2019 2020 2020
 Mô hình ngôn ngữ kiểu BERT (BERT-like)
 Thúc đẩy mạnh mẽ ứng dụng XLNNTN (NLP)
 Thúc đẩy xây dựng các BERT rất lớn
 Hạn chế: Hiểu biết rất ít về BERT và hoạt động của nó
  khảo sát 150 bài báo về BERT [Rogers20]
67
Hạn chế hiệu năng
 An Interview with François Chollet
 François Chollet, ít thông tin cá nhân
https://research.google.com/pubs/105096.html
https://www.linkedin.com/in/fchollet https://www.kaggle.com/rankings
Công bố không nhiều
http://dblp.uni-trier.de/pers/hd/c/Chollet:Fran=cced
il=ois
 Hạng Kaggle cao nhất đạt được: 17th toàn cầu
 AI và học sâu của Google
 Tác giả: (i) Keras: khung học sâu Python hàng
đầu nguồn mở: Google Scholar Cited 1060, (ii)
Sách "Deep Learning with Python“
 https://www.datacamp.com/community/blog/int
erview-francois-chollet

 https://www.datacamp.com/community/tutorials
/deep-learning-python
 [Chollet18] François Chollet. Deep Learning 68
Học sâu: Hạn chế [Chollet18]
 Giới thiệu
 Hạn chế của học sâu
 Học sâu suốt đời: Một chủ đề nghiên cứu thời sự
 Học sâu và hạn chế
 Học sâu  “vô hạn” ứng dụng
  nhiều ứng dụng ngoài tầm học sâu dù có rất nhiều ví dụ mẫu
 X={mô tả sản phẩm phần mềm do một người quản lý viết}
 Y={mã nguồn đáp ứng mô tả do một đội viết}
 Cho 105 (106) cặp (x, y)  XY. Không thể sinh một mô hình học
sâu ánh xạ X  Y
 Giải thích: học xâu = chuỗi các phép biến đổi hình học đơn giản
và liên tục: X  Y (hai không gian vector) ngầm định  dãy biến
đổi liên tục từ X sang Y.
 Một mô hình học sâu là một chương trình song hầu hết chương
trình không thể biểu diễn bằng mô hình học sâu
 Chồng lấp mô hình chỉ giảm thiểu mà không giải quyết
https://blog.keras.io/the-limitations-of-deep-learning.html
69
Hạn chế học sâu: ví dụ 1

“Cậu bé đang cầm cây gậy phân loại ảnh gấu trúc thành vượn
bóng chày”

 Rủi ro nhân cách hóa mô hình học máy


 anthropomorphizing
 Nhận dạng ảnh: chỉ một thay đổi nhỏ cho kết quả khác biệt
 Giải thích: mô hình học sâu không hiểu gì về đầu vào như con người
 Con người hiểu biết về hình ảnh, âm thanh, ngôn ngữ

[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018


70
Hạn chế học sâu: Ảnh mờ trong gương
Trải nghiệm Tóm tắt khái Dữ liệu có Mô hình
Thế giới thực con người niệm vào tâm nhãn minh học máy
trí người hoạ khái niệm

Không phải lúc nào Không khớp với mô Khớp với dữ


cũng chuyển tốt tới thế hình tâm trí người liệu học
giới thực dẫn xuất

 Lưu ý chuyên gia học máy


 Tránh rơi vào bẫy miền tin “mạng nơ-ron hiểu được bài toán cần làm”
 Thực hiện nhiệm vụ hẹp hơn so với mong muốn con người
 Dữ liệu khác ví dụ học: mạng nơ-ron phá vỡ một cách vô lý
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018 71
Học sâu khác biệt với người học
 Khái quát hóa cục bộ  khái quát hóa tới cực
 Học sâu: biến dạng hình học đơn giản từ đầu vào tới đầu ra.
Khái quát hóa cục bộ (local generalization)
 “Con” người học: qua trải nghiệm bản thân thay vì được trình
diễn qua ví dụ học
 Năng lực cao > ánh xạ kích thích trực tiếp để đáp ứng trực tiếp
 Duy trì các mô hình phức tạp, tóm tắt các mô hình cho tình
huống hiện thời, dùng mô hình cho tương lai
 Khái quát hóa “cận biên” (extreme generalization)

[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018 72


Tương lai học sâu: suy đoán [Chollet18]
 Mô hình như là một chương trình máy tính
 Từ khái quát hóa cục bộ tới khái quát hóa cận biên (lập luận
và trừu tượng hóa)
 Hiện tại: thành phần học của hệ thống chỉ xảy ra ở mô đun
chuyên dụng. Tương lai: hệ thống học đầy đủ, không có sự
tham gia của con người

algorithmic primitives

geometric primitives
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018 73
Truyền ngược, phân biệt và học tự động

 Vượt qua tầng lan truyền ngược, sự phân biệt


 “Chương trình” mô hình vẫn sử dụng chương trình con hình học
(phân biệt) song toàn bộ chương trình là không phân biệt
 Lan truyền ngược là cách thức không nên chọn
 Không phân biệt toàn bộ song phân biệt cục bộ
 Học máy tự động
 Tương lai: học kiến trúc mô hình
 Tìm kiếm kiến trúc phù hợp dựa trên học tăng cường và học di
truyền
 Học kiến trúc mô hình đồng thời với trọng số mô hình
 Thay thế công việc của kỹ sư học máy  kỹ sư học máy hướng
mô hình tới mục tiêu kinh doanh, mô hình tác động tới hệ sinh
thái kỹ thuật số
 Học sâu suốt đời
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018 74
Mô hình ngôn ngữ MT-NLG 530B

https://gpt3demo.com/apps/mt-nlg-by-microsoft-and-nvidia-ai
75
Chắt lọc tri thức: Khung nhìn

[Gou21] Jianping Gou, Baosheng Yu, Stephen J. Maybank, Dacheng Tao. Knowledge
Distillation: A Survey. Int. J. Comput. Vis. 129(6): 1789-1819 (2021). Google
Scholar Cited by 330
76
Chắt lọc tri thức: Một số chủ đề [Gou21]

77
Chắt lọc tri thức: mô hình học sâu

[Gupta20] Manish Gupta, Puneet Agrawal. Compression of Deep Learning Models for
Text: A Survey. CoRR abs/2008.05221, 2020.
78
Tiny Machine Learning
 Giới thiệu
 Thiết bị tính toán nhỏ (điện thoại di động, thiết bị kết nối
cảm biến, v.v.) phổ biến
 Gần gũi các ứng dụng người dùng
 Thách thức mô hình lớn
 Mô hình đòi hỏi dung lượng lớn
 Chạy mô hình đòi hỏi năng lượng nhất định
 Thiết bị nhỏ, không sẵn nguồn năng lượng bù đắp
 Tiếp cận học máy mới
 Khai thác được các nguồn mô hình lớn
 Đáp ứng thực tế dung lượng nhỏ và tiêu thụ năng
lượng ít
 tinyML: học máy nhỏ gọn và công suất thấp

79
TinyML: Trong thế giới thực và TTNT số

 ADC: Analog-to-Digital Converter


 MPU: MicroProcessor Unit

[Ray22] Partha Pratim Ray. A review on TinyML: State-of-the-art and prospects. J.


King Saud Univ. Comput. Inf. Sci. 34(4): 1595-1623 (2022).
80
Cloud ML, Ed ML và Tiny ML
IMU: Inertial Measurement Unit
Thiết bị đo quán tính

[Ray22]
81
Tính “khả mở”tới rất nhỏ của Tiny ML

[Ray22]
82
Tiny ML: Các thành phần

[Ray22]
83
Tiny ML: Kiến trúc xử lý tại chỗ trên FPGA

Processing-in-memory architecture on FPGA


[Ray22]
84
Tiny ML: Xử lý dữ liệu chuỗi thời gian

[Ray22] 85
Tiny ML:xử lý sự kiện phức tạp trong IIoT

[Ray22]
86
Tiny ML:Trình kích hoạt chính

[Ray22]
87
2. Học máy suốt đời
1. Tại sao nghiên cứu học máy suốt đời ?
2. Học máy truyền thống liên quan
3. Học máy suốt đời là gì ?
4. Mô hình chủ đề suốt đời
5. Học sâu suốt đời

88
Hình ảnh Trường thu – đông Quảng Bình

89
Hình ảnh Trường thu – đông Quảng Bình

90
Bài báo trên DBLP

Học liên tục (Continual Learning ), Học suốt đời (Lifelong Learning),
Học thế giới mở (Open-world Learning), Thiên vị quy nạp (Inductive Bias)

91
Nguồn tài liệu chính
 Sách
 [Chen16] Zhiyuan Chen and Bing Liu. Lifelong Machine Learning.
Morgan & Claypool Publishers, November 2016. Phiên bản 2: 2018
 [Thrun96] Sebastian Thrun. Explanation-Based Neural Network
Learning: A Lifelong Learning Approach. Springer US, 1996.
 Bài trình bày
 Zhiyuan Chen and Bing Liu. Lifelong Machine Learning in the Big
Data Era. A IJCAI 2015 Tutorial. 130
 Zhiyuan Chen, Estevam Hruschka, Bing Liu. Lifelong Machine
Learning and Computer Reading the Web. A KDD-2016 Tutorial. 217
 DS&KTLab: A New Lifelong Topic Modeling Method and Its Application
to Vietnamese Text Multi-label Classification. ACIIDS 2018 và các bài
báo liên quan khác
 Trang Web
 https://www.cs.uic.edu/~liub/lifelong-learning.html. Zhiyuan Chen
 https://www.cs.uic.edu/~liub/lifelong-learning.html. Bing Liu
 http://lifelongml.org/. Website on lifelong machine learning. 92
Tại sao học máy suốt đời?
- Học máy truyền thống: hạn chế
- Học máy suốt đời: hiện diện một cộng đồng
- Một dự án về học máy suốt đời

93
Học máy truyền thống (ML1.0)
 Thành công
 Học máy thống kê: nhiều thành công đáng ghi nhận
 Hạn chế
 Học máy cô lập: xem xét một bài toán học máy
 Không thừa kế được ”kinh nghiệm” từ học trước đây
 Không thể đáp ứng “học tựa như con người”
 Yêu cầu tập ví dụ huấn luyện đủ lớn
 Yêu cầu
 “học tựa như con người”
 Chỉ cần tập ví dụ rất nhỏ

94
Học suốt đời (ML2.0): một hành vi trí tuệ

 Nghiên cứu trí tuệ tự nhiên luôn thời sự


 Một số hành vi trí tuệ liên quan tới học
 Học từ kinh nghiệm và áp dụng tri thức từ kinh nghiệm.
 Giải quyết vấn đề thiếu thông tin quan trọng
 Xử lý và thao tác với “biểu tượng”
 Học máy suốt đời
 Thế hệ học máy thứ hai (ML2.0)
 Học và sử dụng tri thức từ kinh nghiệm, đặc biệt các miền văn bản
 Giải quyết thách thức tập ví dụ huấn luyện lớn
 Vấn đề: Chọn tri thức đã học để giải quyết bài toán mới

95
Học suốt đời: một nguồn trí tuệ [Poole17]

 Sinh học
 Tiến hóa của loài người
 Sống sót được trong nhiều môi trường sống khác nhau
 Văn hóa
 Cung cấp ngôn ngữ
 Các công cụ hữu dụng, các khái niệm hữu dụng, sự thông thái
từ cha mẹ và giáo viên truyền tới con cái
 Học suốt đời
 Con người học hỏi suốt đời
 Tích lũy tri thức và kỹ năng
 Học nhanh hơn và hiệu quả hơn

[Poole17] David L Poole, Alan K Mackworth. Artificial intelligence foundations of


computational agents (2nd edition). Cambridge University Press, 2017.
http://artint.info/html/ArtInt_4.html
96
Xe tự lái: một hệ thống học suốt đời

 Hình mô tả hệ thống học của “xe tự lái”


 cảm biến quét xung quanh thông báo không ngừng tới hệ thống
 hệ thống học sử dụng dữ liệu (i) Hướng dẫn hành động lái xe hiện
thời; (ii) Chỉnh sửa chương trình và dữ liệu
https://www.darpa.mil/news-events/2017-03-16 97
Học suốt đời: hiện diện một cộng đồng

công bố về học máy suốt đời


danh sách học giả học suốt đời
dự án học suốt đời chính
Các sự kiện học suốt đời
thông báo và tin tức học suốt đời

http://lifelongml.org/
98
Học suốt đời: một cộng đồng
https://www.seas.upenn.edu/~eeaton/class_rescat.html#Lifelong%20L
earning%20and%20Multi-task%20Learning

Bing Liu. Sentiment Analysis Mining Opinions Sentiments and


Emotions. Cambridge University Press, 2015 (11 Mining Intentions)

Tháng 6/2021, trang web không còn


http://lifelongml.org/research-groups/
99
Một thư xin tài liệu

100
Một chương trình nghiên cứu
 Thông tin chung
 Cơ quan nghiên cứu Bộ Quốc phòng Mỹ (Defense Advanced
Research Projects Agency: DARPA)
 Quản lý chương trình: Tiến sĩ Hava Siegelmann,
 https://www.darpa.mil/staff/dr-hava-siegelmann,
 http://dblp.uni-trier.de/pers/hd/s/Siegelmann:
Hava_T= (J40, C42)
 Mục tiêu kỹ thuật
 Cơ chế học máy: học máy liên tục áp dụng kinh nghiệm quá khứ
và thích ứng "bài học kinh nghiệm" với dữ liệu/tình huống mới,
phát triển kỹ thuật giám sát hành vi hệ thống học máy, đặt phạm vi
khả năng thích ứng, và can thiệp vào chức năng hệ thống khi cần.
Lý thuyết mạng, thuật toán, phần mềm và kiến ​trúc máy tính.
 Cơ chế học sinh học: (i) hệ sinh thái học: di truyền từ thế hệ cha
 con: di truyền toàn bộ, di truyền chỉ khả năng học, v.v.?; (ii) làm
thích nghi áp dụng được tới hệ thống học máy.
https://www.darpa.mil/news-events/2017-03-16
101
Học máy truyền thống liên quan

- Học máy: một bài toán tối ưu hóa


- Học chuyển đổi
- Học đa nhiệm theo lô
- Học trực tuyến đơn nhiệm
- Học tăng cường

102
Học máy giám sát  tối ưu hóa
 Bài toán học máy giám sát
 Cho miền dữ liệu I và một tập nhãn O (hữu hạn)
 Tồn tại một ánh xạ f: I  O, f chưa biết
Input
 Cho “tập ví dụ mẫu” IL: (ILIIL),
f xác định trên IL, i IL: f(i)=o đã biết.
Output
 Tìm ánh xạ toàn bộ f* xấp xỉ tốt nhất f
 Ví dụ và trao đổi
 Miền dữ liệu I = {nhận xét sản phẩm A}, O = {khen, chê}
 Ánh xạ f: I  O, f chưa biết
 Input: Tập ví dụ mẫu IL gồm đánh giá đã có nhãn khen/chê.
 Output: Ánh xạ xấp xỉ tốt nhất f* để xây dựng chương trình
tự động gán nhãn cho mọi nhận xét.

103
Xấp xỉ tốt nhất?
 Biết f chỉ ở một bộ phận (tập IL): f|IL
 Thách thức
 Tập G vô hạn các ánh xạ, gG, g: IO
 Chưa biết f toàn bộ
 Cơ hội: Biết f|IL để chọn f* “xấp xỉ tốt nhất” f
 f|IL là toàn bộ “hiểu biết” về f
 vừa để tìm ra f*
 vừa để kiểm tra tính “tốt nhất” của f*
 Xấp xỉ tốt nhất
 Giả thiết: IL “đại diện” cho I; “mọi đặc trưng của I” đều tìm
được từ IL.
 “đánh giá” cần độc lập với “xây dựng”
 IL: vừa tìm f* vừa đánh giá f*. Chia ngẫu nhiên IL = ITrain + ITest.
ITrain xây dựng f* và ITest đánh giá f*.
 Một số độ đo “tốt” liên quan đến tính “tốt nhất” 104
Học máy không giám sát  tối ưu hóa
 Bài toán học không giám sát
 Cho I là tập dữ liệu I={<i>},
 Cho tập G là tập các ánh xạ g: IZ với Z là tập số nguyên
 Cho một độ đo “tốt” trên tập các ánh xạ G
 Tìm hàm f: IZ đạt độ đo “tốt nhất” trên tập G.
 Trường hợp đơn giản:
 G = {g là một phân hoạch của I: g={I1,I2,…, Ig} và I=Ij}}
 tìm f là phân hoạch tốt nhất

105
Học truyền thống và học chuyển đổi
 Học truyền thống và Học chuyển đổi
 Học truyền thống: (i) Cho bài toán/miền A: có dữ liệu có nhãn để dạy mô
hình A, áp dụng mô hình tới dữ liệu chưa nhãn của A; (ii) Cho bài toán/miền
B: cần đủ ví dụ mẫu cho B; (iii) Không liên hệ học A và B
 Học chuyển đổi: (i) Transfer learning/domain adaptation (thích ứng miền); (ii)
Miền B: một/nhiều miền nguồn, nhiều dữ liệu có nhãn; Miền đích A: ví dụ
mẫu ít/vắng; (iii) Liên kết học B tới A ; (iv): Giả thiết quan trọng: miền
nguồn “tương tự” miền đích : tri thức miền B dùng cho học miền đích A

www.comp.nus.edu.sg/~leews/MLSS/Transfer1.pptx
106
Học chuyển đổi và học suốt đời
 Kiểu truyền tri thức miền nguồn cho miền đích
 chuyển dịch “ví dụ có nhãn nguồn”  “ví dụ có nhãn đích”; NLP
 chuyển dịch “đặc trưng nguồn”  “đặc trưng đích”
 Học tương ứng cấu trúc Structural Correspondence Learning:
SCL: ứng dụng văn bản, “dấu hiệu đặc trưng” cùng xuất hiện ở hai
miền “đặc trưng then chốt”, ví dụ từ phổ biến ở cả hai miền
 Học sâu (deep learning) trong học chuyển đổi.
 Phân biệt học suốt đời với học chuyển đổi
 Học chuyển đổi không học liên tục và không tích lũy tri thức
 Học chuyển đổi là một chiều
 Học suốt đời không đòi hỏi yêu cầu tương tự miền
Textual Entailment: Minh Quang Nhat Pham, Minh Le Nguyen, Akira Shimazu. An
Empirical Study of Recognizing Textual Entailment in Japanese Text. CICLing (1)
2012: 438-449; Quang-Thuy Ha, Thi-Oanh Ha, Thi-Dung Nguyen, Thuy-Linh
Nguyen Thi. Refining the Judgment Threshold to Improve Recognizing Textual
Entailment Using Similarity. ICCCI (2) 2012: 335-344.
VietSentiWordNet: Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham, Cong-To
Luu.An Upgrading Feature-Based Opinion Mining Model on Vietnamese Product
Reviews. AMT 2011: 173-185.
107
Học đa nhiệm theo lô và học suốt đời

 Giới thiệu
 multi-task learning/batch multi-task learning “theo lô”
 Định nghĩa: học nhiều bài toán 𝒯 = {1, 2, …, N} đồng thời, mỗi bài
toán j có dữ liệu học Dj. Mục tiêu tối ưu hóa hiệu năng mọi bài toán
 Giả thiết các bài toán có liên quan chặt
 Dữ liệu bài toán trong cùng một không gian, các mô hình bài toán
“tựa” trên một mô hình tổng quát
 Sử dụng chung tập đặc trưng
 Phân biệt học suốt đời với học đa nhiệm theo lô
 Cùng mục địch chia sẻ thông tin hỗ trợ việc học.
 Học đa nhiệm theo mô hình truyền thống: không tích lũy tri thức,
không sử dụng khái niệm học liên tục
 Học đa nhiệm trực tuyến: một kiểu học suốt đời do có giữ lại tri
thức cho học về sau

108
Học trực tuyến đơn nhiệm& học suốt đời

 Giới thiệu
 Online machine learning
 Định nghĩa: Điểm dữ liệu huấn luyện diễn ra tuần tự
theo một thứ tự nhất định, khi điểm dữ liệu mới xuất
hiện mô hình hiện tại được cập nhật để phù hợp tốt nhất
 Là một mô hình học theo ghi nhớ
 Phân biệt học suốt đời với học trực tuyến
 Học trực tuyến: Thực hiện chỉ một bài toán theo thời
gian, không lưu tri thức, không sử dụng tri thức từ
trước.
 Học suốt đời: học một chuỗi bài toán khác nhau, lưu
và sử dụng tri thức hỗ trợ bài toán mới

109
Học tăng cường và học suốt đời
 Giới thiệu
 Reinforcement Learning: RL
 Định nghĩa: học cách hành động theo tiếp cận tương tác “thử và
đánh giá lỗi” trong môi trường động. Mục đích:
 Thử và đánh giá lỗi trong mỗi bước tương tác: (i) nhận input chứa
trạng thái môi trường hiện thời; (ii) Chọn một hành động trong tập
hành động có thể  thay đổi môi trường, (iii) Tính lại giá trị trạng
thái môi trường: thưởng hoặc phạt.
 Học được quỹ đạo tối ưu hóa mục tiêu ánh xạ trạng thái  hành
động để cực đại tổng thưởng trong thời gian dài.
 Phân biệt học suốt đời với học tăng cường
 Học tăng cường:
 phạm vi: chỉ một bài toán và ở một môi trường,
 không tích lũy và sử dụng tri thức.

110
Học máy suốt đời và học thế giới mở
- Silver 2013
- Z. Chen và B. Liu 2014-2016
- Học thế giới mở

111
Khung học suốt đời [Silver13]

 Định nghĩa hệ thống học máy suốt đời


 Học nhiều bài toán trong suốt vòng đời từ một hoặc nhiều miền
 Duy trì tri thức học được một cách hiệu suất và hiệu quả
 Sử dụng tri thức đó để học bài toán mới một cách hiệu suất và hiệu quả
112
Giải thích [Silver13]
 Duy trì hiệu suất và hiệu quả
 Hiệu quả (i) Ngăn ngừa tiến cử /sử dụng tri thức lỗi; (ii) Lưu dài hạn
giả thuyết đủ chính xác tổng quát hóa, (ii) Thêm giả thuyết không
giảm độ chính xác mọi giả thuyết cũ/mới, (iv) Tích hợp/hợp nhất tri
thức mới: tăng độ chính xác tri thức cũ
 Hiệu suất: về không gian bộ nhớ lưu giữ và thời gian tính toán.
 Học hiệu suất và hiệu quả
 Hiệu năng giả thuyết mới  hiệu năng giả thuyết từ tập ví dụ học
 Dùng tri thức quá khứ cần ra mô hình bài toán mới chính xác hơn
 Lựa chọn tri thức liên quan nhất để thiên vị mô hình bài toán mới.
 Lựa chọn tri thức quá khứ nên giảm thời gian học
 Các thành phần chính
 Duy trì (hợp nhất) tri thức bài toán đã học
 Chuyển giao tri thức chọn lọc để học bài toán mới
 Hệ thống hóa tương tác hiệu suất và hiệu quả duy trì/chuyển giao tri
thức.
113
Hệ thống học suốt đời [Isele17]

[Isele17] David Isele, Mohammad Rostami, Eric Eaton. Using Task Descriptions in
Lifelong Machine Learning for Improved Performance and Zero-Shot Transfer.
CoRR abs1710.03850 (2017)
114
Học máy suốt đời [Chen and Liu, 2016]
 Định nghĩa học suốt đời
 Một quá trình học liên tục
 Tại thời điểm bất kỳ: (i) bộ học đã hoàn thành một chuỗi N bài
toán/với tập dữ liệu học T1/D1, T2/D2, …, TN/DN: Ti thuộc 1/nhiều
kiểu bài toán thuộc một miền hoặc nhiều miền; (ii) Gặp bài toán
mới/hiện tại TN+1/DN+1, sử dụng tri thức quá khứ trong CS tri thức
KB để học bài toán TN+1.
 Mục tiêu: Tối ưu hóa bài toán TN+1/Tối ưu hóa mọi bài toán T1, T2,
…, TN, TN+1.
 Một số nhận xét
 Định nghĩa ở mức chung chung cần được diễn giải.
 Ba đặc trưng chính: học liên tục, tích lũy và duy trì tri thức trong
KB  học một loạt bài toán, học có thể không dừng, học ngày
càng thông thạo và học tốt hơn.
 Khái niệm “miền” (không gian đặc trưng) và “kiểu bài toán” (trích
xuất thông tin, liên kết thực thể)
 Bài toán mới xuất hiện đột ngột hoặc từng bước. 115
Tri thức mức cao [Chen and Liu, 2016]

 Hai kiểu tri thức quá khứ


 Tri thức quá khứ phổ quát và tri thức chia sẻ được
 Tri thức toàn cục: Ngầm định một cấu trúc ẩn chia sẻ cho
mọi bài toán. Cấu trúc ngầm định này được học, tận dụng
bài toán mới
 Tri thức cục bộ: Không có ngầm định trên. Cần chọn mẩu
tri thức theo nhu cầu bài toán hiện tại. Tối ưu hóa kết quả bài
toán hiện thời dựa trên tri thức quá khứ
 Hai loại bài toán
 Bài toán độc lập: Có khai thác tri thức quá khứ song các bài
toán độc lập nhau. Hầu hết theo hướng bài toán độc lập
 Bài toán phụ thuộc: Các bài toán có sự phụ thuộc nhau

116
Khung học máy suốt đời [Chen and Liu, 2016]

 Giới thiệu
 Bốn thành phần chính: Cơ sở tri thức (Knowledge Base: KB), Bộ
học dựa trên tri thức (Knowledge-Based Learner: KBL), Bộ quản lý
bài toán (Task Manager: TM) và Đầu ra
 Có chuyển giao thông tin từ các bước
117
Cơ sở tri thức
 Giới thiệu chung
 Cơ sở tri thức gồm có: Kho thông tin quá khứ (Past Information
Store: PIS), Bộ khai phá siêu tri thức (Meta-Knowledge Miner:
MKM), Kho siêu tri thức (Meta-Knowledge Store: MKS) và Bộ suy
luận tri thức (Knowledge Reasoner: KR)
 Kho thông tin quá khứ
 Lưu thông tin học trong mỗi bài toán quá khứ: (i) dữ liệu gốc, (ii)
kết quả trung gian, (iii) mô hình/mẫu kết quả học được.
 Người dùng quyết định cần giữ lại gì để giúp việc học tương lai.
 Bộ khai phá siêu tri thức
 Khai phá siêu tri thức từ PIS và MKS (siêu khai phá: meta-mining).
Tri thức kết quả được lưu vào MKS.
 Kho siêu tri thức và Bộ suy luận tri thức
 MKS: Biểu diễn tri thức phù hợp
 KR: suy luận dựa trên tri thức MKS, thông tin PIS ra tri thức mới
118
Ba thành phần khác
 Bộ học dựa trên tri thức
 Hai thành phần con: dùng tri thức quá khứ từ KB học bài toán mới
 Bộ khai phá tri thức bài toán (Task knowledge miner: TKM): dùng
tri thức thô/thông tin từ KB để khai phá/xác định tri thức phù hợp
bài toán hiện tại. Cần tri thức đặc tả bài toán và tri thức tổng quát
hơn được khai phá từ KB
 Bộ học: Sử dụng tri thức khai phá được vào học bài toán mới.
 Đầu ra
 Kết quả học cho người dùng: mô hình dự báo/phân lớp, cụm chủ
đề…
 Bộ quản lý bài toán
 nhận và quản lý các bài toán đi tới hệ thống và xử lý việc thay đổi
bài toán và đề xuất bài toán học mới cho KBL

119
Tài liệu nghiên cứu
 [Chen18] Zhiyuan Chen, Bing Liu. Lifelong
Machine Learning (2nd edittion). Morgan &
Claypool, 2018
 CHAPTER 5. Open-World Learning
 [Bendale15] Abhijit Bendale and Terrance E Boult. Towards open world
recognition. IEEE Conference on Computer Vision and Pattern
Recognition, pages 1893–1902, 2015.
 [Fei16] Geli Fei and Bing Liu. Breaking the closed world assumption in
text classification. NAACL-HLT, pages 506–514, 2016.
 [Fei16a] Geli Fei, Shuai Wang, Bing Liu. Learning Cumulatively to
Become More Knowledgeable. KDD 2016: 1565-1574.
 [Shu17] Lei Shu, Hu Xu, Bing Liu. DOC: Deep Open Classification of
Text Documents. EMNLP 2017: 2911-2916.
 Lei Shu, Hu Xu, Bing Liu. Unseen Class Discovery in Open-world
Classification. CoRR abs/1801.05609, 2018
 CHAPTER 8. Continuous Knowledge Learning in Chatbots
 [Mazumder18] Sahisnu Mazumder, Nianzu Ma, and Bing Liu. Towards a
continuous knowledge learning engine for chatbots. ArXiv:1802.06024,
2018
120
Ví dụ minh họa 1: Người máy chào hỏi
 Người máy chào đón khách hàng ở cửa ra-vào
 Với mỗi khách hàng quen: Có ảnh, tên khách hàng, thông tin
khác và mô hình đoán nhận khách hàng từ ảnh
 Một khách hàng tới cửa ra –vào. Người máy chụp ảnh, sử dụng
mô hình đoán nhận khách hàng để biết tên khách hàng.
 Tiếp cận học máy thế giới đóng
 Số lớp = số lượng khách hàng quen + 01 “lớp chưa biết”
 Khách quen: phát hiện, chào hỏi theo tên
 Khách lạ: phân vào lớp chưa biết và đợi người quản lý nạp mô
hình phân lớp mới.
 Tiếp cận học máy thế giới đóng
 Số lớp = số lượng khách hàng quen + k “lớp chưa biết”
 Khách quen: phát hiện lớp, chào hỏi theo tên
 Khách lạ: bổ sung dữ liệu về khách như chụp thêm ảnh nhận
diện, đàm thoại với khách hàng hoặc người quản lý để biết tên
và các thông tin khác về khách hàng. Chào hỏi theo tên. Xây
dựng mô hình đoán nhận khách hàng theo ảnh.
121
Ví dụ minh họa 2: Chatbot với chủ đề mới
 Đàm thoại chatbot
 Chatbot đã nhận biết được một số chủ đề cho trước theo mô
hình phân lớp từ ví dụ học liên quan tới mỗi chủ đề
 Khởi động một đàm thoại mới: Sử dụng các mô hình phân lớp
để nhận diện chủ đề của đàm thoại hiện thời
 Tiếp cận thế giới đóng
 Người đàm thoại nêu câu đàm thoại, dùng các mô hình phân
lớp phát hiện chủ đề người đàm thoại nêu ra.
 Sử dụng cơ sở tri thức cho chủ đề chưa biết: suy luận tuy nhiên
không tự nhiên
 Tiếp cận thế giới mở
 Số lớp = số chủ đề đã biết + k lớp “khác đi”
 Câu đàm thoại thuộc chủ đề: tiếp tục trợ giúp
 Câu đàm thoại không thuộc chủ đề đã biết. Sử dụng Cơ sở tri
thức, đàm thoại người dùng để thêm tri thức dữ kiện.
 Xây dựng mô hình phân lớp theo các chủ đề liên quan với đàm
thoại bổ sung.
122
Ví dụ minh họa 3: Xe tự lái trên đường
 Xe tự lái
 Muôn màu “vật” có thể gặp trên đường
 Có mô hình liên quan tới các kiểu đối tượng “đã biết”
 Xuất hiện không ngừng các đối tượng “chưa biết”
 Chỉ có thể tiếp cận thế giới mở
 Bài toán rất phức tạp
 Ghi nhận dữ liệu đối tượng chưa biết và tương tác để có thêm
thông tin về đối tượng chưa biết
 Tương tác: (i) người giám sát, (2) khách hàng, (3) đa tác tử: kết
nối với các xe đang vận hành “láng giềng” bổ sung tri thức về
đối tượng chưa biết

 Qua ba ví dụ
 Nhận ra một “cái mới chưa biết” nào đõ xuất hiện
 Tự động học để hiểu về “cái mới chưa biết” đó

123
Học thế giới mở
 Định nghĩa
1) Bộ học có một mô hình phân lớp đa lớp FN={f1, f2,..., fN} từ N
tập dữ liệu lớp quá khứ DN= {D1, D2, …, DN} với các nhãn lớp
tương ứng YN= {l1, l2, …, lN}.  thể hiện mới x, FN hoặc gán
nhãn li YN hoặc từ chối và đưa x vào tập chưa biết R.
2) Hệ thống/người sử dụng xác định các lớp chưa biết ẩn C trong
R và thu thập dữ liệu học cho các lớp chưa biết
3) Giả sử có k lớp mới đã đủ dữ liệu học, bộ học học gia tăng k
lớp mới theo dữ liệu học. Bộ học cập nhật là (FN+k, DN+k, YN+k).
 Học thế giới mở là một dạng học suốt đời
 Bài toán TN+1: xây dựng bộ phân lớp mở đa lớp dựa trên các lớp
đã biết và các lớp mới
 Cơ sở tri thức: mọi mô hình thuộc FN+k và mọi dữ liệu thuộc DN+k.
 3)  học gia tăng truyền thống (không từ chối thể hiện lớp chưa
biết) dù có bổ sung lớp mới gia tăng mà không cần học lại toàn
bộ mô hình

124
Học không gian tương tự theo tâm [Fei16]
 Tư tưởng
 Học khái niệm mới của con người thông qua các khái niệm
tương tự đã biết
 Đã biết {“phim”, “đồ nội thất”, “bóng đá”} cần học khái niệm mới
chưa biết “bóng rổ”. “Bóng rổ” tương tự “bóng đá” và rất khác
biệt “phim” và “đồ nội thất”
 Hai bước (1) tìm kiếm tập SC các lớp đã biết tương tự lớp mới
chưa biết lN+1, (2) học phân biệt tách lớp mới chưa biết lN+1 với
các lớp đã biết tương tự trong SC
 center-based similarity: tương tự theo tâm
 Giải pháp
 (1) Tìm SC: Chạy từng bộ phân lớp nhị phân “1-vs-rest” trong FN
với mỗi xDN+1. Lớp “tương tự” với lớp “mới chưa biết” có một
tỷ lệ đoán nhận các x  DN+1 vượt qua một ngưỡng cho trước.
 (2) gồm hai nội dung: (i) xây dựng phân lớp nhị phân đoán nhận
lớp N+1 với DN+1 tập ví dụ dương và SCDi là tập ví dụ âm (2)
cập nhật các phân lớp thuộc SC với tập ví dụ dương đã biết còn
tập ví dụ âm là tập ví dụ âm đã biết bổ sung thêm DN+1.
125
Thuật toán học gia tăng CBS khái quát

 N

 H
[Fei16] mô tả cụ thể
thuật toán CL-cbsSVM
với “tương tự theo
tâm”

126
Đánh giá thuật toán học gia tăng CBS

 Nhận biết một ví dụ là chưa biết


 Bộ học cập nhật FN+1= {f1, f2, …, fN, fN+1}, một thể hiện x, cần xác
định x thuộc một lớp đã biết nào hoặc thuộc một lớp chưa biết.
 f1 là các bộ phân lớp nhị phân SVM “1-vs-còn lại” mà điểm đầu
ra SVM khó so sánh
 Chuyển điểm đầu ra SVM thành một xác suất P(li|x) theo thuật
toán [Platt99] (có sẵn trong LIBSVM)
 Quyết định

 y* : nhãn quyết định cho x


 : ngưỡng quyết định, chọn =0.5 127
Học sâu suốt đời: tái sử dụng mô-đun

 Chương trình con thuật toán (Algorithmic subroutine): tri thức


mức miền, được tổ chức vào thư viện
 Chương trình con hình học (Geometric subroutine): tri thức mức
dữ liệu cụ thể liên quan tới thuật toán học sâu
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018 128
Học sâu suốt đời
 Nhận diện thực thể
 Lei Shu, Hu Xu, Bing Liu. Lifelong Learning CRF for Supervised Aspect
Extraction. ACL (2) 2017:148-154. Học suốt đời nhận diện thực thể
 Lei Shu, Bing Liu, Hu Xu, Annice Kim. Lifelong-RL: Lifelong Relaxation
Labeling for Separating Entities and Aspects in Opinion Targets.
EMNLP 2016: 225-235. Học suốt đời nhận diện thực thể
 Chen Tessler, Shahar Givony, Tom Zahavy, Daniel J. Mankowitz, Shie
Mannor. A Deep Hierarchical Approach to Lifelong Learning in
Minecraft. AAAI 2017: 1553-1561. Học sâu dữ liệu ảnh
 Học sâu suốt đời phân lớp đa nhãn
 Lei Shu, Hu Xu, Bing Liu. DOC: Deep Open Classification of Text
Documents. EMNLP 2017: 2911-2916. Học sâu
 Geli Fei, Shuai Wang, Bing Liu. Learning Cumulatively to Become More
Knowledgeable. KDD 2016: 1565-1574. Phân lớp sâu suốt đời = học
tích lũy + học sâu (trên)
 Quang-Thuy Ha, Thi-Ngan Pham, Van-Quang Nguyen, Thi-Cham
Nguyen, Thi-Hong Vuong, Minh-Tuoi Tran and Tri-Thanh Nguyen. A
New Lifelong Topic Modeling Method and Its Application to Vietnamese
Text Multi-label Classification. ACIIDS 2018 (in press). Phân lớp đa
nhãn dựa trên mô hình chủ đề suốt đời.
129
Một dự án học sâu suốt đời
 Giới thiệu
 Do Eric Eaton chủ trì, được AFRL và DARPA tài trợ
 https://www.grasp.upenn.edu/projects/lifelong-deep-
learning
 Xem [Isele17]

130
Học sâu suốt đời
 Một vài tham khảo khác
 David Isele. Thesis Proposal: Representations for Continuous Learning.
Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence
(AAAI-17).
https://www.grasp.upenn.edu/people/david-isele
https://www.grasp.upenn.edu/labs/lifelong-machine-learning
 Simon Stiebellehner, Jun Wang, Shuai Yuan. Learning Continuous
User Representations through Hybrid Filtering with doc2vec.
arXiv:1801.00215.
 Andrei A. Rusu, Neil C. Rabinowitz, Guillaume Desjardins, Hubert
Soyer, James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, Raia
Hadsell. Progressive Neural Networks. CoRR abs/1606.04671, 2016
 Irina Higgins, Arka Pal, Andrei A. Rusu, Loïc Matthey, Christopher
Burgess, Alexander Pritzel, Matthew Botvinick, Charles Blundell,
Alexander Lerchner. DARLA: Improving Zero-Shot Transfer in
Reinforcement Learning. ICML 2017: 1480-1490
 James Kirkpatrick et al. Overcoming catastrophic forgetting in neural
networks. CoRR abs/1612.00796, 2016.
 v.v.
131
Mô hình chủ đề suốt đời
- Thiên vị quy nạp trong học máy suốt đời
- Hai tiếp cận mô hình chủ đề suốt đời
- Thiên vị quy nạp trong mô hình chủ đề miền gần

132
Lựa chọn tri thức kinh nghiệm

 Bài toán học


 Học giám sát: Cho một ánh xạ F: IO, tập ví dụ {<i,o>}, i I, oO,
Tìm f*G xấp xỉ tốt nhất f . G là không gian mọi hàm
 Tồn tại một tập các tập giả thuyết đối với các bài toán học
 Học thiên vị (learning bias): Học hàm f* có sử dụng thiên vị từ các
tập giả thuyết.
 Hàm f: các giả thuyết Ho, H1, H2, H3, H4 H4 thiên vị tốt nhất
 Hi  tập ví dụ học bài toán học Fi  “tập hỗ trợ”
[Thrun96] Sebastian Thrun. Explanation-Based Neural Network Learning:
A Lifelong Learning Approach. Springer US, 1996.
133
Thiên vị quy nạp trong học máy suốt đời

[Thrun96]

 EBNN:Explanation-based neural network learning


 Tích hợp học quy nạp và học phân tích. Mức cơ sở, mức meta EBNN.
 Học quy nạp: EBNN biên dịch tập hỗ trợ Y thành lý thuyết miền: tri ​
thức mức meta. Tập ràng buộc. Sử dụng tri thức kinh nghiệm.
 Học phân tích: Ví dụ học trong tập học X được giải thích và phân tích
theo lý thuyết miền, lấy được thông tin dốc cho hàm đích: tri thức mức
cơ sở. Thông tin độ dốc được kết hợp vào học mạng nơ-ron.

134
Mô hình chủ đề suốt đời [Chen&Liu 2016]
 Miền bài toán
 Khai phá quan điểm (opinion mining)/phân tích đánh giá
(semitiment analysis)
 Học suốt đời “nhiều miền” đối tượng khác nhau: nhận xét điện thoại
di động, máy ảnh, bộ phim, v.v. phát hiện “khía cạnh” “aspects”
 Mô hình chủ đề của Blei và cộng sự năm 2003
 Khung học máy suốt đời: Xem xét CSTT
 Tri thức quá khứ nào nên được lưu giữ lại và tích lũy?
 Những tri thức nào nên được sử dụng trong mô hình miền mới và
làm thế nào để khai phá những tri thức đó ?
 Làm thế nào để đánh giá chất lượng của tri thức và làm thế nào để
đối phó với tri thức có thể sai?
 Làm thế nào để áp dụng tri thức vào quá trình mô hình hóa để tạo
ra các chủ đề tốt hơn trong miền ứng dụng mới?

135
Tri thức chia sẻ: Must-links & cannot-links
 Ví dụ ba miền: vấn đề với chủ đề
 Ba miền cùng có chủ đề ẩn “giá cả”
 Xem xét bốn từ tốp đầu thuộc chủ đề “giá cả”
 Miền 1: giá cả, màu sắc, chi phí, cuộc sống
 Miền 2: chi phí, hình ảnh, giá cả, đắt tiền
 Miền 3: giá cả, tiền, khách hàng, đắt tiền
 “hình ảnh”, “màu sắc”, v.v. không mang ý nghĩa “giá cả”
 Ý tưởng
 Các cặp từ thuộc “đa số” miền (2) “tập phổ biến độ dài 2”
 Miền 1,2: {giá cả, chi phí} cho một cặp từ (giá cả, chi phí)
 Miền 2,3: {giá cả, đắt tiền} cho một cặp từ (giá cả, đắt tiền)
 Miền 1,3: {giá cả} không có cặp từ nào
 Cặp hai từ must-links nên ở cùng một chủ đề mới
 Tương tự: cặp hai từ tại đa số miền ở hai chủ đề khác biệt
nhau “mẫu âm độ dài 2”: cannot-links không nên ở cùng
một chủ đề mới
136
Sơ đồ LTM (Lifelong Topic Model)
 Bài toán
 N bài toán: Ti, Di (dữ
liệu bài toán Ti), Topicsi
(tập chủ đề từ tập Di):
chủ đề trước. KB=
{Topicsi, i=1, 2, … N}
 Bài toán mới TN+1 với
DN+1 xuất hiện (DN+1
lượng phù hợp). Tìm
TopicsN+1 khai thác
được tri thức từ KB.
 Mô hình
 Mẩu tri thức must-
links dùng để tinh
chỉnh TopicsN+1. Hình vẽ

137
LTM: Thuật toán chính

138
LTM: Thuật toán con tìm must-links

 Giải thích: symmetrized Kullback-Leibler (KL) Divergence


 Dòng 2: p (chủ đề cũ): chọn chủ đề mới a gần nó nhất KL
 Dòng 3: Độ phân biệt KL (p,a) : thêm p vào tập chủ đề liên quan a
 Dòng 7: Tìm must-links với a và thêm vào KN+1.

139
Mô hình AMC:
 Bài toán
 N bài toán: Ti, Di (dữ
liệu bài toán Ti), Topicsi
(tập chủ đề từ tập Di):
chủ đề trước. KB=
{Topicsi, i=1, 2, … N}
 Bài toán mới TN+1 với
DN+1 xuất hiện (DN+1
lượng nhỏ). Tìm
TopicsN+1 khai thác
được tri thức từ KB.
 Mô hình
 Mẩu tri thức must-
links và cannot-links
dùng để tinh chỉnh AMC: Automatically generated Must-links
TopicsN+1. Hình vẽ and Cannot-links
140
ACM: Chương trình chính

 Giải thích
 Khai phá must-links như LTM
 Chạy lấy mẫu Gibbs tạo tập chú đề ẩn không có cannot-links
 Lần lượt tìm cannot-links tinh chỉnh lại chủ đề hiện tại
141
Mô hình chủ đề miền gần
 Giới thiệu
 Thiên vị quy nạp mức meta
 Lựa chọn miền dữ liệu

[Ha18] Quang-Thuy Ha, Thi-Ngan Pham, Van-Quang Nguyen, Thi-Cham Nguyen, Thi-Hong
Vuong, Minh-Tuoi Tran, Tri-Thanh Nguyen. A New Lifelong Topic Modeling Method and
Its Application to Vietnamese Text Multi-label Classification. ACIIDS (1) 2018: 200-210.
142
Học thiên vị cấp meta miền gần
 Hai cấp thiên vị quy nạp và câu hỏi
 Thiên vị quy nạp tập dữ liệu bài toán hiện thời
 Thiên vị quy nạp từ cơ sở tri thức: must-links và cannot-links từ , ,
…, .
 Tập = {, , …, } là không gian con các giả thuyết  lựa chọn tập giả
thuyết mạnh hơn!
 Thiên vị quy nạp cho học cấp meta
 Thiên vị mức meta “miền dữ liệu}.
 Chọn tập cho thiên vị mạnh hơn so = {, , …, }
 “Miền gần”: Miền dữ liệu nhận dạng “chó”, “mèo”, “gà”, “vịt”. Bài
toán học nhận dạng “ngỗng”.
 , tiềm năng mạnh hơn , khi học nhận dạng “ngỗng”
 Gọi , là miền gần của
 Vấn đề định nghĩa miền gần.

143
Một mô hình đề xuất [ACIIDS2018]

 Giải thích
 Dựa trên AMC
 Thiên vị mức “miền dữ liệu”: chỉ lấy miền dữ liệu gần S*
 Định nghĩa độ gần nhau: mức chủ đề và mức miền
 Mức miền: tập từ vựng, tập từ tốp đầu, lượng chủ đề gần nhau
 Mức chủ đề: độ đo cosine cho hai túi từ có trọng số, phân kỳ
"Kullback-Leibler" rời rạc
144
Áp dụng phân lớp đa nhãn văn bản

Kiểm thử
một mẫu
cho kỳ vọng
giả thuyết
quần thể với
phương sai
chưa biết:
kết quả tăng
thực sự so
với AMC

145
Học sâu suốt đời

146
Học sâu suốt đời: tái sử dụng mô-đun

 Chương trình con thuật toán (Algorithmic subroutine): tri thức


mức miền, được tổ chức vào thư viện
 Chương trình con hình học (Geometric subroutine): tri thức mức
dữ liệu cụ thể liên quan tới thuật toán học sâu
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018 147
Học sâu suốt đời
 Nhận diện thực thể
 Lei Shu, Hu Xu, Bing Liu. Lifelong Learning CRF for Supervised Aspect
Extraction. ACL (2) 2017:148-154. Học suốt đời nhận diện thực thể
 Lei Shu, Bing Liu, Hu Xu, Annice Kim. Lifelong-RL: Lifelong Relaxation
Labeling for Separating Entities and Aspects in Opinion Targets.
EMNLP 2016: 225-235. Học suốt đời nhận diện thực thể
 Chen Tessler, Shahar Givony, Tom Zahavy, Daniel J. Mankowitz, Shie
Mannor. A Deep Hierarchical Approach to Lifelong Learning in
Minecraft. AAAI 2017: 1553-1561. Học sâu dữ liệu ảnh
 Học sâu suốt đời phân lớp đa nhãn
 Lei Shu, Hu Xu, Bing Liu. DOC: Deep Open Classification of Text
Documents. EMNLP 2017: 2911-2916. Học sâu
 Geli Fei, Shuai Wang, Bing Liu. Learning Cumulatively to Become More
Knowledgeable. KDD 2016: 1565-1574. Phân lớp sâu suốt đời = học
tích lũy + học sâu (trên)
 Quang-Thuy Ha, Thi-Ngan Pham, Van-Quang Nguyen, Thi-Cham
Nguyen, Thi-Hong Vuong, Minh-Tuoi Tran and Tri-Thanh Nguyen. A
New Lifelong Topic Modeling Method and Its Application to Vietnamese
Text Multi-label Classification. ACIIDS 2018 (in press). Phân lớp đa
nhãn dựa trên mô hình chủ đề suốt đời.
148
Một dự án học sâu suốt đời
 Giới thiệu
 Do Eric Eaton chủ trì, được AFRL và DARPA tài trợ
 https://www.grasp.upenn.edu/projects/lifelong-deep-
learning
 Xem [Isele17]

149
Học sâu suốt đời
 Một vài tham khảo khác
 David Isele. Thesis Proposal: Representations for Continuous Learning.
Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence
(AAAI-17).
https://www.grasp.upenn.edu/people/david-isele
https://www.grasp.upenn.edu/labs/lifelong-machine-learning
 Simon Stiebellehner, Jun Wang, Shuai Yuan. Learning Continuous
User Representations through Hybrid Filtering with doc2vec.
arXiv:1801.00215.
 Andrei A. Rusu, Neil C. Rabinowitz, Guillaume Desjardins, Hubert
Soyer, James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, Raia
Hadsell. Progressive Neural Networks. CoRR abs/1606.04671, 2016
 Irina Higgins, Arka Pal, Andrei A. Rusu, Loïc Matthey, Christopher
Burgess, Alexander Pritzel, Matthew Botvinick, Charles Blundell,
Alexander Lerchner. DARLA: Improving Zero-Shot Transfer in
Reinforcement Learning. ICML 2017: 1480-1490
 James Kirkpatrick et al. Overcoming catastrophic forgetting in neural
networks. CoRR abs/1612.00796, 2016.
 v.v.
150
3. Khai phá quy trình

151
Khai phá quy trình: Công bố khoa học

152
Khai phá quy trình: Công bố khoa học

153
Công bố khoa học: cá nhân nhà khoa học
Nhà khoa học Số lượng công bố
Wil M. P. van der Aalst 209
Jan Mendling 38
Boudewijn F. van Dongen 27
Stefan Schönig 24
Carlos Fernández-Llatas 24
Fabrizio Maria Maggi 20
Jorge Munoz-Gama 20
Matthias Weidlich 19
Stefanie Rinderle-Ma 19
Luigi Pontieri 18
5.234 tác giả khác  
154
Giới thiệu Khai phá quy trình
 Wil van der Aalst
 ĐHCN Eindhoven (Eindhoven Univ. of Technology (TU/e))
 Khởi xướng và duy trì phát triển khai phá quá trình
 http://wwwis.win.tue.nl/~wvdaalst/
 Master's thesis “Specificatie en Simulatie met behulp van ExSpect”
Đặc tả và mô phỏng bởi ExSpect, 1988
 PhD thesis “

155
Timed coloured Petri nets and their application to logistics”, 1992
 Nhà khoa học Tin học ngoài Mỹ có chỉ số h-index cao thứ nhất: 112
(9/2015; 101: 9/2013, 94: 5/2013) http://www.cs.ucla.edu/~palsberg/h-
number.html
 Tổ chức nghề nghiệp về khai phá quy trình
 http://www.processmining.org/: Cho tài nguyên
phong phú:
 các bài báo,
 luận án Tiến sỹ
[Http] http://www.processmining.org/publications/phd 6/2/2
 bộ công cụ PRoM và các công cụ khác 3
 các tập dữ liệu nhật ký sự kiện: một phần từ hơn 100 tổ chức
Mối quan hệ giữa một số khái niệm

156
Khái niệm và triết lý khai phá quy trình
 Khái niệm khai phá quy trình
 Process Mining: chiết xuất thông tin có giá trị, liên quan đến
quy trình từ các nhật ký ghi sự kiện, bổ sung vào các tiếp
cận hiện có để quản lý quy trình tác nghiệp (Business
Process Management : BPM).
 Kết hợp giữa khai phá dữ liệu và quản lý quy trình tác nghiệp

157
 Triết lý “đường mòn” của khai phá quy trình
 Đường mòn (desire line) / đường xã hội (the social trail)
 Là con đường được hình thành do sự xói mòn bởi bước
chân của con người hoặc động vật
 Chiều rộng và độ xói mòn thể hiện độ thường xuyên sử dụng
 “Đường mòn là ngắn nhất/thuận tiện nhất giữa hai điểm
 Xói mòn càng cao  Sử dụng càng thường xuyên
 Hành động trong kinh doanh hình thành đường mòn kinh
doanh ~ nhật ký sự kiện phản ánh quy trình tốt/thuận tiện
6/2/2
3
[Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance
and Enhancement of Business Processes, Springer, 2011.
Ví dụ triết lý đường mòn
 Xây dựng lối đi trong ĐH Columbia
 Tác giả: Dwight Eisenhower, Chủ tịch ĐH Columbia (sau này
là Tổng thống Mỹ đời thứ 34)
 Bài toán: xây lối đi tốt nhất nối các nhà trong khu trường
 Lời giải:
 Cho cỏ mọc giữa các tòa nhà và trì hoãn tạo vỉa hè
 Mọi người đi: Hình thành dần lối mòn giữa các nhà
 Xây vỉa hè theo các lối mòn đó

158
Cơ bản về Khai phá quy trình
 Khái niệm
 KPQT: phát hiện, theo dõi, cải thiện quy trình kinh doanh dựa trên trích
xuất tri thức từ nhật ký sự kiện NKSK (event log)
 NKSK={trường hợp (case) “thể hiện” quy trình}: “xuất phát điểm của
KPQT”
 Case: dãy có thứ từ các hành động (activity), hành động được “xác
định tốt”
 NKSK = {hành vi quan sát được}  {hành vi}
 Cộng đồng KPQT
 Quan tâm KPQT: Tuyên ngôn KPQT (Process Mining Manifesto) do
the IEEE Task Force on Process Mining công bố
 53 tổ chức, 77 chuyên gia KPQT (người dùng, cung cấp công cụ, tư
vấn, phân tích, nghiên cứu):
KPDL  KPQT  mô hình hóa BM (quy trình kinh doanh)

[Aalst13] Wil M. P. van der Aalst (2013). Decomposing Petri nets for process mining: A
generic approach. Distributed and Parallel Databases 31(4): 471-507

159
Vai trò của khai phá quy trình

 Quản lý quy trình nghiệp vụ (tự động hóa): Vòng đời hở (pha chẩn
đoán: Diagnosis) theo tiếp cận truyền thống (trái), vòng đời khép kín
theo tiếp cận khai phá quy trình (phải)
[Mans11] Ronny Mans. Workflow Support for the Healthcare Domain. PhD Thesis,
Eindhoven University of Technology, 2011 160
Contents
Nhật ký sự kiện
Cycle Diagram
Dữ liệu đầu vào cho khai phá quá trình là nhật ký sự kiện. Ngầm định
dữ liệu chuẩn:
 Một nhật ký sự kiện bao gồm nhiều trường hợp (cases).
 Một trường hợp chứa nhiều sự kiện (events) được sắp xếp theo
trình tự. Một trường hợp là “một lần thi hành mô hình quá trình
trong thực tiễn”
 Mỗi sự kiện chứa các thuộc tính (attributes).

161
Nhật ký sự kiện

162
 a=register request; b=examine thoroughly; c=examine casually;
d=check ticket; e-decide; f=reinititate request; g=pay
compensasion, và h=reject request
 Dạng đơn giản: dãy hành động {<a,b,c,d>, <a,c,b,d>,…}. <x1,
x2,..,xn> là một “vết” (trace)
 Tập bội (multi-set): mở rộng tập thông thường, một phần tử xuất
hiện nhiều lần: Gộp {<a,b,c,d>112, <a,c,b,d>99,…}
 Cho tập X: tập mọi tập bội trong X ký hiệu B(X)
 Định nghĩa: Cho A tập hành động, một vết của A là A* là dãy
các hành động, Một LB(A*) là một nhật ký dự kiện (trên A)
[AD13] Wil M. P. van der Aalst, Boudewijn F. van Dongen (2013). Discovering Petri
162
Nets from Event Logs. T. Petri Nets and Other Models of Concurrency 7: 372-422.
Nhật ký sự kiện: khía cạnh bổ sung

 Ba khía cạnh bổ sung điển hình


 Tổ chức: Con người, đơn vị, tổ chức…
 Thời gian: Tem thời gian, thời gian thực hiện, thời gian chờ, …
 Tài nguyên: Chi phí.
 Quy trình chung: Phát hiện mô hình quy trình từ NKSK đơn
giản, tiến hành khai phá dữ liệu các khía cạnh bổ sung

[AD13] Wil M. P. van der Aalst, Boudewijn F. van Dongen (2013). Discovering Petri
Nets from Event Logs. T. Petri Nets and Other Models of Concurrency 7: 372-
422. 163
Mô hình Mô
Cycle Diagram Contents
quy hình
trình quá trình [3]
- Mô hình quy trình được biểu diễn bằng một ngôn ngữ mô
hình hóa.
- Có nhiều loại ngôn ngữ mô hình hóa khác nhau như:
BPMN, BPEL, UML, Petri-net,…
- Petri-net là mô hình thường được sử dụng để mô hình hóa
quy trình và có thể chuyển đổi sang các mô hình BPMN,
PBEL, UML,…

164
Ví dụ mô hình quy trình bằng lưới Petri

Lưới Petri mô hình hóa quy trình giải quyết yêu cầu bồi thường từ
khách hàng của một hãng hàng không

165
Ba bài toán khai phá quy trình
Cycle
CácDiagramContents
bài toán trong khai phá quá trình

a) Phát hiện
b) Kiểm tra phù hợp
c) Tăng cường
166
Phát hiện mô hình quy trình
 Là bài toán thứ nhất trong khai phá quy trình
 Input: Nhật ký sự kiện.
 Output: Mô hình quy trình.
 Bài toán thực hiện phát hiện mô hình quy trình dựa vào
thông tin trong nhật ký sự kiện mà không sử dụng bất kỳ
thông tin tiền nghiệm nào.
 Mô hình quy trình được biểu diễn bằng một ngôn ngữ
mô hình hóa
 Có nhiều loại ngôn ngữ mô hình hóa khác nhau (BPMN,
BPEL, UML, Petri-net,…)
 Petri-net thường được sử dụng để mô hình hóa quy
trình và có thể chuyển đổi sang các mô hình BPMN,
PBEL, UML,… khác.

167
Phát hiện quy trình và biên dịch ngược
 Biên dịch ngược
 Decompiling/Reverse Engineering
 Phiên bản chương trình đích  phiên bản chương trình nguồn
 Bài toán khó. Mất thông tin khi biên dịch ngược.
 Một số tài liệu liên quan.
 Phát hiện quy trình
 Phiên bản mô hình quy trình trong thi hành  mô hình quy trình
(ngôn ngữ mô hình hóa)
 “Lập lại sơ đồ khối” từ biên bản chạy chương trình đích
 Đầu vào: không là chương trình đích, là tập các trường hợp thi
hành chương trình
 “tên lệnh” và giá trị các thanh ghi ?
 thi hành “một lệnh” không là một máy mà có thể nhiều người
[Wang10] W. Wang. Reverse engineering: technology of reinvention. CRC, 2010
[Kadavy11] David Kadavy. Design for Hackers: Reverse Engineering Beauty. Wiley, 2011
[Alazard13] Daniel Alazard. Reverse Engineering in Control Design. Wiley-ISTE, 2013
[Nolan12] Godfrey Nolan. Decompiling Android. Apress, 2012
[Dang14] Bruce Dang, Alexandre Gazet, Elias Bachaalany, Sebastien Josse. Practical
Reverse Engineering x86, x64, ARM, Windows Kernel, Reversing Tools, and
Obfuscation. Wiley, 2014
168
Tiếp cận hai giai đoạn

 Mô hình hai giai đoạn+ K/phá khía cạnh bổ sung


 Tinh chế NKSK đầu vàophát hiện mô hìnhkhía cạnh bổ sung
 Mô hình hai giai đoạn: Tinh chế NKSK đầu vào  phát hiện mô hình
 Trình bày: Phát hiện mô hìnhTinh chế NKSK đầu vàoKC BS
[Bose12] R. P. Jagadeesh Chandra Bose. Process Mining in the Large:
Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven
University of Technology, The Netherlands, 2012
169
Tiền xử lý NKSK: T/tượng hóa hoạt động

[Bose09] R. P. Jagadeesh Chandra Bose, Wil M. P. van der Aalst. Abstractions in


Process Mining: A Taxonomy of Patterns. BPM 2009: 159-175, 2009.
170
Tiền xử lý NKSK: Trôi khái niệm

 Trôi khái niệm trong khai phá quy trình


 Trôi đột ngột (sudden): thay đổi lớn, trôi dần (gradual): tiếp cận nhập
pha, trôi định kỳ (Recurring): theo mùa kinh doanh, trôi gia tăng
(Incremental): thay đổi duy trì
[Bose14] R. P. Jagadeesh Chandra Bose, Wil M. P. van der Aalst, Indre Zliobaite, Mykola
Pechenizkiy. Dealing With Concept Drifts in Process Mining. IEEE Trans. Neural
Netw. Learning Syst. 25(1): 154-171, 2014.
[Martjushev15] J. Martjushev, R. P. Jagadeesh Chandra Bose, Wil M. P. van der Aalst.
Change Point Detection and Dealing with Gradual and Multi-order Dynamics171 in
Process Mining. BIR 2015: 161-178. 171
Trực quan mô hình quy trình

Mở rộng mô hình khi bổ sung các khía cạnh: khía cạnh tổ chức (organizational
perspective, “What are the organizational roles and which resources are performing
particular activities?”), khía cạnh trường hợp (case perspective, “Which
characteristics of a case influence a particular decision?”) và khía cạnh thời gian (time
perspective, “Where are the bottlenecks in my process?”)
[Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance and
Enhancement of Business Processes, Springer, 2011.
[Aalst12] Wil M. P. van der Aalst: Process Mining: Overview and Opportunities.
ACM Trans. Management Inf. Syst. 3(2): 7 (2012)
172
KiểmBÀI
traTOÁN
phù hợp
Contents
Cycle Diagram KIỂM TRA SỰ PHÙ HỢP

 Input: - Nhật ký sự kiện (Event Log)


- Mô hình quy trình (Model)
 Output: Các độ đo phù hợp.
 Ứng dụng:
• Xem xét chất lượng của một mô hình quy trình.
• Để xác định những trường hợp chệch hướng
và hiểu chúng có hành vi chung gì.
• Để xác định các đoạn quy trình mà ở đó hầu
hết xảy ra lệch hướng.
• Cho mục đích kiểm toán, …

173

You might also like