Professional Documents
Culture Documents
KPDL C10 KH
KPDL C10 KH
1
Nội dung
1. Học sâu
2. Học suốt đời
3. Khai phá quy trình
2
1. Học sâu
3
Công bố khoa học về học mạng nơron sâu
6/2/2
3
4
Sơ bộ về Trí tuệ nhân tạo
và học mạng nơ ron
5
Tổng quan về Trí tuệ nhân tạo
Khái niệm
Artificial Intelligence
Hệ thống trí tuệ nhân tạo (Artificial intelligence
systems): con người, thủ tục, phần cứng, phần mềm,
dữ liệu và tri thức cần thiết phát triển hệ thống máy
tính & máy liên quan nhằm minh họa đặc trưng của trí
thông minh
Được ứng dụng ở hầu hết các công nghiệp.
Tham khảo tuyển tập “Kinh tế số, trí tuệ nhân tạo,
chuyển đổi số và liên hệ với Việt Nam (Tuyển tập các
nghiên cứu liên quan của Phòng Thí nghiệm Khoa
học dữ liệu và Công nghệ Tri thức), tháng 12/2020")”
https://uet.vnu.edu.vn/~
thuyhq/PPNCKH/Tuyen-tap.pdf
6
Trí tuệ nhân tạo
Nguyễn Thanh Thủy, Hà Quang Thụy, Phan Xuân Hiếu, Nguyễn
Trí Thành. Trí tuệ nhân tạo trong thời đại số: Bối cảnh thế giới và
liên hệ với Việt Nam. Tạp chí Công thương. Trực tuyến ngày
21/8/2018. http://
tapchicongthuong.vn/bai-viet/tri-tue-nhan-tao-trong-thoi-dai-so-b
oi-canh-the-gioi-va-lien-he-voi-viet-nam-55038.htm
.
.
7
Hai trường phái Trí tuệ nhân tạo
8
Trường phái TTNT: các HT ví dụ
9
Cây TTNT: Nền tảng, công nghệ và ứng dụng
Mạng nơ ron: đồ thị tính toán gồm các đơn vị cơ bản (nơ ron nhân
tạo) tạo sức mạnh lớn hơn nhờ kết nối chúng theo những cách đặc biệt
Mô phỏng kết nối nơ ron con người qua hàng triệu năm
12
Lược sử TTNT và học máy mạng nơron
13
[Nguyen18] Nguyễn Thanh Thủy, Hà Quang Thụy, Phan Xuân Hiếu, Nguyễn Trí Thành. Trí tuệ
nhân tạo trong thời đại số: Bối cảnh thế giới và liên hệ với Việt Nam. Tạp chí Công
Thương: Các kết quả nghiên cứu khoa học và Ứng dụng công nghệ (ISSN 0866-7756).
Đăng trực tuyến từ ngày 21/08/2018.
6/2/2
3
[Kamath19] Uday Kamath, John Liu, James Whitaker. Deep Learning for NLP and Speech
Recognition. Springer, 2019.
Học mạng nơ ron: Mùa đông thứ hai
Các sự kiện tiêu biểu [Kamath19]
1992-1993: Bộ học sâu thứ nhất. Jürgen Schmidhuber.
Learning Complex, Extended Sequences Using the
Principle of History Compression. Neural Comput. 4(2):
234-242 (1992)
1997: Long Short-Term Memory (LSTM)
1998: Stochastic Gradient Descent (SGD)
Mùa đông thứ hai
87% thiết kế học mạng nơ ron (tạp chí chuyên về mạng
nơ ron) phạm sai lầm loại 1 (loại ví dụ đúng), sai lầm
loại 2 (nhận ví dụ sai) hoặc cả hai [Elder09].
“quá khớp” dữ liệu mới.
[Raschka22] Sebastian Raschka. STAT 453: Introduction to Deep Learning and Generative
Models. http://stat.wisc.edu/~sraschka/teaching.
[Schmidhuber92] Jürgen Schmidhuber. Learning Complex, Extended Sequences Using the
Principle of History Compression. Neural Comput. 4(2): 234-242 (1992)
[Elder09] John Fletcher Elder, Robert Nisbet, Gary Miner. Handbook of statistical analysis and
data mining applications (1st edition). Elsevier, 2009.
14
Bùng nổ học sâu: Ba cột trụ
Bùng nổ học sâu
Thuật toán nòng cốt (lan truyền ngược, hàm mục tiêu,
tối ưu hóa hàm mục tiêu): không thay đổi đáng kể
Kiến trúc: đồ thị tính toán, kiến trúc phức tạp
Bùng nổ kiến trúc học sâu hiệu quả
Ba cột trụ
Bùng nổ dữ liệu, đặc biệt UGC (ví dụ, ảnh từ người sử
dụng. Nhiều miền ƯD: sẵn có các tập dữ liệu giàu có.
Hệ thống tính toán: bộ XL CPU, GPU, TPU FPGA,
ASIC hệ thống (NVIDIA, v.v.). Phần mềm: mã nguồn
GitHub, công cụ: CUDA, khung TensorFlow, Keras,…
Nỗ lực thực nghiệm: mức điều chỉnh tham số ví dụ+lô
nhỏ+ tập DLHL; tập DLHL được sử dụng nhiều lần
(epochs); huấn luyện dài: ngày/tuần/tháng. Sử dụng:
hàm tiền kích hoạt+kích hoạt đơn giản: nhanh
15
Mạng nơ ron nhân tạo và
học mạng nơ ron
16
Nơron nhân tạo: đơn vị tính toán
[Aggarwal18] Charu C. Aggarwal. Neural Networks and Deep Learning. A Textbook. Springer,
2018.
[Capra20] Maurizio Capra, Beatrice Bussolino, Alberto Marchisio, Guido Masera, Maurizio
Martina, Muhammad Shafique. Hardware and Software Optimizations for Accelerating
Deep Neural Networks: Survey of Current Trends, Challenges, and the Road Ahead.
CoRR abs/2012.11233, 2020.
Hàm tiền kích hoạt “tổng” (đầy đủ, bộ phận) đầu vào có trọng số
Hàm kích hoạt nhận đối số là kết quả hàm tổng và cho giá trị đầu ra 17
Phân rã tiền kích hoạt và (hậu) kích hoạt
Giá trị tiền kích hoạt (pre-activation value) , kết quả tính
toán hàm tiền kích hoạt, về phổ biến là tổng theo kết nối
đầy đủ, , tuy nhiên, có kết nối không đầy đủ
Giá trị hậu kích hoạt (post-activation value) : kết quả tính
toán hàm hậu kích hoạt, , giá trị dự đoán của . Lựa chọn
hàm kích hoạt là rất quan trọng.
Lợi ích phân rã: tiền kích hoạt + kích hoạt
Lưu ý: mọi lớp ẩn dùng chung một hàm kích hoạt
18
Các hàm kích hoạt phổ biến
định danh (hàm tuyến tính): ,
nút đầu ra: giá trị thực (hồi quy tuyến tính).
dấu: , nút đầu ra: giá trị nhị phân (phân lớp nhị
phân).
sigmoid:,
nút đầu ra: một xác suất (hồi quy logistic),
tạo hàm mất mát cực đại khả năng.
tanh:, nút đầu ra: giá trị cả dương/âm phù hợp hơn
sigmoid,
vi phân hướng tâm và lớn hơn sigmoid (hồi quy phi tuyến).
Hàm tuyến tính tinh chỉnh (Rectified Linear Unit: ReLU): ,
Hàm tanh cứng: .
19
Đồ thị hàm kích hoạt và đạo hàm
( 𝒙 ) =𝒙 ( 𝒙 ) =𝒔𝒊𝒈𝒏 ( 𝑥 )=
{
+1 𝑥≥0
−1 𝑥<0
1
( 𝒙 ) =sigmoid ( x )= −𝑥
1+𝑒
exp(− 𝑥)
𝜕𝜎
𝜕𝑥
=
0
≠0 { ∀ 𝑥 ≠0
𝑥=0
𝜕𝜎
=
𝜕𝑥 ( 1+exp(− 𝑥 ) )2
𝜕𝜎
=1
𝜕𝑥 Không liên tục, Thường được dùng làm
không phân biệt đươc, hàm kích hoạt, hiếm khi
hiếm làm hàm mất mát làm hàm tiền kích hoạt
.
𝟐𝒙
𝒆 −𝟏
( 𝒙 ) =𝒕𝒂𝒏𝒉 ( 𝒙 )= 𝟐𝒙 ( 𝒙 ) =𝒎𝒂𝒙 { 𝒙 ,𝟎 }
𝒆 +𝟏
𝜕 4 ∙ exp (2 𝑥 )
=
𝜕𝑥 ( exp ( 2𝑥 ) +1 )2
𝜕𝜎 1
𝜕𝑥
=
0{ ∀ 𝑥≥0
𝑥< 0
𝜕𝜎 1
𝜕𝑥
=
{0
∀ 𝑥 ∈ [ −1,1 ]
∀ 𝑥 ∉ [ −1 , 1 ]
22
Hàm tiền kích hoạt
Mạng LeNet-5 có 6 lớp ẩn
Kết nối
Đầy đủ: Mọi nút lớp trước kết nối mọi nút lớp tiếp theo. Trang trước
Không đầy đủ: bộ phận lớp trước kết nối bộ phận lớp tiếp theo. Đặc
biệt, mạng nơron tích chập: convolutional neural network. Mạng
LeNet-5 (đoán nhận ảnh mười chữ số {0, 1, 2, …, 9}). Tối thiểu rủi
ro quá khớp khi kết hợp thông tin chi tiết / thiên vị cho miền cụ thể
Dạng hàm
Phổ biến: Tính tổng theo trọng số kết nối.
Cá biệt: đa dạng toán tử như tích chập, lấy mẫu con, v.v. LeNet-5 23
Hàm mất mát
“Hàm mất mát” (lost function) rất quan trọng, nhạy cảm
với ứng dụng
Hai kiểu hàm mất mát
o “Bình phương lỗi” đơn giản: cho một thể hiện, cho
tập dữ liệu học.
o “entropy chéo”: giảm độ khác biệt hai biến ngẫu nhiên “quan sát”
và “dự báo”:; entropy của ; phân kỳ KL .
“Mất mát lề” (hinge lost)
Trường hợp dự đoán xác suất
o hồi quy nhị phân: với thực tế, dự đoán,
o phân lớp đa lớp: , XS dự đoán nhãn (liên hệ PL
Bayes Naïve)
24
Học mạng Perceptron
25
Mạng perceptron cơ bản
Giới thiệu
Perceptron cơ bản phân lớp nhị phân. “Đơn lớp”: lớp “đầu ra”
Một thể hiện huấn luyện , ,
Đầu vào mạng: , tham số , đầu ra
Hàm tiền kích hoạt (hàm tuyến tính) toàn bộ: =
Hàm kích hoạt là hàm dấu
Mô hình dự báo: = ()
Mạng bổ sung nơron thiên vị (“perceptron thiên vị”) ở hình bên phải.
Khi đó = () ; Mất cân bằng dữ liệu.
26
Học mạng perceptron cơ bản
Bài toán học
Cho tập ví dụ huấn luyện
Lỗi dự đoán một thể hiện là .
Khi lỗi dự đoán 0: cần điều chỉnh giá trị tham số
thường theo tiếp cận hướng “âm” độ dốc lỗi (gradient
descent).
Vấn đề : Tìm tập giá trị tham số để bộ phân lớp nhị
phân perceptron đạt hiệu năng cao nhất cực tiểu lỗi
dự báo trong toàn bộ tối ưu hóa một hàm mục tiêu
(hàm mất mát)
Tiếp cận “độ dốc lỗi”: Hàm mục tiêu cần là một hàm trơn
(khả vi)
Mất mát “lề” và “tiêu chí perceptron”
27
Hàm mất mát trong perceptron cơ bản
Bài toán học
“Hàm mất mát” (lost function) “bình phương tối thiểu”:
=;
hàm L dạng “cầu thang”, không khả vi, khó sử dụng
Ngầm định xấp xỉ trơn độ dốc hàm mục tiêu:
28
Mất mát lề và Tiêu chí Perceptron
Hầu hết mô hình học máy cơ bản được biểu diễn bằng
mạng nơ ron đơn giản
30
Học mạng nơ ron đa lớp
31
Mạng perceptron đa lớp
32
Chiều sâu thay cho chiều rộng
Đặt vấn đề
Mạng nơ ron hai lớp: công cụ xấp xỉ hàm phổ quát đòi
hỏi lượng rất lớn đơn vị ẩn trong lớp ẩn
Mạng nơ ron sâu (nhiều lớp) hơn đòi hỏi ít đơn vị ẩn
hơn, hàm hợp làm tăng độ mạnh của mạng.
Mạng sâu
Là một hình thức chính quy hóa
Đặc trưng lớp sau được áp đặt từ lớp trước làm giảm
kích thước mạng.
Số lượng tham số tổng cộng nhỏ hơn nhiều so với mạng
hai lớp cùng hiệu năng.
Mạng nơ ron sâu ít vấn đề quá khớp
Thách thức khác: triệt tiêu – bùng nổ độ dốc, độ phức tạp
tính toán, các thách thức khác
33
Mạng nơron sâu
Khái niệm
Có nhiều lớp: ngoài lớp đầu ra còn các lớp ẩn. Lưu ý, “lớp
đầu vào” (tuyền dữ liệu) không được coi là “lớp”
Thiên vị hoặc không thiên vị
Ví dụ: một đầu ra
34
Biểu diễn trọng số kết nối
35
Mạng nơron sâu đa đầu ra
Lớp đầu ra
Đa đầu ra (k lớp) sử dụng hàm softmax: lớp softmax
36
Học sâu và hiệu năng của học sâu
Học sâu
Thêm các lớp ẩn (lớp đầu vào không được coi là một “lớp”). Mạng
truyền thẳng (feed-forward network). Các lớp ẩn:
o số lượng các nút có thể khác nhau,
o hàm tiền kích hoạt có thể khác nhau
o kết nối: đầy đủ và không đầy đủ
Hiệu năng học sâu và học truyền thống
Học truyền thống: ít dữ liệu học sâu: nhiều dữ liệu
Một số tác vụ hẹp cụ thể: thuật toán học sâu vượt qua con người
Đồ thị tính toán với kết nối đặc biệt tạo sức mạnh
Cân bằng về Hàm kích hoạt: phi tuyến mọi lớp ẩn cùng một hàm
37
Vai trò của hàm kích hoạt phi tuyến
Định lý
Một mạng đa lớp chỉ sử dụng hàm kích hoạt định danh trong tất cả
các lớp sẽ được rút gọn thành mạng một lớp thực hiện hàm hồi quy
tuyến tính
mạng sâu phần lớn chỉ có ý nghĩa khi hàm kích hoạt trong các
lớp trung gian là phi tuyến
38
Thuật toán lan truyền ngược
Giai đoạn tiến
Các đầu vào cho một thể hiện huấn luyện được đưa vào mạng nơ-
ron: một loạt tính toán chuyển tiếp trên các lớp, sử dụng tập các
trọng số hiện tại.
Đầu ra dự đoán cuối cùng có thể được so sánh với kết quả của thể
hiện huấn luyện và đạo hàm của hàm mất mát đối với đầu ra hiện
thời được tính toán.
Đạo hàm của hàm mất mát hiện thời này cần được tính theo trọng
số ở tất cả các lớp trong giai đoạn lùi.
39
Thuật toán lan truyền ngược
Giai đoạn lùi
Mục tiêu chính: tìm và tính toán độ dốc của hàm mất mát đối với các
trọng số khác nhau theo luật chuỗi tính đạo hàm hàm hợp: phức tạp.
Các độ dốc của hàm mất mát được dùng để cập nhật các trọng số.
Vì các độ dốc này được học theo hướng lùi và bắt đầu từ nút đầu ra:
giai đoạn lan truyền ngược.
40
Thuật toán lan truyền ngược
41
Đạo hàm triệt tiêu hoặc bùng nổ
Lan truyền ngược: Dạng quy hoạch động
Giai đoạn tiến: Một được đưa vào mạng. Tính theo tập
trọng số hiện tại, đạo hàm hàm mất mát theo và .
Giai đoạn lùi: Tìm các độ dốc (đạo hàm) hàm mất mát để
cập nhật các trọng số; từ lớp đầu ra theo luật chuỗi.
42
Thuật toán quy hoạch động biến kích hoạt
Sử dụng pha tiến để tính giá trị mọi nút ẩn, đầu ra , hàm mất mát
đối với ví dụ học đã cho có đầu vào và đầu ra .
Khởi động .
Sử dụng công thức đệ quy sau đây:
o để tính từng giá trị theo mỗi hướng quay lui, trong đó là hàm
kích hoạt của mạng nơ ron: . Sau mỗi tính toán như vậy, tính
đạo hàm theo các trọng số ẩn như sau:
o (*)
o Trong trường hợp có thiên vị ẩn, do thực tế là nơ ron thiên vị
luôn hoạt động với giá trị kích hoạt là nên chỉ cần gán khi tính
toán đạo hàm riêng của hàm mất mát theo thiên vị của nút trong
vế phải của (*).
Sử dụng đạo hàm riêng của hàm mất mát theo các trọng số để thực
hiện việc giảm độ dốc theo thống kê đối với ví dụ học
43
Thuật toán q/h động biến tiền kích hoạt
Sử dụng pha tiến để tính giá trị mọi nút ẩn, đầu ra , hàm mất mát
đối với ví dụ học đã cho có đầu vào và đầu ra .
Khởi động , trong đó là hàm kích hoạt của mạng nơ ron: .
Sử dụng công thức đệ quy sau đây:
o để tính từng giá trị theo mỗi hướng quay lui. Sau mỗi tính toán
như vậy, tính đạo hàm theo các trọng số ẩn như sau:
o (**)
o Trong trường hợp có thiên vị ẩn, do thực tế là nơ ron thiên vị
luôn hoạt động với giá trị kích hoạt là nên chỉ cần gán khi tính
toán đạo hàm riêng của hàm mất mát theo thiên vị của nút trong
vế phải của (**).
Sử dụng đạo hàm riêng của hàm mất mát theo các trọng số để thực
hiện việc giảm độ dốc theo thống kê đối với ví dụ học
44
Giảm độ dốc
Lưu ý
Trường hợp hình là lý tưởng, về tổng thể hàm mất mát rất phức tạp
Khởi tạo ngẫu nhiên dẫn đến các tham số ban đầu là khác nhau
trong mỗi lần học mạng nơ ron khác nhau: (i) giảm độ dốc có thể đạt
đến các cực tiểu khác nhau ở mỗi lần chạy (cực tiểu địa phương);
(ii) mạng nơ ron có thể tạo ra các đầu ra dự đoán khác nhau.
không tốn tại một thuật toán chung đảm bảo đạt cực tiểu toàn cục
cho mọi hàm mất mát.
45
Giảm độ dốc: Tình huống sự cố
46
Ba giải pháp điển hình
Giảm độ dốc với động lượng (Hình vẽ)
o và
Giảm độ dốc với động lượng tăng tốc Nesterov
o và
Ước tính thời điểm thích hợp Adam
o và ,
o và ,
o , , của và
47
Lập lịch tỷ lệ học
48
Ba mạng nơ ron thông dụng
49
Mạng sâu: Mã hóa
h𝑝+1=Φ ( 𝑊 𝑇𝑝+1 h 𝑝 )
h1 =Φ ( 𝑊 1 𝑥 )
𝑇
𝑜=Φ ( 𝑊 𝑘 +1 h 𝑘)
𝑇
51
Một mạng mã hóa cụ thể
52
Mạng nơ ron tích chập
Giới thiệu
Áp dụng kết quả nghiên cứu võ não thị giác mèo (1959)
AlexNet gồm hai nhóm lớp: nhóm lớp tích chập (C1-C5)
và nhóm lớp kết nối đầy đủ (FC6-FC8). Lớp tích chập:
hàm kích hoạt ReLU theo tích chập; ba lớp C1, C2, C5
còn có gộp cực đại MP (max-pooling) tiếp sau hàm
ReLU. Các lớp C1-C5, FC1, FC2 được dùng cho học
đặc trưng, lớp đầu ra FC8 dùng hàm softmax cho phân
lớp 1000 ảnh [Aggarwal18]
53
Phép nhân chập
(a) RNN (b) Trải mạng RRR (a) thành một dãy mạng theo thời gian
.
56
Học mạng RNN
;
57
Mạng RNN hai chiều và đa lớp
58
Học sâu giải thích được
59
Bài báo về TTNT và Học sâu giải thích được
6/2/23 60
Học sâu giải thích được
Liz Grennan, Andreas Kremer, Alex Singla và Peter Zipparo. Why businesses need explainable
AI—and how to deliver it. McKinsey’s Article, September 29, 2022.
6/2/23 61
Học sâu giải thích được
.
.
63
M
.
.
64
Hạn chế và xu hướng
học sâu
65
Thách thức về tính toán
Huấn luyện mô hình
Thách thức lớn: thời gian huấn luyện mạng
Miền văn bản và ảnh: hàng tuần
Giải pháp
Bộ xử lý độ họa GPU, có thể là TPU (Tensor PU)
Thuật toán cộng tác Torch cho GPU
Sử dụng mô hình
Yêu cầu lượng nhỏ tính toán
Nén mô hình là một giải pháp chung (Chắt lọc tri thức)
Tiny Machine Learning
66
Thách thực tính toán: Ví dụ
GPT-3: 175 tý th/số 07/2020 [Brown20]
https://www.datacamp.com/community/tutorials
/deep-learning-python
[Chollet18] François Chollet. Deep Learning 68
Học sâu: Hạn chế [Chollet18]
Giới thiệu
Hạn chế của học sâu
Học sâu suốt đời: Một chủ đề nghiên cứu thời sự
Học sâu và hạn chế
Học sâu “vô hạn” ứng dụng
nhiều ứng dụng ngoài tầm học sâu dù có rất nhiều ví dụ mẫu
X={mô tả sản phẩm phần mềm do một người quản lý viết}
Y={mã nguồn đáp ứng mô tả do một đội viết}
Cho 105 (106) cặp (x, y) XY. Không thể sinh một mô hình học
sâu ánh xạ X Y
Giải thích: học xâu = chuỗi các phép biến đổi hình học đơn giản
và liên tục: X Y (hai không gian vector) ngầm định dãy biến
đổi liên tục từ X sang Y.
Một mô hình học sâu là một chương trình song hầu hết chương
trình không thể biểu diễn bằng mô hình học sâu
Chồng lấp mô hình chỉ giảm thiểu mà không giải quyết
https://blog.keras.io/the-limitations-of-deep-learning.html
69
Hạn chế học sâu: ví dụ 1
“Cậu bé đang cầm cây gậy phân loại ảnh gấu trúc thành vượn
bóng chày”
algorithmic primitives
geometric primitives
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018 73
Truyền ngược, phân biệt và học tự động
https://gpt3demo.com/apps/mt-nlg-by-microsoft-and-nvidia-ai
75
Chắt lọc tri thức: Khung nhìn
[Gou21] Jianping Gou, Baosheng Yu, Stephen J. Maybank, Dacheng Tao. Knowledge
Distillation: A Survey. Int. J. Comput. Vis. 129(6): 1789-1819 (2021). Google
Scholar Cited by 330
76
Chắt lọc tri thức: Một số chủ đề [Gou21]
77
Chắt lọc tri thức: mô hình học sâu
[Gupta20] Manish Gupta, Puneet Agrawal. Compression of Deep Learning Models for
Text: A Survey. CoRR abs/2008.05221, 2020.
78
Tiny Machine Learning
Giới thiệu
Thiết bị tính toán nhỏ (điện thoại di động, thiết bị kết nối
cảm biến, v.v.) phổ biến
Gần gũi các ứng dụng người dùng
Thách thức mô hình lớn
Mô hình đòi hỏi dung lượng lớn
Chạy mô hình đòi hỏi năng lượng nhất định
Thiết bị nhỏ, không sẵn nguồn năng lượng bù đắp
Tiếp cận học máy mới
Khai thác được các nguồn mô hình lớn
Đáp ứng thực tế dung lượng nhỏ và tiêu thụ năng
lượng ít
tinyML: học máy nhỏ gọn và công suất thấp
79
TinyML: Trong thế giới thực và TTNT số
[Ray22]
81
Tính “khả mở”tới rất nhỏ của Tiny ML
[Ray22]
82
Tiny ML: Các thành phần
[Ray22]
83
Tiny ML: Kiến trúc xử lý tại chỗ trên FPGA
[Ray22] 85
Tiny ML:xử lý sự kiện phức tạp trong IIoT
[Ray22]
86
Tiny ML:Trình kích hoạt chính
[Ray22]
87
2. Học máy suốt đời
1. Tại sao nghiên cứu học máy suốt đời ?
2. Học máy truyền thống liên quan
3. Học máy suốt đời là gì ?
4. Mô hình chủ đề suốt đời
5. Học sâu suốt đời
88
Hình ảnh Trường thu – đông Quảng Bình
89
Hình ảnh Trường thu – đông Quảng Bình
90
Bài báo trên DBLP
Học liên tục (Continual Learning ), Học suốt đời (Lifelong Learning),
Học thế giới mở (Open-world Learning), Thiên vị quy nạp (Inductive Bias)
91
Nguồn tài liệu chính
Sách
[Chen16] Zhiyuan Chen and Bing Liu. Lifelong Machine Learning.
Morgan & Claypool Publishers, November 2016. Phiên bản 2: 2018
[Thrun96] Sebastian Thrun. Explanation-Based Neural Network
Learning: A Lifelong Learning Approach. Springer US, 1996.
Bài trình bày
Zhiyuan Chen and Bing Liu. Lifelong Machine Learning in the Big
Data Era. A IJCAI 2015 Tutorial. 130
Zhiyuan Chen, Estevam Hruschka, Bing Liu. Lifelong Machine
Learning and Computer Reading the Web. A KDD-2016 Tutorial. 217
DS&KTLab: A New Lifelong Topic Modeling Method and Its Application
to Vietnamese Text Multi-label Classification. ACIIDS 2018 và các bài
báo liên quan khác
Trang Web
https://www.cs.uic.edu/~liub/lifelong-learning.html. Zhiyuan Chen
https://www.cs.uic.edu/~liub/lifelong-learning.html. Bing Liu
http://lifelongml.org/. Website on lifelong machine learning. 92
Tại sao học máy suốt đời?
- Học máy truyền thống: hạn chế
- Học máy suốt đời: hiện diện một cộng đồng
- Một dự án về học máy suốt đời
93
Học máy truyền thống (ML1.0)
Thành công
Học máy thống kê: nhiều thành công đáng ghi nhận
Hạn chế
Học máy cô lập: xem xét một bài toán học máy
Không thừa kế được ”kinh nghiệm” từ học trước đây
Không thể đáp ứng “học tựa như con người”
Yêu cầu tập ví dụ huấn luyện đủ lớn
Yêu cầu
“học tựa như con người”
Chỉ cần tập ví dụ rất nhỏ
94
Học suốt đời (ML2.0): một hành vi trí tuệ
95
Học suốt đời: một nguồn trí tuệ [Poole17]
Sinh học
Tiến hóa của loài người
Sống sót được trong nhiều môi trường sống khác nhau
Văn hóa
Cung cấp ngôn ngữ
Các công cụ hữu dụng, các khái niệm hữu dụng, sự thông thái
từ cha mẹ và giáo viên truyền tới con cái
Học suốt đời
Con người học hỏi suốt đời
Tích lũy tri thức và kỹ năng
Học nhanh hơn và hiệu quả hơn
http://lifelongml.org/
98
Học suốt đời: một cộng đồng
https://www.seas.upenn.edu/~eeaton/class_rescat.html#Lifelong%20L
earning%20and%20Multi-task%20Learning
100
Một chương trình nghiên cứu
Thông tin chung
Cơ quan nghiên cứu Bộ Quốc phòng Mỹ (Defense Advanced
Research Projects Agency: DARPA)
Quản lý chương trình: Tiến sĩ Hava Siegelmann,
https://www.darpa.mil/staff/dr-hava-siegelmann,
http://dblp.uni-trier.de/pers/hd/s/Siegelmann:
Hava_T= (J40, C42)
Mục tiêu kỹ thuật
Cơ chế học máy: học máy liên tục áp dụng kinh nghiệm quá khứ
và thích ứng "bài học kinh nghiệm" với dữ liệu/tình huống mới,
phát triển kỹ thuật giám sát hành vi hệ thống học máy, đặt phạm vi
khả năng thích ứng, và can thiệp vào chức năng hệ thống khi cần.
Lý thuyết mạng, thuật toán, phần mềm và kiến trúc máy tính.
Cơ chế học sinh học: (i) hệ sinh thái học: di truyền từ thế hệ cha
con: di truyền toàn bộ, di truyền chỉ khả năng học, v.v.?; (ii) làm
thích nghi áp dụng được tới hệ thống học máy.
https://www.darpa.mil/news-events/2017-03-16
101
Học máy truyền thống liên quan
102
Học máy giám sát tối ưu hóa
Bài toán học máy giám sát
Cho miền dữ liệu I và một tập nhãn O (hữu hạn)
Tồn tại một ánh xạ f: I O, f chưa biết
Input
Cho “tập ví dụ mẫu” IL: (ILIIL),
f xác định trên IL, i IL: f(i)=o đã biết.
Output
Tìm ánh xạ toàn bộ f* xấp xỉ tốt nhất f
Ví dụ và trao đổi
Miền dữ liệu I = {nhận xét sản phẩm A}, O = {khen, chê}
Ánh xạ f: I O, f chưa biết
Input: Tập ví dụ mẫu IL gồm đánh giá đã có nhãn khen/chê.
Output: Ánh xạ xấp xỉ tốt nhất f* để xây dựng chương trình
tự động gán nhãn cho mọi nhận xét.
103
Xấp xỉ tốt nhất?
Biết f chỉ ở một bộ phận (tập IL): f|IL
Thách thức
Tập G vô hạn các ánh xạ, gG, g: IO
Chưa biết f toàn bộ
Cơ hội: Biết f|IL để chọn f* “xấp xỉ tốt nhất” f
f|IL là toàn bộ “hiểu biết” về f
vừa để tìm ra f*
vừa để kiểm tra tính “tốt nhất” của f*
Xấp xỉ tốt nhất
Giả thiết: IL “đại diện” cho I; “mọi đặc trưng của I” đều tìm
được từ IL.
“đánh giá” cần độc lập với “xây dựng”
IL: vừa tìm f* vừa đánh giá f*. Chia ngẫu nhiên IL = ITrain + ITest.
ITrain xây dựng f* và ITest đánh giá f*.
Một số độ đo “tốt” liên quan đến tính “tốt nhất” 104
Học máy không giám sát tối ưu hóa
Bài toán học không giám sát
Cho I là tập dữ liệu I={<i>},
Cho tập G là tập các ánh xạ g: IZ với Z là tập số nguyên
Cho một độ đo “tốt” trên tập các ánh xạ G
Tìm hàm f: IZ đạt độ đo “tốt nhất” trên tập G.
Trường hợp đơn giản:
G = {g là một phân hoạch của I: g={I1,I2,…, Ig} và I=Ij}}
tìm f là phân hoạch tốt nhất
105
Học truyền thống và học chuyển đổi
Học truyền thống và Học chuyển đổi
Học truyền thống: (i) Cho bài toán/miền A: có dữ liệu có nhãn để dạy mô
hình A, áp dụng mô hình tới dữ liệu chưa nhãn của A; (ii) Cho bài toán/miền
B: cần đủ ví dụ mẫu cho B; (iii) Không liên hệ học A và B
Học chuyển đổi: (i) Transfer learning/domain adaptation (thích ứng miền); (ii)
Miền B: một/nhiều miền nguồn, nhiều dữ liệu có nhãn; Miền đích A: ví dụ
mẫu ít/vắng; (iii) Liên kết học B tới A ; (iv): Giả thiết quan trọng: miền
nguồn “tương tự” miền đích : tri thức miền B dùng cho học miền đích A
www.comp.nus.edu.sg/~leews/MLSS/Transfer1.pptx
106
Học chuyển đổi và học suốt đời
Kiểu truyền tri thức miền nguồn cho miền đích
chuyển dịch “ví dụ có nhãn nguồn” “ví dụ có nhãn đích”; NLP
chuyển dịch “đặc trưng nguồn” “đặc trưng đích”
Học tương ứng cấu trúc Structural Correspondence Learning:
SCL: ứng dụng văn bản, “dấu hiệu đặc trưng” cùng xuất hiện ở hai
miền “đặc trưng then chốt”, ví dụ từ phổ biến ở cả hai miền
Học sâu (deep learning) trong học chuyển đổi.
Phân biệt học suốt đời với học chuyển đổi
Học chuyển đổi không học liên tục và không tích lũy tri thức
Học chuyển đổi là một chiều
Học suốt đời không đòi hỏi yêu cầu tương tự miền
Textual Entailment: Minh Quang Nhat Pham, Minh Le Nguyen, Akira Shimazu. An
Empirical Study of Recognizing Textual Entailment in Japanese Text. CICLing (1)
2012: 438-449; Quang-Thuy Ha, Thi-Oanh Ha, Thi-Dung Nguyen, Thuy-Linh
Nguyen Thi. Refining the Judgment Threshold to Improve Recognizing Textual
Entailment Using Similarity. ICCCI (2) 2012: 335-344.
VietSentiWordNet: Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham, Cong-To
Luu.An Upgrading Feature-Based Opinion Mining Model on Vietnamese Product
Reviews. AMT 2011: 173-185.
107
Học đa nhiệm theo lô và học suốt đời
Giới thiệu
multi-task learning/batch multi-task learning “theo lô”
Định nghĩa: học nhiều bài toán 𝒯 = {1, 2, …, N} đồng thời, mỗi bài
toán j có dữ liệu học Dj. Mục tiêu tối ưu hóa hiệu năng mọi bài toán
Giả thiết các bài toán có liên quan chặt
Dữ liệu bài toán trong cùng một không gian, các mô hình bài toán
“tựa” trên một mô hình tổng quát
Sử dụng chung tập đặc trưng
Phân biệt học suốt đời với học đa nhiệm theo lô
Cùng mục địch chia sẻ thông tin hỗ trợ việc học.
Học đa nhiệm theo mô hình truyền thống: không tích lũy tri thức,
không sử dụng khái niệm học liên tục
Học đa nhiệm trực tuyến: một kiểu học suốt đời do có giữ lại tri
thức cho học về sau
108
Học trực tuyến đơn nhiệm& học suốt đời
Giới thiệu
Online machine learning
Định nghĩa: Điểm dữ liệu huấn luyện diễn ra tuần tự
theo một thứ tự nhất định, khi điểm dữ liệu mới xuất
hiện mô hình hiện tại được cập nhật để phù hợp tốt nhất
Là một mô hình học theo ghi nhớ
Phân biệt học suốt đời với học trực tuyến
Học trực tuyến: Thực hiện chỉ một bài toán theo thời
gian, không lưu tri thức, không sử dụng tri thức từ
trước.
Học suốt đời: học một chuỗi bài toán khác nhau, lưu
và sử dụng tri thức hỗ trợ bài toán mới
109
Học tăng cường và học suốt đời
Giới thiệu
Reinforcement Learning: RL
Định nghĩa: học cách hành động theo tiếp cận tương tác “thử và
đánh giá lỗi” trong môi trường động. Mục đích:
Thử và đánh giá lỗi trong mỗi bước tương tác: (i) nhận input chứa
trạng thái môi trường hiện thời; (ii) Chọn một hành động trong tập
hành động có thể thay đổi môi trường, (iii) Tính lại giá trị trạng
thái môi trường: thưởng hoặc phạt.
Học được quỹ đạo tối ưu hóa mục tiêu ánh xạ trạng thái hành
động để cực đại tổng thưởng trong thời gian dài.
Phân biệt học suốt đời với học tăng cường
Học tăng cường:
phạm vi: chỉ một bài toán và ở một môi trường,
không tích lũy và sử dụng tri thức.
110
Học máy suốt đời và học thế giới mở
- Silver 2013
- Z. Chen và B. Liu 2014-2016
- Học thế giới mở
111
Khung học suốt đời [Silver13]
[Isele17] David Isele, Mohammad Rostami, Eric Eaton. Using Task Descriptions in
Lifelong Machine Learning for Improved Performance and Zero-Shot Transfer.
CoRR abs1710.03850 (2017)
114
Học máy suốt đời [Chen and Liu, 2016]
Định nghĩa học suốt đời
Một quá trình học liên tục
Tại thời điểm bất kỳ: (i) bộ học đã hoàn thành một chuỗi N bài
toán/với tập dữ liệu học T1/D1, T2/D2, …, TN/DN: Ti thuộc 1/nhiều
kiểu bài toán thuộc một miền hoặc nhiều miền; (ii) Gặp bài toán
mới/hiện tại TN+1/DN+1, sử dụng tri thức quá khứ trong CS tri thức
KB để học bài toán TN+1.
Mục tiêu: Tối ưu hóa bài toán TN+1/Tối ưu hóa mọi bài toán T1, T2,
…, TN, TN+1.
Một số nhận xét
Định nghĩa ở mức chung chung cần được diễn giải.
Ba đặc trưng chính: học liên tục, tích lũy và duy trì tri thức trong
KB học một loạt bài toán, học có thể không dừng, học ngày
càng thông thạo và học tốt hơn.
Khái niệm “miền” (không gian đặc trưng) và “kiểu bài toán” (trích
xuất thông tin, liên kết thực thể)
Bài toán mới xuất hiện đột ngột hoặc từng bước. 115
Tri thức mức cao [Chen and Liu, 2016]
116
Khung học máy suốt đời [Chen and Liu, 2016]
Giới thiệu
Bốn thành phần chính: Cơ sở tri thức (Knowledge Base: KB), Bộ
học dựa trên tri thức (Knowledge-Based Learner: KBL), Bộ quản lý
bài toán (Task Manager: TM) và Đầu ra
Có chuyển giao thông tin từ các bước
117
Cơ sở tri thức
Giới thiệu chung
Cơ sở tri thức gồm có: Kho thông tin quá khứ (Past Information
Store: PIS), Bộ khai phá siêu tri thức (Meta-Knowledge Miner:
MKM), Kho siêu tri thức (Meta-Knowledge Store: MKS) và Bộ suy
luận tri thức (Knowledge Reasoner: KR)
Kho thông tin quá khứ
Lưu thông tin học trong mỗi bài toán quá khứ: (i) dữ liệu gốc, (ii)
kết quả trung gian, (iii) mô hình/mẫu kết quả học được.
Người dùng quyết định cần giữ lại gì để giúp việc học tương lai.
Bộ khai phá siêu tri thức
Khai phá siêu tri thức từ PIS và MKS (siêu khai phá: meta-mining).
Tri thức kết quả được lưu vào MKS.
Kho siêu tri thức và Bộ suy luận tri thức
MKS: Biểu diễn tri thức phù hợp
KR: suy luận dựa trên tri thức MKS, thông tin PIS ra tri thức mới
118
Ba thành phần khác
Bộ học dựa trên tri thức
Hai thành phần con: dùng tri thức quá khứ từ KB học bài toán mới
Bộ khai phá tri thức bài toán (Task knowledge miner: TKM): dùng
tri thức thô/thông tin từ KB để khai phá/xác định tri thức phù hợp
bài toán hiện tại. Cần tri thức đặc tả bài toán và tri thức tổng quát
hơn được khai phá từ KB
Bộ học: Sử dụng tri thức khai phá được vào học bài toán mới.
Đầu ra
Kết quả học cho người dùng: mô hình dự báo/phân lớp, cụm chủ
đề…
Bộ quản lý bài toán
nhận và quản lý các bài toán đi tới hệ thống và xử lý việc thay đổi
bài toán và đề xuất bài toán học mới cho KBL
119
Tài liệu nghiên cứu
[Chen18] Zhiyuan Chen, Bing Liu. Lifelong
Machine Learning (2nd edittion). Morgan &
Claypool, 2018
CHAPTER 5. Open-World Learning
[Bendale15] Abhijit Bendale and Terrance E Boult. Towards open world
recognition. IEEE Conference on Computer Vision and Pattern
Recognition, pages 1893–1902, 2015.
[Fei16] Geli Fei and Bing Liu. Breaking the closed world assumption in
text classification. NAACL-HLT, pages 506–514, 2016.
[Fei16a] Geli Fei, Shuai Wang, Bing Liu. Learning Cumulatively to
Become More Knowledgeable. KDD 2016: 1565-1574.
[Shu17] Lei Shu, Hu Xu, Bing Liu. DOC: Deep Open Classification of
Text Documents. EMNLP 2017: 2911-2916.
Lei Shu, Hu Xu, Bing Liu. Unseen Class Discovery in Open-world
Classification. CoRR abs/1801.05609, 2018
CHAPTER 8. Continuous Knowledge Learning in Chatbots
[Mazumder18] Sahisnu Mazumder, Nianzu Ma, and Bing Liu. Towards a
continuous knowledge learning engine for chatbots. ArXiv:1802.06024,
2018
120
Ví dụ minh họa 1: Người máy chào hỏi
Người máy chào đón khách hàng ở cửa ra-vào
Với mỗi khách hàng quen: Có ảnh, tên khách hàng, thông tin
khác và mô hình đoán nhận khách hàng từ ảnh
Một khách hàng tới cửa ra –vào. Người máy chụp ảnh, sử dụng
mô hình đoán nhận khách hàng để biết tên khách hàng.
Tiếp cận học máy thế giới đóng
Số lớp = số lượng khách hàng quen + 01 “lớp chưa biết”
Khách quen: phát hiện, chào hỏi theo tên
Khách lạ: phân vào lớp chưa biết và đợi người quản lý nạp mô
hình phân lớp mới.
Tiếp cận học máy thế giới đóng
Số lớp = số lượng khách hàng quen + k “lớp chưa biết”
Khách quen: phát hiện lớp, chào hỏi theo tên
Khách lạ: bổ sung dữ liệu về khách như chụp thêm ảnh nhận
diện, đàm thoại với khách hàng hoặc người quản lý để biết tên
và các thông tin khác về khách hàng. Chào hỏi theo tên. Xây
dựng mô hình đoán nhận khách hàng theo ảnh.
121
Ví dụ minh họa 2: Chatbot với chủ đề mới
Đàm thoại chatbot
Chatbot đã nhận biết được một số chủ đề cho trước theo mô
hình phân lớp từ ví dụ học liên quan tới mỗi chủ đề
Khởi động một đàm thoại mới: Sử dụng các mô hình phân lớp
để nhận diện chủ đề của đàm thoại hiện thời
Tiếp cận thế giới đóng
Người đàm thoại nêu câu đàm thoại, dùng các mô hình phân
lớp phát hiện chủ đề người đàm thoại nêu ra.
Sử dụng cơ sở tri thức cho chủ đề chưa biết: suy luận tuy nhiên
không tự nhiên
Tiếp cận thế giới mở
Số lớp = số chủ đề đã biết + k lớp “khác đi”
Câu đàm thoại thuộc chủ đề: tiếp tục trợ giúp
Câu đàm thoại không thuộc chủ đề đã biết. Sử dụng Cơ sở tri
thức, đàm thoại người dùng để thêm tri thức dữ kiện.
Xây dựng mô hình phân lớp theo các chủ đề liên quan với đàm
thoại bổ sung.
122
Ví dụ minh họa 3: Xe tự lái trên đường
Xe tự lái
Muôn màu “vật” có thể gặp trên đường
Có mô hình liên quan tới các kiểu đối tượng “đã biết”
Xuất hiện không ngừng các đối tượng “chưa biết”
Chỉ có thể tiếp cận thế giới mở
Bài toán rất phức tạp
Ghi nhận dữ liệu đối tượng chưa biết và tương tác để có thêm
thông tin về đối tượng chưa biết
Tương tác: (i) người giám sát, (2) khách hàng, (3) đa tác tử: kết
nối với các xe đang vận hành “láng giềng” bổ sung tri thức về
đối tượng chưa biết
Qua ba ví dụ
Nhận ra một “cái mới chưa biết” nào đõ xuất hiện
Tự động học để hiểu về “cái mới chưa biết” đó
123
Học thế giới mở
Định nghĩa
1) Bộ học có một mô hình phân lớp đa lớp FN={f1, f2,..., fN} từ N
tập dữ liệu lớp quá khứ DN= {D1, D2, …, DN} với các nhãn lớp
tương ứng YN= {l1, l2, …, lN}. thể hiện mới x, FN hoặc gán
nhãn li YN hoặc từ chối và đưa x vào tập chưa biết R.
2) Hệ thống/người sử dụng xác định các lớp chưa biết ẩn C trong
R và thu thập dữ liệu học cho các lớp chưa biết
3) Giả sử có k lớp mới đã đủ dữ liệu học, bộ học học gia tăng k
lớp mới theo dữ liệu học. Bộ học cập nhật là (FN+k, DN+k, YN+k).
Học thế giới mở là một dạng học suốt đời
Bài toán TN+1: xây dựng bộ phân lớp mở đa lớp dựa trên các lớp
đã biết và các lớp mới
Cơ sở tri thức: mọi mô hình thuộc FN+k và mọi dữ liệu thuộc DN+k.
3) học gia tăng truyền thống (không từ chối thể hiện lớp chưa
biết) dù có bổ sung lớp mới gia tăng mà không cần học lại toàn
bộ mô hình
124
Học không gian tương tự theo tâm [Fei16]
Tư tưởng
Học khái niệm mới của con người thông qua các khái niệm
tương tự đã biết
Đã biết {“phim”, “đồ nội thất”, “bóng đá”} cần học khái niệm mới
chưa biết “bóng rổ”. “Bóng rổ” tương tự “bóng đá” và rất khác
biệt “phim” và “đồ nội thất”
Hai bước (1) tìm kiếm tập SC các lớp đã biết tương tự lớp mới
chưa biết lN+1, (2) học phân biệt tách lớp mới chưa biết lN+1 với
các lớp đã biết tương tự trong SC
center-based similarity: tương tự theo tâm
Giải pháp
(1) Tìm SC: Chạy từng bộ phân lớp nhị phân “1-vs-rest” trong FN
với mỗi xDN+1. Lớp “tương tự” với lớp “mới chưa biết” có một
tỷ lệ đoán nhận các x DN+1 vượt qua một ngưỡng cho trước.
(2) gồm hai nội dung: (i) xây dựng phân lớp nhị phân đoán nhận
lớp N+1 với DN+1 tập ví dụ dương và SCDi là tập ví dụ âm (2)
cập nhật các phân lớp thuộc SC với tập ví dụ dương đã biết còn
tập ví dụ âm là tập ví dụ âm đã biết bổ sung thêm DN+1.
125
Thuật toán học gia tăng CBS khái quát
N
H
[Fei16] mô tả cụ thể
thuật toán CL-cbsSVM
với “tương tự theo
tâm”
126
Đánh giá thuật toán học gia tăng CBS
130
Học sâu suốt đời
Một vài tham khảo khác
David Isele. Thesis Proposal: Representations for Continuous Learning.
Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence
(AAAI-17).
https://www.grasp.upenn.edu/people/david-isele
https://www.grasp.upenn.edu/labs/lifelong-machine-learning
Simon Stiebellehner, Jun Wang, Shuai Yuan. Learning Continuous
User Representations through Hybrid Filtering with doc2vec.
arXiv:1801.00215.
Andrei A. Rusu, Neil C. Rabinowitz, Guillaume Desjardins, Hubert
Soyer, James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, Raia
Hadsell. Progressive Neural Networks. CoRR abs/1606.04671, 2016
Irina Higgins, Arka Pal, Andrei A. Rusu, Loïc Matthey, Christopher
Burgess, Alexander Pritzel, Matthew Botvinick, Charles Blundell,
Alexander Lerchner. DARLA: Improving Zero-Shot Transfer in
Reinforcement Learning. ICML 2017: 1480-1490
James Kirkpatrick et al. Overcoming catastrophic forgetting in neural
networks. CoRR abs/1612.00796, 2016.
v.v.
131
Mô hình chủ đề suốt đời
- Thiên vị quy nạp trong học máy suốt đời
- Hai tiếp cận mô hình chủ đề suốt đời
- Thiên vị quy nạp trong mô hình chủ đề miền gần
132
Lựa chọn tri thức kinh nghiệm
[Thrun96]
134
Mô hình chủ đề suốt đời [Chen&Liu 2016]
Miền bài toán
Khai phá quan điểm (opinion mining)/phân tích đánh giá
(semitiment analysis)
Học suốt đời “nhiều miền” đối tượng khác nhau: nhận xét điện thoại
di động, máy ảnh, bộ phim, v.v. phát hiện “khía cạnh” “aspects”
Mô hình chủ đề của Blei và cộng sự năm 2003
Khung học máy suốt đời: Xem xét CSTT
Tri thức quá khứ nào nên được lưu giữ lại và tích lũy?
Những tri thức nào nên được sử dụng trong mô hình miền mới và
làm thế nào để khai phá những tri thức đó ?
Làm thế nào để đánh giá chất lượng của tri thức và làm thế nào để
đối phó với tri thức có thể sai?
Làm thế nào để áp dụng tri thức vào quá trình mô hình hóa để tạo
ra các chủ đề tốt hơn trong miền ứng dụng mới?
135
Tri thức chia sẻ: Must-links & cannot-links
Ví dụ ba miền: vấn đề với chủ đề
Ba miền cùng có chủ đề ẩn “giá cả”
Xem xét bốn từ tốp đầu thuộc chủ đề “giá cả”
Miền 1: giá cả, màu sắc, chi phí, cuộc sống
Miền 2: chi phí, hình ảnh, giá cả, đắt tiền
Miền 3: giá cả, tiền, khách hàng, đắt tiền
“hình ảnh”, “màu sắc”, v.v. không mang ý nghĩa “giá cả”
Ý tưởng
Các cặp từ thuộc “đa số” miền (2) “tập phổ biến độ dài 2”
Miền 1,2: {giá cả, chi phí} cho một cặp từ (giá cả, chi phí)
Miền 2,3: {giá cả, đắt tiền} cho một cặp từ (giá cả, đắt tiền)
Miền 1,3: {giá cả} không có cặp từ nào
Cặp hai từ must-links nên ở cùng một chủ đề mới
Tương tự: cặp hai từ tại đa số miền ở hai chủ đề khác biệt
nhau “mẫu âm độ dài 2”: cannot-links không nên ở cùng
một chủ đề mới
136
Sơ đồ LTM (Lifelong Topic Model)
Bài toán
N bài toán: Ti, Di (dữ
liệu bài toán Ti), Topicsi
(tập chủ đề từ tập Di):
chủ đề trước. KB=
{Topicsi, i=1, 2, … N}
Bài toán mới TN+1 với
DN+1 xuất hiện (DN+1
lượng phù hợp). Tìm
TopicsN+1 khai thác
được tri thức từ KB.
Mô hình
Mẩu tri thức must-
links dùng để tinh
chỉnh TopicsN+1. Hình vẽ
137
LTM: Thuật toán chính
138
LTM: Thuật toán con tìm must-links
139
Mô hình AMC:
Bài toán
N bài toán: Ti, Di (dữ
liệu bài toán Ti), Topicsi
(tập chủ đề từ tập Di):
chủ đề trước. KB=
{Topicsi, i=1, 2, … N}
Bài toán mới TN+1 với
DN+1 xuất hiện (DN+1
lượng nhỏ). Tìm
TopicsN+1 khai thác
được tri thức từ KB.
Mô hình
Mẩu tri thức must-
links và cannot-links
dùng để tinh chỉnh AMC: Automatically generated Must-links
TopicsN+1. Hình vẽ and Cannot-links
140
ACM: Chương trình chính
Giải thích
Khai phá must-links như LTM
Chạy lấy mẫu Gibbs tạo tập chú đề ẩn không có cannot-links
Lần lượt tìm cannot-links tinh chỉnh lại chủ đề hiện tại
141
Mô hình chủ đề miền gần
Giới thiệu
Thiên vị quy nạp mức meta
Lựa chọn miền dữ liệu
[Ha18] Quang-Thuy Ha, Thi-Ngan Pham, Van-Quang Nguyen, Thi-Cham Nguyen, Thi-Hong
Vuong, Minh-Tuoi Tran, Tri-Thanh Nguyen. A New Lifelong Topic Modeling Method and
Its Application to Vietnamese Text Multi-label Classification. ACIIDS (1) 2018: 200-210.
142
Học thiên vị cấp meta miền gần
Hai cấp thiên vị quy nạp và câu hỏi
Thiên vị quy nạp tập dữ liệu bài toán hiện thời
Thiên vị quy nạp từ cơ sở tri thức: must-links và cannot-links từ , ,
…, .
Tập = {, , …, } là không gian con các giả thuyết lựa chọn tập giả
thuyết mạnh hơn!
Thiên vị quy nạp cho học cấp meta
Thiên vị mức meta “miền dữ liệu}.
Chọn tập cho thiên vị mạnh hơn so = {, , …, }
“Miền gần”: Miền dữ liệu nhận dạng “chó”, “mèo”, “gà”, “vịt”. Bài
toán học nhận dạng “ngỗng”.
, tiềm năng mạnh hơn , khi học nhận dạng “ngỗng”
Gọi , là miền gần của
Vấn đề định nghĩa miền gần.
143
Một mô hình đề xuất [ACIIDS2018]
Giải thích
Dựa trên AMC
Thiên vị mức “miền dữ liệu”: chỉ lấy miền dữ liệu gần S*
Định nghĩa độ gần nhau: mức chủ đề và mức miền
Mức miền: tập từ vựng, tập từ tốp đầu, lượng chủ đề gần nhau
Mức chủ đề: độ đo cosine cho hai túi từ có trọng số, phân kỳ
"Kullback-Leibler" rời rạc
144
Áp dụng phân lớp đa nhãn văn bản
Kiểm thử
một mẫu
cho kỳ vọng
giả thuyết
quần thể với
phương sai
chưa biết:
kết quả tăng
thực sự so
với AMC
145
Học sâu suốt đời
146
Học sâu suốt đời: tái sử dụng mô-đun
149
Học sâu suốt đời
Một vài tham khảo khác
David Isele. Thesis Proposal: Representations for Continuous Learning.
Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence
(AAAI-17).
https://www.grasp.upenn.edu/people/david-isele
https://www.grasp.upenn.edu/labs/lifelong-machine-learning
Simon Stiebellehner, Jun Wang, Shuai Yuan. Learning Continuous
User Representations through Hybrid Filtering with doc2vec.
arXiv:1801.00215.
Andrei A. Rusu, Neil C. Rabinowitz, Guillaume Desjardins, Hubert
Soyer, James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, Raia
Hadsell. Progressive Neural Networks. CoRR abs/1606.04671, 2016
Irina Higgins, Arka Pal, Andrei A. Rusu, Loïc Matthey, Christopher
Burgess, Alexander Pritzel, Matthew Botvinick, Charles Blundell,
Alexander Lerchner. DARLA: Improving Zero-Shot Transfer in
Reinforcement Learning. ICML 2017: 1480-1490
James Kirkpatrick et al. Overcoming catastrophic forgetting in neural
networks. CoRR abs/1612.00796, 2016.
v.v.
150
3. Khai phá quy trình
151
Khai phá quy trình: Công bố khoa học
152
Khai phá quy trình: Công bố khoa học
153
Công bố khoa học: cá nhân nhà khoa học
Nhà khoa học Số lượng công bố
Wil M. P. van der Aalst 209
Jan Mendling 38
Boudewijn F. van Dongen 27
Stefan Schönig 24
Carlos Fernández-Llatas 24
Fabrizio Maria Maggi 20
Jorge Munoz-Gama 20
Matthias Weidlich 19
Stefanie Rinderle-Ma 19
Luigi Pontieri 18
5.234 tác giả khác
154
Giới thiệu Khai phá quy trình
Wil van der Aalst
ĐHCN Eindhoven (Eindhoven Univ. of Technology (TU/e))
Khởi xướng và duy trì phát triển khai phá quá trình
http://wwwis.win.tue.nl/~wvdaalst/
Master's thesis “Specificatie en Simulatie met behulp van ExSpect”
Đặc tả và mô phỏng bởi ExSpect, 1988
PhD thesis “
155
Timed coloured Petri nets and their application to logistics”, 1992
Nhà khoa học Tin học ngoài Mỹ có chỉ số h-index cao thứ nhất: 112
(9/2015; 101: 9/2013, 94: 5/2013) http://www.cs.ucla.edu/~palsberg/h-
number.html
Tổ chức nghề nghiệp về khai phá quy trình
http://www.processmining.org/: Cho tài nguyên
phong phú:
các bài báo,
luận án Tiến sỹ
[Http] http://www.processmining.org/publications/phd 6/2/2
bộ công cụ PRoM và các công cụ khác 3
các tập dữ liệu nhật ký sự kiện: một phần từ hơn 100 tổ chức
Mối quan hệ giữa một số khái niệm
156
Khái niệm và triết lý khai phá quy trình
Khái niệm khai phá quy trình
Process Mining: chiết xuất thông tin có giá trị, liên quan đến
quy trình từ các nhật ký ghi sự kiện, bổ sung vào các tiếp
cận hiện có để quản lý quy trình tác nghiệp (Business
Process Management : BPM).
Kết hợp giữa khai phá dữ liệu và quản lý quy trình tác nghiệp
157
Triết lý “đường mòn” của khai phá quy trình
Đường mòn (desire line) / đường xã hội (the social trail)
Là con đường được hình thành do sự xói mòn bởi bước
chân của con người hoặc động vật
Chiều rộng và độ xói mòn thể hiện độ thường xuyên sử dụng
“Đường mòn là ngắn nhất/thuận tiện nhất giữa hai điểm
Xói mòn càng cao Sử dụng càng thường xuyên
Hành động trong kinh doanh hình thành đường mòn kinh
doanh ~ nhật ký sự kiện phản ánh quy trình tốt/thuận tiện
6/2/2
3
[Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance
and Enhancement of Business Processes, Springer, 2011.
Ví dụ triết lý đường mòn
Xây dựng lối đi trong ĐH Columbia
Tác giả: Dwight Eisenhower, Chủ tịch ĐH Columbia (sau này
là Tổng thống Mỹ đời thứ 34)
Bài toán: xây lối đi tốt nhất nối các nhà trong khu trường
Lời giải:
Cho cỏ mọc giữa các tòa nhà và trì hoãn tạo vỉa hè
Mọi người đi: Hình thành dần lối mòn giữa các nhà
Xây vỉa hè theo các lối mòn đó
158
Cơ bản về Khai phá quy trình
Khái niệm
KPQT: phát hiện, theo dõi, cải thiện quy trình kinh doanh dựa trên trích
xuất tri thức từ nhật ký sự kiện NKSK (event log)
NKSK={trường hợp (case) “thể hiện” quy trình}: “xuất phát điểm của
KPQT”
Case: dãy có thứ từ các hành động (activity), hành động được “xác
định tốt”
NKSK = {hành vi quan sát được} {hành vi}
Cộng đồng KPQT
Quan tâm KPQT: Tuyên ngôn KPQT (Process Mining Manifesto) do
the IEEE Task Force on Process Mining công bố
53 tổ chức, 77 chuyên gia KPQT (người dùng, cung cấp công cụ, tư
vấn, phân tích, nghiên cứu):
KPDL KPQT mô hình hóa BM (quy trình kinh doanh)
[Aalst13] Wil M. P. van der Aalst (2013). Decomposing Petri nets for process mining: A
generic approach. Distributed and Parallel Databases 31(4): 471-507
159
Vai trò của khai phá quy trình
Quản lý quy trình nghiệp vụ (tự động hóa): Vòng đời hở (pha chẩn
đoán: Diagnosis) theo tiếp cận truyền thống (trái), vòng đời khép kín
theo tiếp cận khai phá quy trình (phải)
[Mans11] Ronny Mans. Workflow Support for the Healthcare Domain. PhD Thesis,
Eindhoven University of Technology, 2011 160
Contents
Nhật ký sự kiện
Cycle Diagram
Dữ liệu đầu vào cho khai phá quá trình là nhật ký sự kiện. Ngầm định
dữ liệu chuẩn:
Một nhật ký sự kiện bao gồm nhiều trường hợp (cases).
Một trường hợp chứa nhiều sự kiện (events) được sắp xếp theo
trình tự. Một trường hợp là “một lần thi hành mô hình quá trình
trong thực tiễn”
Mỗi sự kiện chứa các thuộc tính (attributes).
161
Nhật ký sự kiện
162
a=register request; b=examine thoroughly; c=examine casually;
d=check ticket; e-decide; f=reinititate request; g=pay
compensasion, và h=reject request
Dạng đơn giản: dãy hành động {<a,b,c,d>, <a,c,b,d>,…}. <x1,
x2,..,xn> là một “vết” (trace)
Tập bội (multi-set): mở rộng tập thông thường, một phần tử xuất
hiện nhiều lần: Gộp {<a,b,c,d>112, <a,c,b,d>99,…}
Cho tập X: tập mọi tập bội trong X ký hiệu B(X)
Định nghĩa: Cho A tập hành động, một vết của A là A* là dãy
các hành động, Một LB(A*) là một nhật ký dự kiện (trên A)
[AD13] Wil M. P. van der Aalst, Boudewijn F. van Dongen (2013). Discovering Petri
162
Nets from Event Logs. T. Petri Nets and Other Models of Concurrency 7: 372-422.
Nhật ký sự kiện: khía cạnh bổ sung
[AD13] Wil M. P. van der Aalst, Boudewijn F. van Dongen (2013). Discovering Petri
Nets from Event Logs. T. Petri Nets and Other Models of Concurrency 7: 372-
422. 163
Mô hình Mô
Cycle Diagram Contents
quy hình
trình quá trình [3]
- Mô hình quy trình được biểu diễn bằng một ngôn ngữ mô
hình hóa.
- Có nhiều loại ngôn ngữ mô hình hóa khác nhau như:
BPMN, BPEL, UML, Petri-net,…
- Petri-net là mô hình thường được sử dụng để mô hình hóa
quy trình và có thể chuyển đổi sang các mô hình BPMN,
PBEL, UML,…
164
Ví dụ mô hình quy trình bằng lưới Petri
Lưới Petri mô hình hóa quy trình giải quyết yêu cầu bồi thường từ
khách hàng của một hãng hàng không
165
Ba bài toán khai phá quy trình
Cycle
CácDiagramContents
bài toán trong khai phá quá trình
a) Phát hiện
b) Kiểm tra phù hợp
c) Tăng cường
166
Phát hiện mô hình quy trình
Là bài toán thứ nhất trong khai phá quy trình
Input: Nhật ký sự kiện.
Output: Mô hình quy trình.
Bài toán thực hiện phát hiện mô hình quy trình dựa vào
thông tin trong nhật ký sự kiện mà không sử dụng bất kỳ
thông tin tiền nghiệm nào.
Mô hình quy trình được biểu diễn bằng một ngôn ngữ
mô hình hóa
Có nhiều loại ngôn ngữ mô hình hóa khác nhau (BPMN,
BPEL, UML, Petri-net,…)
Petri-net thường được sử dụng để mô hình hóa quy
trình và có thể chuyển đổi sang các mô hình BPMN,
PBEL, UML,… khác.
167
Phát hiện quy trình và biên dịch ngược
Biên dịch ngược
Decompiling/Reverse Engineering
Phiên bản chương trình đích phiên bản chương trình nguồn
Bài toán khó. Mất thông tin khi biên dịch ngược.
Một số tài liệu liên quan.
Phát hiện quy trình
Phiên bản mô hình quy trình trong thi hành mô hình quy trình
(ngôn ngữ mô hình hóa)
“Lập lại sơ đồ khối” từ biên bản chạy chương trình đích
Đầu vào: không là chương trình đích, là tập các trường hợp thi
hành chương trình
“tên lệnh” và giá trị các thanh ghi ?
thi hành “một lệnh” không là một máy mà có thể nhiều người
[Wang10] W. Wang. Reverse engineering: technology of reinvention. CRC, 2010
[Kadavy11] David Kadavy. Design for Hackers: Reverse Engineering Beauty. Wiley, 2011
[Alazard13] Daniel Alazard. Reverse Engineering in Control Design. Wiley-ISTE, 2013
[Nolan12] Godfrey Nolan. Decompiling Android. Apress, 2012
[Dang14] Bruce Dang, Alexandre Gazet, Elias Bachaalany, Sebastien Josse. Practical
Reverse Engineering x86, x64, ARM, Windows Kernel, Reversing Tools, and
Obfuscation. Wiley, 2014
168
Tiếp cận hai giai đoạn
Mở rộng mô hình khi bổ sung các khía cạnh: khía cạnh tổ chức (organizational
perspective, “What are the organizational roles and which resources are performing
particular activities?”), khía cạnh trường hợp (case perspective, “Which
characteristics of a case influence a particular decision?”) và khía cạnh thời gian (time
perspective, “Where are the bottlenecks in my process?”)
[Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance and
Enhancement of Business Processes, Springer, 2011.
[Aalst12] Wil M. P. van der Aalst: Process Mining: Overview and Opportunities.
ACM Trans. Management Inf. Syst. 3(2): 7 (2012)
172
KiểmBÀI
traTOÁN
phù hợp
Contents
Cycle Diagram KIỂM TRA SỰ PHÙ HỢP
173