You are on page 1of 47

DỰ ĐOÁN LIÊN KẾT TRÊN 

ĐỒ THỊ TRI THỨC

Giáo viên: 
Lê Hoài Bắc

Hoàng Minh Thanh (21C11029)


Nguyễn Trần Khánh Nguyên (21C11017)
1. Introduction

2. Related work

Contents 3. KBGAT Model

4. Experiment result

5. Conclusions 

6. Q & A
1. Introduction
Đồ Thị Tri Thức (Knowledge Graph)

 Đồ thị tri thức () là gì ?

Từ năm những năm 1972
các nhà khoa học đã nghiên
 cứu về Knowledge Graph

Đồ thị tri thức () là một cách biểu diễn thông tin có cấu trúc trong thế giới
thực
Ví dụ về một thông tin trong

wife_of

Melania Trump Donald Trump

Melania_Trump wife_of Donald_Trump


Donald_Trump president_of U.S
Jeff_Bezos richest_of U.S
Tom_Cruise born_in New_York
New_York state_of U.S
Tesla_Inc founded_in U.S
Melania_Trump first_lady U.S
Biểu diễn tri thức

Melania wife_of Donald


Trump Trump

relation
entityhead entitytail
Biểu diễn đồ thị tri thức
 Đồ Thị Tri Thức (Knowledge Graph)
[1]

entity1 relation1 entityhead1 entitytail1

entity2 relation2 entityhead2 entitytail2

entityn entityhead-n entitytail-n


relationn

𝑉 𝑅 𝐸 ⊆ 𝑉 × 𝑅 ×𝑉
Google’s Knowledge Graph

Giới thiệu năm 2012 với 570 triệu


5 tỷ thực thể thực thể, và 3.5 tỷ sự kiện. 
500 tỷ sự kiện[2] Đến nay tổng cộng đã tăng lên
khoảng 5 tỷ thực thể và 500 tỷ sự
kiện[2]
Dự đoán liên kết

Kích thước
Kích thước 50 triệu thực thể
1 tỷ thực thể 500 triệu sự kiện[5]
70 tỷ sự kiện[5]

Dữ liệu mất
Khai thác
mát, không
thông tin
đầy đủ
dựa trên
Minh họa về dự đoán liên kết

relation
entityhead ?

relation
source target

relation
? entitytail

10
2. Related work
Minh hoạ đồ thị tri thức trong thực tế
Hướng nghiên cứu

 Danh mục nghiên cứu trên đồ thị tri thức

Link
Prediction

Knowledge Graph
Completion
Knowledge
acquisition
Các phương pháp
​ Mô hình dựa trên luật

Mô hình dựa trên nhúng

14
Phương pháp dựa trên nhúng

 Nhúng đồ thị (Graph Embedding)


● Định nghĩa[7] :
Cho và số chiều xác định trước d , vấn đề nhúng đồ thị là
chuyển thành một không gian d-chiều sao cho thuộc tính của
đồ thị được lưu giữ càng nhiều càng tốt.
● Nhúng đồ thị là quá trình biến đổi các đặc trưng của
đồ thị sang một không gian khác có số chiều thấp. 
● Quá trình nhúng đồ thị có thể hiểu tường minh là
quá trình ánh xạ các đặc trưng để biểu diễn thành
giá trị các vector

15
Các phương pháp nhúng

 Nhúng đồ thị (Graph Embedding)


● Dựa trên phương pháp thiết lập bài toán nhưng đồ
thị có thể chia nhúng đồ thị thành các loại sau :

Nhúng đỉnh Nhúng cạnh Nhúng kết hợp Nhúng toàn bộ


đồ thị
Survey of Graph Embedding Problems, Techniques and Applications [7]
16
Mô hình nhúng TransE

 Translating Embeddings (TransE)


 Mô hình TransE được đề xuất bởi nhóm tác giả
Antoine Bordes[9] là một mô hình tiêu biểu cho kỹ
thuật nhúng đồ thị
 Ý tưởng cốt lõi là xem                  là phép tịnh tiến
của các vector nhúng sao cho 
Mô hình nhúng TransE

 Translating Embeddings (TransE)


 Mô hình TransE được đề xuất bởi nhóm tác giả
Antoine Bordes[9] là một mô hình tiêu biểu cho kỹ
thuật nhúng đồ thị
 Ý tưởng cốt lõi là xem                  là phép tịnh tiến
của các vector nhúng sao cho 
So sánh Word2vec và TransE

Transfomer trên
Knowledge Graph (KB)

TransE Word2vec
(Translating Embedding) (Word Embeddings in NLP)
Mô hình nhúng TransE

 Thuật toán

Chuẩn hóa trong loop


để đạt kết quả tốt hơn

Đô sai khác giữa bộ chuẩn


và bộ không chuẩn

+
Mô hình nhúng TransE
 TransE  (Translating Embeddings)​
 Ví dụ :

Vector khởi tạo ban đầu Vector sau khi tịnh tiến

Nếu d - d' > 0. Tiến hành cập nhật lại trọng số cho h, r, t. 21
3. Learning Attention-based
Embeddings for Relation
Prediction in Knowledge
Graphs
Mô hình nhúng dựa trên học sâu

 Tối ưu hàm mục tiêu dựa trên một lượng lớn dữ


liệu Class 1 e1 𝑟𝑎𝑛 𝑘1
?

Data 𝑓 (𝑥 ) Class 2 ei
r
?e? 𝑟𝑎𝑛 𝑘2
2

?e 𝑟𝑎𝑛 𝑘
3 3
Class n 𝒢 𝑘𝑛𝑜𝑤

rr
S
h r t
hh r tt
1valid
h t h r t
h r t

𝑓 (𝑥 ) score
hh
rr
t’
h r t’ -1invalid
r t’ h r t’

S’ h’ t h’ r t
23
Phương pháp KBGAT
Biểu diễn các đặc Học được các đặc Khái quát hóa quá
trưng lên không gian trưng lân cận của các trình biến đổi đặc
Datasets thực thể và quan hệ trưng

Trans GAT
ConvKB
E Entity Embedding
’ Entity Embedding

weight

Relation Embedding Relation Embedding


Rank

ℒ= ∑ ∑ max ⁡{𝑑𝑡 − 𝑑𝑡 +𝛾 ,0}


𝑖𝑗

Lấy phần dương
𝑖𝑗
𝑡 𝑖𝑗 ∈𝑆 𝑡′𝑖𝑗 ∈ 𝑆′ Margin

𝑡 ∈𝑆
𝑖𝑗
𝜆
ℒ= ∑ log (1+ exp ( 𝑙𝑡 𝑖𝑗 . 𝑓 ( 𝑡 𝑖𝑗 ) ) ) + ‖𝐖‖2 v ớ i𝑙 𝑡𝑖𝑗 =
2
2 1 :𝑡 𝑖𝑗 ∈ 𝑆
−1 :𝑡 𝑖𝑗 ∈ 𝑆 ′
Tham số chuẩn hóa
{ 24
Mô hình ConvKB[10]

Convolution

Học sự quan trọng của từng đặc trưng


trong feature map 25
Cơ chế chú ý
Cơ chế chú ý được phát minh năm 2014[6] và được phổ biến bằng
mô hình Transformer năm 2017
𝑥1 𝑦 1 𝑦 2 𝑦 3𝑦 4 𝑦 5
Apple is good in its design Apple is good for your health
0.6 0.2 0.9 0.3 0.4 0.5

w 1 , 𝑤 2 , 𝑤 3 , 𝑤 4 , 𝑤0.65 0.2
, 𝑤
0.8
w 1 , 𝑤 2 , 𝑤 3 , 𝑤 4 , 𝑤 5 , 𝑤60.2 = = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥
0.3
𝑠𝑜𝑓𝑡𝑚𝑎𝑥
0.1 0.1 0.1 (
0.3 ,)
( ,)
6
Query Q 0.8 0.1 0.8 0.4 0.3 0.7
Hệ số chuẩn hóa
Keys K

 Mục tiêu của cơ chế Apple


chú ý là is for sựgood
tính được your health
quan trọng của
một vector nhúng
0.6
này0.6đối với0.2những0.9vector0.3nhúng0.4khác 0.5
0.2 ¿ w +𝑤
bằng hệ số đã0.8chuẩn1hóa
0.2
để2 +𝑤

0.3
3 +𝑤
thể so
0.1
4 +𝑤
sánh
0.1
với 5 +𝑤
nhau
0.1
6 0.3
0.8 0.1 0.8 Hệ số
0.4 chuẩn 0.3 0.7

Valueshóa
V

26
Cơ chế chú ý đa đỉnh

Graph Attention Networks – GAT[12]


Thuộc các lớp khác nhau

⇒ 𝑆𝑒𝑙𝑓 −𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 27
Graph Attention Networks – GAT[12]

Figure 1 in Paper Graph atention networks (Petar Velickovi ˇ c..)


28
Áp dụng cơ chế chú ý vào

29
Mô hình KBGAT
Entity Embedding

Entity Embedding Entity Embedding

Entity Embedding

Entity Embedding

Relation Embedding

Relation Embedding
Relation Embedding

Relation Embedding

Mask Attention with Mask Attention with


Residual learning
Concatenate Average

30
Cải tiến của KBGAT
 Cải tiến của KBGAT
Cài đặt

 Chiến lược tìm siêu tham số tối ưu là tìm kiếm


lưới (grid search)
 Sử dụng Adam để tối ưu (quán tính có ma sát)

32
4. Experiment result
Datasets

 Có bốn bộ dữ liệu tìm hiểu chia thành hai nhóm


chính bao gồm Freebase và Wordnet
 WN18RR, FB15k-237 được lược bỏ các quan hệ trùng hoặc
nghịch đảo từ WN18 và FB15k để tránh các dữ liệu dễ đoán

Test Leakage Đa lĩnh vực Đặc trưng

WN18 Có Có ít loại quan hệ; Dữ liệu chỉ thuộc các


WN18RR từ vựng, Nhiều sự kiện lặp lại

FB15k Có Có Có nhiều loại quan hệ khác nhau; Dữ liệu


thuộc nhiều lĩnh vực khác nhau, và ít lặp
FB15k-237 Có lại

34
Thông tin tập dữ liệu

 Các tập dữ liệu thực nghiệm :


Tập dữ liệu FreeBase

 Bộ dữ liệu này được tạo bởi nhóm nghiên cứu A.


Bordes[6], trích xuất từ bộ dữ liệu Wikilinks database
● Mỗi đỉnh là một đối tượng trong Wikipedia, mỗi quan hệ là một
đường dẫn

Ví dụ về một dòng dữ liệu trong Freebase


Tập dữ liệu WordNet
 Bộ dữ liệu này được giới thiệu bởi nhóm tác giả Bordes,
Antoine được trích xuất từ WordNet
 Mỗi đỉnh là một từ vựng, quan hệ là ý nghĩa giữa hai từ

Ví dụ về một dòng dữ liệu trong WordNet


Phương pháp đánh giá
 Có ba độ đo phổ biến gồm : H@K, MR,
MRR
 ;

e1 𝑟𝑎𝑛𝑘1
?
r
ei ?e? 𝑟𝑎𝑛 𝑘2
2

?e 𝑟𝑎𝑛𝑘
3 3
𝒢 𝑘𝑛𝑜𝑤

38
Kết quả thực nghiệm (Tác giả)
Kết quả thực nghiệm

 Kết quả trên tập dữ liệu Freebase[13]

 Kết quả trên tập dữ liệu WordNet[13]

40
Mã nguồn và quá trình thực hiện

 KBGAT :
● Mã nguồn github (Graph Collaborate Attention
Network) :
https://github.com/hmthanh/GCAT
● Public Google Colab :
https://drive.google.com/file/d/1uVd_w6vE5C70rmgK
LI7BvnhCWegXTMhk/view?usp=sharing

41
Kết luận

 Phương pháp KBGAT :


● Cải tiến mô hình GAT bằng cách kết hợp thêm nhiều
entity lân cận và kết hợp thêm bộ lọc và thay cơ
chế multi-head attention bằng concat..
 Hướng phát triển :
 Nhóm nghiên cứu về cải tiến của cơ chế chú ý (Collaborate
Instead of Concatenate[8]) và mô hình CapsE
● Dựa trên những cải tiến đáng kể của mô hình
AnyBURL, và mô hình GCAT đang phát triển, nhóm có
dự định public papers trong tương lai gần

42
Q&A
References
1. A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications 
2. https://en.wikipedia.org/wiki/Knowledge_Graph 
3. http://web.informatik.uni-mannheim.de/AnyBURL/ 
4. https://www.forbes.com/sites/robtoews/2020/10/12/the-next-generation-of-artificial-intelligence/ 
5. Industry-scale Knowledge Graphs: Lessons and Challenges (Natasha Noy Yuqing Gao Anshu Jain Anant Narayanan
Alan Patterson Jamie Taylor) 
6. Bahdanau, Dzmitry, Cho, Kyunghyun, and Bengio, Yoshua. “Neural machine translation by jointly learning to align
and translate”. In: arXiv preprint arXiv:1409.0473 (2014). 
7. Cai, Hongyun, Zheng, Vincent W, and Chang, Kevin Chen-Chuan. “A comprehensive survey of graph embedding:
Problems, techniques, and applications”. In: IEEE Transactions on Knowledge and Data Engineering 30.9 (2018), pp.
1616–1637 
8. Cordonnier, Jean-Baptiste, Loukas, Andreas, and Jaggi, Martin. “MultiHead Attention: Collaborate Instead of
Concatenate”. In: arXiv preprint arXiv:2006.16362 (2020). 
9. Bordes, Antoine et al. “Translating embeddings for modeling multirelational data”. In: Advances in neural
information processing systems. 2013, pp. 2787–2795. 
10. Nguyen, Dai Quoc et al. “A novel embedding model for knowledge base completion based on convolutional neural
network”. In: arXiv preprint arXiv:1712.02121 (2017). 
11. Nathani, Deepak et al. “Learning attention-based embeddings for relation prediction in knowledge graphs”. In: arXiv
preprint arXiv:1906.01195 (2019). 
12. Veliˇckovi´c, Petar et al. “Graph attention networks”. In: arXiv preprint arXiv:1710.10903 (2017) 
13. Meilicke, Christian et al. Anytime Bottom-Up Rule Learning for Knowledge Graph Completion. 2019. url:
http://web.informatik.unimannheim.de/AnyBURL/meilicke19anyburl.pdf. 
14. Rossi, Andrea et al. “Knowledge Graph Embedding for Link Prediction: A Comparative Analysis”. In: arXiv preprint
arXiv:2002.00819 (2020). 
45
Conclusions

Mô hình dựa trên học sâu

Chi phí • Thời gian rất lâu


• Chi phí tính toán cực lớn

Thời gian dự đoán • Nhanh hơn do dựa trên các trọng số của mô hình để
tính xác xuất

Dữ liệu • Học không thể lý giải (do các lớp hidden layer)
Thêm tri thức • Phải huấn luyện lại từ đầu nếu thêm tri thức mới

Đặc điểm học • Học được các cấu trúc phức tạp mà không cần biết
trước cấu trúc

46
Nhược điểm của mô hình TransE

 £Sử dụng mô hình TransE để khởi tạo cho mô


hình KBGAT

You might also like