Link Prediction in Knowledge Graph

DỰ ĐOÁN LIÊN KẾT TRÊN
ĐỒ THỊ TRI THỨC
Giáo viên:
Lê Hoài Bắc
Hoàng Minh Thanh (21C11029)

Nguyễn Trần Khánh Nguyên (21C11017)
1. Introduction
2. Related work
Contents 3. KBGAT Model
4. Experiment result
5. Conclusions
6. Q & A
1. Introduction
Đồ Thị Tri Thức (Knowledge Graph)
 Đồ thị tri thức () là gì ?
Từ năm những năm 1972
các nhà khoa học đã nghiên
cứu về Knowledge Graph
Đồ thị tri thức () là một cách biểu diễn thông tin có cấu trúc trong thế giới
thực
Ví dụ về một thông tin trong
wife_of
Melania Trump Donald Trump
Melania_Trump wife_of Donald_Trump

Donald_Trump president_of U.S
Jeff_Bezos richest_of U.S
Tom_Cruise born_in New_York
New_York state_of U.S
Tesla_Inc founded_in U.S
Melania_Trump first_lady U.S
Biểu diễn tri thức
Melania wife_of Donald

Trump Trump
relation
entityhead entitytail
Biểu diễn đồ thị tri thức
 Đồ Thị Tri Thức (Knowledge Graph)
[1]
entity1 relation1 entityhead1 entitytail1
entity2 relation2 entityhead2 entitytail2
entityn entityhead-n entitytail-n

relationn
𝑉 𝑅 𝐸 ⊆ 𝑉 × 𝑅 ×𝑉
Google’s Knowledge Graph
Giới thiệu năm 2012 với 570 triệu

5 tỷ thực thể thực thể, và 3.5 tỷ sự kiện.
500 tỷ sự kiện[2] Đến nay tổng cộng đã tăng lên
khoảng 5 tỷ thực thể và 500 tỷ sự
kiện[2]
Dự đoán liên kết
Kích thước
Kích thước 50 triệu thực thể
1 tỷ thực thể 500 triệu sự kiện[5]
70 tỷ sự kiện[5]
Dữ liệu mất
Khai thác
mát, không
thông tin
đầy đủ
dựa trên
Minh họa về dự đoán liên kết
relation
entityhead ?
relation
source target
relation
? entitytail
10
2. Related work
Minh hoạ đồ thị tri thức trong thực tế
Hướng nghiên cứu
 Danh mục nghiên cứu trên đồ thị tri thức
Link
Prediction
Knowledge Graph
Completion
Knowledge
acquisition
Các phương pháp
Mô hình dựa trên luật
Mô hình dựa trên nhúng
14
Phương pháp dựa trên nhúng
 Nhúng đồ thị (Graph Embedding)

● Định nghĩa[7] :
Cho và số chiều xác định trước d , vấn đề nhúng đồ thị là
chuyển thành một không gian d-chiều sao cho thuộc tính của
đồ thị được lưu giữ càng nhiều càng tốt.
● Nhúng đồ thị là quá trình biến đổi các đặc trưng của
đồ thị sang một không gian khác có số chiều thấp.
● Quá trình nhúng đồ thị có thể hiểu tường minh là
quá trình ánh xạ các đặc trưng để biểu diễn thành
giá trị các vector
15
Các phương pháp nhúng
 Nhúng đồ thị (Graph Embedding)

● Dựa trên phương pháp thiết lập bài toán nhưng đồ
thị có thể chia nhúng đồ thị thành các loại sau :
Nhúng đỉnh Nhúng cạnh Nhúng kết hợp Nhúng toàn bộ

đồ thị
Survey of Graph Embedding Problems, Techniques and Applications [7]
16
Mô hình nhúng TransE
 Translating Embeddings (TransE)

 Mô hình TransE được đề xuất bởi nhóm tác giả
Antoine Bordes[9] là một mô hình tiêu biểu cho kỹ
thuật nhúng đồ thị
 Ý tưởng cốt lõi là xem là phép tịnh tiến
của các vector nhúng sao cho
 Translating Embeddings (TransE)

 Mô hình TransE được đề xuất bởi nhóm tác giả
Antoine Bordes[9] là một mô hình tiêu biểu cho kỹ
thuật nhúng đồ thị
 Ý tưởng cốt lõi là xem là phép tịnh tiến
của các vector nhúng sao cho
So sánh Word2vec và TransE
Transfomer trên
Knowledge Graph (KB)
TransE Word2vec
(Translating Embedding) (Word Embeddings in NLP)
 Thuật toán
Chuẩn hóa trong loop

để đạt kết quả tốt hơn
Đô sai khác giữa bộ chuẩn

và bộ không chuẩn
+
 TransE (Translating Embeddings)
 Ví dụ :
Vector khởi tạo ban đầu Vector sau khi tịnh tiến
Nếu d - d' > 0. Tiến hành cập nhật lại trọng số cho h, r, t. 21
3. Learning Attention-based
Embeddings for Relation
Prediction in Knowledge
Graphs
Mô hình nhúng dựa trên học sâu
 Tối ưu hàm mục tiêu dựa trên một lượng lớn dữ

liệu Class 1 e1 𝑟𝑎𝑛 𝑘1
?
Data 𝑓 (𝑥 ) Class 2 ei
r
?e? 𝑟𝑎𝑛 𝑘2
2
?e 𝑟𝑎𝑛 𝑘
3 3
Class n 𝒢 𝑘𝑛𝑜𝑤
rr
S
h r t
hh r tt
1valid
h t h r t
h r t
𝑓 (𝑥 ) score
hh
rr
t’
h r t’ -1invalid
r t’ h r t’
S’ h’ t h’ r t
23
Phương pháp KBGAT
Biểu diễn các đặc Học được các đặc Khái quát hóa quá
trưng lên không gian trưng lân cận của các trình biến đổi đặc
Datasets thực thể và quan hệ trưng
Trans GAT
ConvKB
E Entity Embedding
’ Entity Embedding
weight
Relation Embedding Relation Embedding

Rank
ℒ= ∑ ∑ max ⁡{𝑑𝑡 − 𝑑𝑡 +𝛾 ,0}

𝑖𝑗
′
Lấy phần dương
𝑖𝑗
𝑡 𝑖𝑗 ∈𝑆 𝑡′𝑖𝑗 ∈ 𝑆′ Margin
𝑡 ∈𝑆
𝑖𝑗
𝜆
ℒ= ∑ log (1+ exp ( 𝑙𝑡 𝑖𝑗 . 𝑓 ( 𝑡 𝑖𝑗 ) ) ) + ‖𝐖‖2 v ớ i𝑙 𝑡𝑖𝑗 =
2
2 1 :𝑡 𝑖𝑗 ∈ 𝑆
−1 :𝑡 𝑖𝑗 ∈ 𝑆 ′
Tham số chuẩn hóa
{ 24
Mô hình ConvKB[10]
Convolution
Học sự quan trọng của từng đặc trưng

trong feature map 25
Cơ chế chú ý
Cơ chế chú ý được phát minh năm 2014[6] và được phổ biến bằng
mô hình Transformer năm 2017
𝑥1 𝑦 1 𝑦 2 𝑦 3𝑦 4 𝑦 5
Apple is good in its design Apple is good for your health
0.6 0.2 0.9 0.3 0.4 0.5
w 1 , 𝑤 2 , 𝑤 3 , 𝑤 4 , 𝑤0.65 0.2
, 𝑤
0.8
w 1 , 𝑤 2 , 𝑤 3 , 𝑤 4 , 𝑤 5 , 𝑤60.2 = = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥
0.3
𝑠𝑜𝑓𝑡𝑚𝑎𝑥
0.1 0.1 0.1 (
0.3 ,)
( ,)
6
Query Q 0.8 0.1 0.8 0.4 0.3 0.7
Hệ số chuẩn hóa
Keys K
 Mục tiêu của cơ chế Apple

chú ý là is for sựgood
tính được your health
quan trọng của
một vector nhúng
0.6
này0.6đối với0.2những0.9vector0.3nhúng0.4khác 0.5
0.2 ¿ w +𝑤
bằng hệ số đã0.8chuẩn1hóa
0.2
để2 +𝑤
có
0.3
3 +𝑤
thể so
0.1
4 +𝑤
sánh
0.1
với 5 +𝑤
nhau
0.1
6 0.3
0.8 0.1 0.8 Hệ số
0.4 chuẩn 0.3 0.7
Valueshóa
V
26
Cơ chế chú ý đa đỉnh
Graph Attention Networks – GAT[12]

Thuộc các lớp khác nhau
⇒ 𝑆𝑒𝑙𝑓 −𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 27
Graph Attention Networks – GAT[12]
Figure 1 in Paper Graph atention networks (Petar Velickovi ˇ c..)

28
Áp dụng cơ chế chú ý vào
29
Mô hình KBGAT
Entity Embedding
Entity Embedding Entity Embedding
Entity Embedding
Entity Embedding
Relation Embedding
Relation Embedding
Relation Embedding
Relation Embedding
Mask Attention with Mask Attention with

Residual learning
Concatenate Average
30
Cải tiến của KBGAT
 Cải tiến của KBGAT
Cài đặt
 Chiến lược tìm siêu tham số tối ưu là tìm kiếm

lưới (grid search)
 Sử dụng Adam để tối ưu (quán tính có ma sát)
32
4. Experiment result
Datasets
 Có bốn bộ dữ liệu tìm hiểu chia thành hai nhóm

chính bao gồm Freebase và Wordnet
 WN18RR, FB15k-237 được lược bỏ các quan hệ trùng hoặc
nghịch đảo từ WN18 và FB15k để tránh các dữ liệu dễ đoán
Test Leakage Đa lĩnh vực Đặc trưng
WN18 Có Có ít loại quan hệ; Dữ liệu chỉ thuộc các

WN18RR từ vựng, Nhiều sự kiện lặp lại
FB15k Có Có Có nhiều loại quan hệ khác nhau; Dữ liệu

thuộc nhiều lĩnh vực khác nhau, và ít lặp
FB15k-237 Có lại
34
Thông tin tập dữ liệu
 Các tập dữ liệu thực nghiệm :

Tập dữ liệu FreeBase
 Bộ dữ liệu này được tạo bởi nhóm nghiên cứu A.

Bordes[6], trích xuất từ bộ dữ liệu Wikilinks database
● Mỗi đỉnh là một đối tượng trong Wikipedia, mỗi quan hệ là một
đường dẫn
Ví dụ về một dòng dữ liệu trong Freebase

Tập dữ liệu WordNet
 Bộ dữ liệu này được giới thiệu bởi nhóm tác giả Bordes,
Antoine được trích xuất từ WordNet
 Mỗi đỉnh là một từ vựng, quan hệ là ý nghĩa giữa hai từ
Ví dụ về một dòng dữ liệu trong WordNet

Phương pháp đánh giá
 Có ba độ đo phổ biến gồm : H@K, MR,
MRR
 ;
e1 𝑟𝑎𝑛𝑘1
?
r
ei ?e? 𝑟𝑎𝑛 𝑘2
2
?e 𝑟𝑎𝑛𝑘
3 3
𝒢 𝑘𝑛𝑜𝑤
38
Kết quả thực nghiệm (Tác giả)
Kết quả thực nghiệm
 Kết quả trên tập dữ liệu Freebase[13]
 Kết quả trên tập dữ liệu WordNet[13]
40
Mã nguồn và quá trình thực hiện
 KBGAT :
● Mã nguồn github (Graph Collaborate Attention
Network) :
https://github.com/hmthanh/GCAT
● Public Google Colab :
https://drive.google.com/file/d/1uVd_w6vE5C70rmgK
LI7BvnhCWegXTMhk/view?usp=sharing
41
Kết luận
 Phương pháp KBGAT :

● Cải tiến mô hình GAT bằng cách kết hợp thêm nhiều
entity lân cận và kết hợp thêm bộ lọc và thay cơ
chế multi-head attention bằng concat..
 Hướng phát triển :
 Nhóm nghiên cứu về cải tiến của cơ chế chú ý (Collaborate
Instead of Concatenate[8]) và mô hình CapsE
● Dựa trên những cải tiến đáng kể của mô hình
AnyBURL, và mô hình GCAT đang phát triển, nhóm có
dự định public papers trong tương lai gần
42
Q&A
References
1. A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications
2. https://en.wikipedia.org/wiki/Knowledge_Graph
3. http://web.informatik.uni-mannheim.de/AnyBURL/
4. https://www.forbes.com/sites/robtoews/2020/10/12/the-next-generation-of-artificial-intelligence/
5. Industry-scale Knowledge Graphs: Lessons and Challenges (Natasha Noy Yuqing Gao Anshu Jain Anant Narayanan
Alan Patterson Jamie Taylor)
6. Bahdanau, Dzmitry, Cho, Kyunghyun, and Bengio, Yoshua. “Neural machine translation by jointly learning to align
and translate”. In: arXiv preprint arXiv:1409.0473 (2014).
7. Cai, Hongyun, Zheng, Vincent W, and Chang, Kevin Chen-Chuan. “A comprehensive survey of graph embedding:
Problems, techniques, and applications”. In: IEEE Transactions on Knowledge and Data Engineering 30.9 (2018), pp.
1616–1637
8. Cordonnier, Jean-Baptiste, Loukas, Andreas, and Jaggi, Martin. “MultiHead Attention: Collaborate Instead of
Concatenate”. In: arXiv preprint arXiv:2006.16362 (2020).
9. Bordes, Antoine et al. “Translating embeddings for modeling multirelational data”. In: Advances in neural
information processing systems. 2013, pp. 2787–2795.
10. Nguyen, Dai Quoc et al. “A novel embedding model for knowledge base completion based on convolutional neural
network”. In: arXiv preprint arXiv:1712.02121 (2017).
11. Nathani, Deepak et al. “Learning attention-based embeddings for relation prediction in knowledge graphs”. In: arXiv
preprint arXiv:1906.01195 (2019).
12. Veliˇckovi´c, Petar et al. “Graph attention networks”. In: arXiv preprint arXiv:1710.10903 (2017)
13. Meilicke, Christian et al. Anytime Bottom-Up Rule Learning for Knowledge Graph Completion. 2019. url:
http://web.informatik.unimannheim.de/AnyBURL/meilicke19anyburl.pdf.
14. Rossi, Andrea et al. “Knowledge Graph Embedding for Link Prediction: A Comparative Analysis”. In: arXiv preprint
arXiv:2002.00819 (2020).
45
Conclusions
Mô hình dựa trên học sâu
Chi phí • Thời gian rất lâu

• Chi phí tính toán cực lớn
Thời gian dự đoán • Nhanh hơn do dựa trên các trọng số của mô hình để
tính xác xuất
Dữ liệu • Học không thể lý giải (do các lớp hidden layer)
Thêm tri thức • Phải huấn luyện lại từ đầu nếu thêm tri thức mới
Đặc điểm học • Học được các cấu trúc phức tạp mà không cần biết
trước cấu trúc
46
Nhược điểm của mô hình TransE
 £Sử dụng mô hình TransE để khởi tạo cho mô

hình KBGAT

Link Prediction in Knowledge Graph

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Link Prediction in Knowledge Graph

Uploaded by

Copyright:

Available Formats

DỰ ĐOÁN LIÊN KẾT TRÊN

ĐỒ THỊ TRI THỨC

Hoàng Minh Thanh (21C11029)

Contents 3. KBGAT Model

 Đồ thị tri thức () là gì ?

Melania Trump Donald Trump

Melania_Trump wife_of Donald_Trump

Melania wife_of Donald

entity1 relation1 entityhead1 entitytail1

entity2 relation2 entityhead2 entitytail2

entityn entityhead-n entitytail-n

Giới thiệu năm 2012 với 570 triệu

 Danh mục nghiên cứu trên đồ thị tri thức

Mô hình dựa trên nhúng

 Nhúng đồ thị (Graph Embedding)

 Nhúng đồ thị (Graph Embedding)

Nhúng đỉnh Nhúng cạnh Nhúng kết hợp Nhúng toàn bộ

 Translating Embeddings (TransE)

 Translating Embeddings (TransE)

Chuẩn hóa trong loop

Đô sai khác giữa bộ chuẩn

 Tối ưu hàm mục tiêu dựa trên một lượng lớn dữ

Relation Embedding Relation Embedding

ℒ= ∑ ∑ max ⁡{𝑑𝑡 − 𝑑𝑡 +𝛾 ,0}

Học sự quan trọng của từng đặc trưng

 Mục tiêu của cơ chế Apple

Graph Attention Networks – GAT[12]

Figure 1 in Paper Graph atention networks (Petar Velickovi ˇ c..)

Entity Embedding Entity Embedding

Mask Attention with Mask Attention with

 Chiến lược tìm siêu tham số tối ưu là tìm kiếm

 Có bốn bộ dữ liệu tìm hiểu chia thành hai nhóm

Test Leakage Đa lĩnh vực Đặc trưng

WN18 Có Có ít loại quan hệ; Dữ liệu chỉ thuộc các

FB15k Có Có Có nhiều loại quan hệ khác nhau; Dữ liệu

 Các tập dữ liệu thực nghiệm :

 Bộ dữ liệu này được tạo bởi nhóm nghiên cứu A.

Ví dụ về một dòng dữ liệu trong Freebase

Ví dụ về một dòng dữ liệu trong WordNet

 Kết quả trên tập dữ liệu Freebase[13]

 Kết quả trên tập dữ liệu WordNet[13]

 Phương pháp KBGAT :

Mô hình dựa trên học sâu

Chi phí • Thời gian rất lâu

 £Sử dụng mô hình TransE để khởi tạo cho mô

You might also like