You are on page 1of 9

Machine Translated by Google

Bạn càng biết nhiều: Sử dụng Sơ đồ tri thức để phân loại hình ảnh

Kenneth Marino, Ruslan Salakhutdinov, Abhinav Gupta Đại


học Carnegie Mellon 5000
Forbes Ave, Pittsburgh, PA 15213
{kdmarino, rsalakhu, abhinavg}@cs.cmu.edu

trừu tượng
Đuôi Con voi

Lớn
Một đặc điểm khiến con người khác biệt với các thuật toán thị giác
Thân cây
Elp.
máy tính dựa trên học tập hiện đại là khả năng tiếp thu kiến thức về chuột chù

thế giới và sử dụng kiến thức đó để suy luận về thế giới thị giác. Con bụi cây

Chuột
người có thể tìm hiểu về các đặc điểm của đồ vật và mối quan hệ xảy ra Bé nhỏ

giữa chúng để tìm hiểu rất nhiều khái niệm trực quan, thường có rất ít Phát hiện

ví dụ. Bài viết này nghiên cứu việc sử dụng kiến thức có cấu trúc

Có thuộc tính
Sự dự đoán:
Chuột chù voi
trước đó dưới dạng biểu đồ tri thức và cho thấy rằng việc sử dụng kiến Giống như
Tìm thấy trong

thức này sẽ cải thiện hiệu suất phân loại hình ảnh. Chúng tôi xây dựng

dựa trên công việc gần đây về học tập từ đầu đến cuối trên biểu đồ,

giới thiệu Mạng thần kinh tìm kiếm biểu đồ như một cách kết hợp hiệu Hình 1. Ví dụ về cách kiến thức ngữ nghĩa về thế giới hỗ trợ
việc phân loại. Ở đây chúng ta thấy một con voi chuột chù. Con
quả các biểu đồ tri thức lớn vào quy trình phân loại tầm nhìn.
người có thể phân loại chính xác dựa trên những gì chúng ta biết
1V
2v44840.216] v7
:C i1
.
4 X0
s
0 r2
c
2
h a
[
T

về chuột chù voi và các động vật tương tự khác.

Trong một số thử nghiệm, chúng tôi cho thấy rằng phương pháp của chúng
ngôn ngữ. Chúng ta sử dụng kiến thức này trong cuộc sống hàng ngày để
tôi thực hiện tốt hơn các đường cơ sở mạng thần kinh tiêu chuẩn để phân
nhận biết đồ vật. Ví dụ: chúng ta có thể đã đọc trong một cuốn sách về
loại nhiều nhãn.
“chuột chù voi” (thậm chí có thể nhìn thấy một ví dụ) và sẽ thu được

kiến thức hữu ích để nhận biết một con chuột chù. Hình 1 minh họa cách
1. Giới thiệu
chúng ta có thể sử dụng kiến thức về thế giới trong vấn đề này. Chúng

Thế giới của chúng ta chứa đựng hàng triệu khái niệm trực quan được ta có thể biết rằng chuột chù voi có hình dáng giống chuột, có thân và

con người hiểu được. Chúng thường không rõ ràng (quả cà chua có thể có đuôi, có nguồn gốc từ Châu Phi và thường được tìm thấy trong bụi rậm.

màu đỏ hoặc xanh lá cây), chồng chéo (phương tiện bao gồm cả ô tô và Với thông tin này, chúng ta có thể xác định được chuột chù voi nếu nhìn

máy bay) và có hàng chục hoặc hàng trăm danh mục phụ (hàng nghìn loại thấy chúng trong tự nhiên. Chúng ta thực hiện điều này bằng cách nhận

côn trùng cụ thể). Trong khi một số khái niệm trực quan rất phổ biến biết đầu tiên (chúng ta nhìn thấy một vật thể nhỏ giống con chuột có

như người hoặc ô tô, hầu hết các danh mục đều có ít ví dụ hơn, tạo vòi trong bụi rậm), nhớ lại kiến thức (chúng ta nghĩ về các loài động

thành một phân phối đuôi dài [37]. Chưa hết, ngay cả khi chỉ đưa ra một vật mà chúng ta đã nghe nói đến cũng như các bộ phận, môi trường sống

vài hoặc thậm chí một ví dụ, con người vẫn có khả năng vượt trội để và đặc điểm của chúng) và sau đó suy luận (nó là chuột chù voi vì nó có

nhận ra những phạm trù này với độ chính xác cao. Ngược lại, trong khi thân và đuôi, trông giống chuột trong khi chuột và voi không có đủ

các phương pháp tiếp cận dựa trên học tập hiện đại có thể nhận ra một những đặc điểm này). Với thông tin này, ngay cả khi chúng ta chỉ xem

số danh mục với độ chính xác cao, nó thường yêu cầu hàng nghìn ví dụ một hoặc hai bức ảnh về loài động vật này, chúng ta cũng có thể phân

được gắn nhãn cho mỗi danh mục này. loại nó.

Do không gian của các khái niệm trực quan rộng lớn, phức tạp và năng Đã có rất nhiều công trình nghiên cứu về end-to-end learning trên đồ

động như thế nào, cách tiếp cận xây dựng bộ dữ liệu lớn cho mọi khái thị hoặc mạng nơ-ron được huấn luyện trên đồ thị [31, 2, 6, 11, 25, 22,

niệm này là không thể mở rộng được. Vì vậy, chúng ta cần hỏi con người 9, 21]. Hầu hết các phương pháp này đều trích xuất các đặc điểm từ

có những gì mà các phương pháp hiện tại không có. biểu đồ hoặc học mô hình lan truyền để chuyển bằng chứng giữa các nút

Một câu trả lời khả dĩ cho vấn đề này là kiến thức có cấu trúc và có điều kiện về loại cạnh. Một ví dụ về điều này là Mạng lưới thần kinh

lý luận. Con người không chỉ đơn thuần là những kẻ phân loại dựa trên đồ thị Gated [18] lấy đồ thị tùy ý làm đầu vào. Được cho

ngoại hình; chúng ta có được kiến thức về thế giới từ kinh nghiệm và

1
Machine Translated by Google

một số khởi tạo cụ thể cho tác vụ, nó học cách truyền thông tin mã hóa hệ thống học tập cuối cùng để thực hiện lý luận đã trở thành một

và dự đoán đầu ra cho mọi nút trong lĩnh vực nghiên cứu tích cực. Một số công trình xử lý đồ thị như một

đồ thị. Cách tiếp cận này đã được chứng minh là giải quyết được vấn đề cơ bản trường hợp đặc biệt của đầu vào tích chập, thay vì pixel

nhiệm vụ logic cũng như xác minh chương trình. đầu vào được kết nối với pixel trong lưới, chúng tôi xác định đầu vào là

Công việc của chúng tôi cải thiện mô hình này và điều chỉnh từ đầu đến cuối được kết nối bằng một biểu đồ đầu vào, dựa vào một số

vẽ đồ thị mạng lưới thần kinh để phân loại hình ảnh nhiều nhãn. cấu trúc đồ thị hoặc thực hiện một số loại tiền xử lý trên

Chúng tôi giới thiệu Mạng thần kinh tìm kiếm đồ thị (GSNN) các cạnh của đồ thị [2, 6, 11, 25]. Tuy nhiên, hầu hết các phương pháp

sử dụng các đặc điểm của hình ảnh để chú thích biểu đồ một cách hiệu này đã được thử trên các biểu đồ nhỏ hơn, rõ ràng hơn như

quả, chọn tập hợp con có liên quan của biểu đồ đầu vào bộ dữ liệu phân tử. Trong các vấn đề về thị giác, những biểu đồ này mã hóa

và dự đoán kết quả đầu ra trên các nút đại diện cho các khái niệm trực quan. các mối quan hệ theo ngữ cảnh và thông thường và lớn hơn và ồn ào hơn

Các trạng thái đầu ra này sau đó được sử dụng để phân loại các đối tượng trong đáng kể.

bức hình. GSNN học một mô hình lan truyền dựa trên các loại mối quan hệ Li và Zemel trình bày Mạng thần kinh có cổng đồ thị

và khái niệm khác nhau để (GGNN) [18] sử dụng mạng nơ-ron trên dữ liệu có cấu trúc đồ thị. Bài

tạo ra kết quả đầu ra trên các nút sau đó được sử dụng để phân loại độ viết này (phần mở rộng của Graph Neural

tuổi hình ảnh. Kiến trúc mới của chúng tôi giảm thiểu các vấn đề tính Networks [31]) đóng vai trò là nền tảng cho Biểu đồ của chúng tôi

toán với Mạng thần kinh đồ thị có cổng Mạng thần kinh tìm kiếm (GSNN). Một số giấy tờ đã tìm thấy

cho các biểu đồ lớn cho phép mô hình của chúng tôi hoạt động hiệu quả thành công khi sử dụng các biến thể của Mạng thần kinh đồ thị được áp dụng

được huấn luyện cho các nhiệm vụ hình ảnh bằng cách sử dụng đồ thị tri thức lớn. Chúng tôi đến các lĩnh vực đơn giản khác nhau như phân tích mối quan hệ tính chất-

cho thấy mô hình của chúng tôi có hiệu quả như thế nào trong việc suy luận về cấu trúc định lượng (QSPR) trong hóa học [22]

các khái niệm nhằm cải thiện các nhiệm vụ phân loại hình ảnh. Điều quan trọng là, và kết hợp đồ thị con và các vấn đề về đồ thị khác trên đồ chơi

mô hình GSNN của chúng tôi cũng có thể đưa ra lời giải thích về bộ dữ liệu [9]. GGNN là một mạng hoàn toàn đầu cuối sử dụng

phân loại bằng cách tuân theo cách thông tin được truyền bá trong biểu làm đầu vào cho một biểu đồ có hướng và đưa ra phân loại trên toàn bộ

đồ. biểu đồ hoặc đầu ra cho mỗi nút. Vì

Đóng góp chính của công việc này là (a) việc giới thiệu GSNN như một Ví dụ, đối với vấn đề về khả năng tiếp cận đồ thị, GGNN là

cách kết hợp các cho một biểu đồ, nút bắt đầu và nút kết thúc và GGNN

đồ thị tri thức vào một hệ thống học tập end-to-end sẽ phải xuất ra liệu nút cuối có thể truy cập được từ

khả thi về mặt tính toán cho các đồ thị lớn; (b) một khuôn khổ nút bắt đầu. Chúng hiển thị kết quả cho các nhiệm vụ logic trên biểu đồ

để sử dụng đồ thị tri thức nhiễu để phân loại hình ảnh; và các nhiệm vụ phức tạp hơn như xác minh chương trình.
Ngoài ra còn có một khối lượng công việc đáng kể về các loại hạt nhân
và (c) khả năng giải thích việc phân loại hình ảnh của chúng tôi bằng

sử dụng mô hình lan truyền. Phương pháp của chúng tôi thực hiện tốt hơn khác nhau được xác định cho đồ thị [36] chẳng hạn như hạt nhân khuếch

đáng kể các đường cơ sở để phân loại nhiều nhãn. tán [14], hạt nhân graphlet [33], Weisfeiler-Lehman

hạt nhân đồ thị [32], hạt nhân đồ thị sâu [27], hạt nhân bất biến đồ thị

2. Công việc liên quan [26] và hạt nhân đường đi ngắn nhất [1]. Các phương pháp

có nhiều cách khác nhau để khai thác các cấu trúc đồ thị phổ biến,
Học đồ thị tri thức [4, 3, 30] và sử dụng đồ thị
tuy nhiên, những cách tiếp cận này chỉ hữu ích cho các ứng dụng dựa trên kernel.
cho lý luận trực quan [37, 20] gần đây đã được quan tâm
các phương pháp tiếp cận như SVM không thể so sánh tốt với
tới cộng đồng tầm nhìn. Để suy luận trên đồ thị, một số
kiến trúc mạng lưới thần kinh trong tầm nhìn.
các cách tiếp cận đã được nghiên cứu. Ví dụ: [38] thu thập
Công việc của chúng tôi cũng liên quan đến cách tiếp cận thuộc tính [8] để
một cơ sở tri thức và sau đó truy vấn cơ sở tri thức này để
tầm nhìn, chẳng hạn như [16] sử dụng một tập hợp các thuộc tính nhị phân
thực hiện lý luận xác suất bậc nhất để dự đoán khả năng chi trả.
cố định để thực hiện dự đoán không bắn, [34] sử dụng các thuộc tính được
[20] xây dựng biểu đồ các mẫu cho các danh mục khác nhau và
chia sẻ giữa các danh mục để ngăn chặn sự trôi dạt ngữ nghĩa
sử dụng các mối quan hệ không gian để thực hiện suy luận theo ngữ cảnh.
trong học bán giám sát và [5] tự động
Các phương pháp tiếp cận như [17] sử dụng các bước đi ngẫu nhiên trên
khám phá các thuộc tính và sử dụng chúng để phân loại chi tiết. Công
đồ thị để tìm hiểu các mẫu cạnh trong khi thực hiện bước đi
việc của chúng tôi cũng sử dụng các mối quan hệ thuộc tính xuất hiện
và dự đoán các cạnh mới trong đồ thị tri thức. Có có
trong biểu đồ tri thức của chúng tôi, nhưng cũng sử dụng các mối quan hệ
cũng có một số công việc sử dụng cơ sở kiến thức về hình ảnh
giữa các đối tượng và lý do trực tiếp trên đồ thị chứ không phải
truy xuất [12] hoặc trả lời các truy vấn trực quan [39], nhưng những
sử dụng trực tiếp các cặp thuộc tính-đối tượng.
công việc tập trung vào việc xây dựng và sau đó truy vấn các cơ sở tri

thức thay vì sử dụng các cơ sở tri thức hiện có như


3. Phương pháp luận
thông tin phụ cho một số nhiệm vụ tầm nhìn.

Tuy nhiên, chưa có cách tiếp cận nào trong số này được học 3.1. Mạng thần kinh có cổng đồ thị
theo cách từ đầu đến cuối và mô hình lan truyền trên Ý tưởng của GGNN là cho một đồ thị có N nút,

đồ thị chủ yếu được làm thủ công. Gần đây hơn, học hỏi từ chúng tôi muốn tạo ra một số đầu ra có thể là một

đồ thị tri thức sử dụng mạng lưới thần kinh và các đầu cuối khác đầu ra cho mọi nút biểu đồ o1, o2, ...oN hoặc đầu ra chung

2
Machine Translated by Google

oG. Điều này được thực hiện bằng cách học một mô hình lan truyền tương tự thay vì thực hiện cập nhật định kỳ trên tất cả các nút của biểu đồ cùng

như LSTM. Đối với mỗi nút trong biểu đồ v, chúng ta có biểu diễn trạng một lúc, chúng tôi bắt đầu với một số nút ban đầu dựa trên đầu vào của
(t) chúng tôi và chỉ chọn mở rộng các nút hữu ích cho đầu ra cuối cùng. Vì
thái ẩn h tại mỗi bước t. Chúng ta
v bắt đầu tại t = 0 với trạng thái ẩn ban
đầu xv phụ thuộc vào bài toán. Ví dụ: để tìm hiểu khả năng tiếp cận của vậy, chúng tôi chỉ tính toán các bước cập nhật trên một tập hợp con của

biểu đồ, đây có thể là một vectơ hai bit cho biết một nút là nút nguồn hay biểu đồ. Vậy làm cách nào để chọn tập hợp con của các nút để khởi tạo biểu

nút đích. Trong trường hợp lập luận biểu đồ tri thức trực quan, xv có thể đồ?

là kích hoạt một bit thể hiện độ tin cậy của một danh mục hiện diện dựa Trong quá trình đào tạo và thử nghiệm, chúng tôi xác định các nút ban đầu

trên bộ phát hiện hoặc phân loại đối tượng. trong biểu đồ dựa trên khả năng xuất hiện khái niệm được xác định bởi trình

phát hiện hoặc phân loại đối tượng. Đối với các thử nghiệm của mình, chúng

tôi sử dụng Faster R-CNN [28] cho từng danh mục trong số 80 danh mục COCO.

Tiếp theo, chúng tôi sử dụng cấu trúc của biểu đồ, được mã hóa trong Đối với điểm vượt quá một số ngưỡng đã chọn, chúng tôi chọn các nút tương

ma trận A dùng để truy xuất trạng thái ẩn của các nút liền kề dựa trên các ứng trong biểu đồ làm tập hợp các nút hoạt động ban đầu.

loại cạnh giữa chúng. Các trạng thái ẩn sau đó được cập nhật bởi mô-đun cập

nhật có kiểm soát tương tự như LSTM. Sự lặp lại cơ bản cho mạng lan truyền Khi chúng tôi có các nút ban đầu, chúng tôi cũng thêm các nút liền kề

này là với các nút ban đầu vào tập hoạt động. Với các nút ban đầu của chúng tôi,

T trước tiên chúng tôi muốn truyền bá niềm tin về các nút ban đầu của mình
h (1) = [x v , 0]T (1)
v
T T tới tất cả các nút lân cận. Tuy nhiên, sau bước đầu tiên, chúng ta cần có
(t) = A (t 1) ...h(t (t
1) 1) ) (2)
một v
v [h 1] + b + U zh
N cách quyết định nút nào sẽ mở rộng tiếp theo. Do đó, chúng tôi tìm hiểu
t z (3)
v (t) = σ(Wz a v v chức năng tính điểm trên mỗi nút để ước tính mức độ “quan trọng” của nút
t r + U rh (t 1) ) (4)
v (t) = σ(Wr a v v đó. Sau mỗi bước lan truyền, đối với mỗi nút trong biểu đồ hiện tại của
t
htv = tanh(W a(t) h v + U(r h (t 1) )) (5) chúng tôi, chúng tôi dự đoán điểm quan trọng
v v
t t
(t) + z ht (6)
v ) =h (1
(t 1)z v v v v

(t) trong đó
v h là trạng thái ẩn của nút v tại bước thời gian t, xv là chú tôi (t) = gi(hv, xv)
v (số 8)

thích cụ thể của bài toán, Av là ma trận kề của đồ thị cho nút v và W và U

là các tham số đã học. Phương trình 1 là khởi tạo trạng thái ẩn với kích trong đó gi là mạng đã học, mạng quan trọng.
thước xv và trống. Phương trình 2 hiển thị các cập nhật lan truyền từ các
Khi chúng tôi có các giá trị của iv, chúng tôi lấy các nút tính điểm P
nút lân cận. Phương trình (3-6) kết hợp thông tin từ các nút lân cận và
hàng đầu chưa bao giờ được mở rộng và thêm chúng vào tập mở rộng của chúng
trạng thái ẩn hiện tại của các nút để tính toán trạng thái ẩn tiếp theo.
tôi, đồng thời thêm tất cả các nút liền kề với các nút đó vào tập hoạt

động của chúng tôi. Hình 2 minh họa sự mở rộng này. Tại t = 1, chỉ các nút

được phát hiện mới được mở rộng. Tại t = 2, chúng tôi mở rộng các nút đã
Sau T bước thời gian, chúng ta có các trạng thái ẩn cuối cùng. Các
chọn dựa trên các giá trị quan trọng và thêm các nút lân cận của chúng vào
Khi đó, các đầu ra ở cấp độ nút có thể được tính là ov =
biểu đồ. Ở bước thời gian cuối cùng T, chúng tôi tính toán đầu ra trên mỗi

g(h (T) v , trong


xv) đó (7) nút và sắp xếp lại cũng như đệm 0 các đầu ra vào mạng phân loại cuối cùng.

g là mạng được kết nối đầy đủ, mạng đầu ra và xv là chú thích ban đầu cho
Để huấn luyện mạng quan trọng, chúng tôi gán giá trị tầm quan trọng
nút.
mục tiêu cho từng nút trong biểu đồ cho một hình ảnh nhất định. Các nút
3.2. Mạng lưới thần kinh tìm kiếm đồ thị tương ứng với các khái niệm thực tế cơ bản trong ảnh được gán giá trị

quan trọng là 1. Các nút lân cận của các nút này được gán giá trị γ. Các
Vấn đề lớn nhất trong việc điều chỉnh GGNN cho các tác vụ hình ảnh là
nút cách xa hai bước nhảy có giá trị γ, v.v. Ý tưởng là các nút gần đầu ra
khả năng mở rộng tính toán. Ví dụ: NEIL [4] có hơn 2000 khái niệm và NELL
2
cuối cùng nhất là nút quan trọng nhất để mở rộng.
[3] có hơn 2 triệu niềm tin tự tin. Ngay cả sau khi cắt bớt nhiệm vụ của

chúng tôi, những biểu đồ này vẫn rất lớn. Lan truyền thuận trên GGNN tiêu
Bây giờ chúng tôi có một mạng đầu cuối lấy đầu vào là một tập hợp các
chuẩn là O(N2 ) với số nút N và lan truyền ngược là O(NT ) trong đó T là
nút và chú thích ban đầu, đồng thời xuất ra đầu ra trên mỗi nút cho mỗi
số bước lan truyền.
nút hoạt động trong biểu đồ. Nó bao gồm ba bộ mạng: mạng lan truyền, mạng

quan trọng và mạng đầu ra. Sự mất mát cuối cùng từ vấn đề hình ảnh có thể
Chúng tôi thực hiện các thử nghiệm đơn giản trên GGNN trên biểu đồ tổng
được truyền ngược từ đầu ra cuối cùng của đường ống trở lại mạng đầu ra và
hợp và nhận thấy rằng sau hơn 500 nút, quá trình tiến và lùi mất hơn 1
sự mất mát tầm quan trọng được truyền ngược qua từng đầu ra quan trọng.
giây trên một phiên bản, ngay cả khi đưa ra các giả định tham số rộng rãi.

Trên 2.000 nút, phải mất hơn một phút cho một hình ảnh. Sử dụng GGNN ngay

lập tức là không khả thi.


Xem Hình 3 để biết kiến trúc GSNN. Xinit đầu tiên , (1) độ tin cậy phát

hiện khởi tạo h init, các trạng thái ẩn của


Giải pháp của chúng tôi cho vấn đề này là Mạng trung tính tìm kiếm đồ

thị (GSNN). Như tên có thể ngụ ý, ý tưởng là (1) các nút được phát hiện ban đầu. Sau đó chúng tôi khởi tạo h adj1 , các

3
Machine Translated by Google

nhận trạng thái ẩn và chú thích ban đầu của nút v


COCO
Lan truyền
Phát hiện: để tính toán đầu ra của nó. Theo một nghĩa nào đó, nó là bất khả tri đối với
Bươ c chân
Điểm giao
Người Đã phát hiện

Điểm giao
Mở rộng ý nghĩa của nút. Nghĩa là vào thời điểm tập luyện hoặc kiểm tra, GSNN
Xe hơi bởi

Xe đạp Tầm quan trọng


đưa vào một biểu đồ có lẽ nó chưa từng thấy trước đây và một số
t=1 t=2 chú thích ban đầu xv cho mỗi nút. Sau đó, nó sử dụng cấu trúc của
Sắp xếp
lại và biểu đồ để truyền bá các chú thích đó thông qua
Lan truyền
0
Để phân loại Zero-pad
đầu ra
Bươ c chân
mạng và sau đó tính toán đầu ra. Các nút của

Mạng lưới

Mạng
đồ thị có thể biểu diễn mọi thứ từ mối quan hệ giữa con người với một

chương trình máy tính. Tuy nhiên, trong biểu đồ của chúng tôi

0 mạng, thực tế là một nút cụ thể đại diện cho “con ngựa”
t=T
hoặc “mèo” có thể sẽ phù hợp và chúng ta cũng có thể hạn chế

chúng ta vào một biểu đồ tĩnh trên các khái niệm hình ảnh. Do đó chúng tôi

Hình 2. Mở rộng Mạng nơ-ron tìm kiếm đồ thị. Bắt đầu với giới thiệu các thuật ngữ sai lệch nút mà đối với mỗi nút trong biểu đồ của chúng tôi,

các nút được phát hiện và mở rộng các nút lân cận. Thêm các nút liền kề với có một số giá trị đã học. Phương trình đầu ra của chúng tôi bây giờ là
mở rộng các nút được dự đoán theo mức độ quan trọng. (T)
g(h v , xv, nv) trong đó nv là số hạng thiên vị được gắn với một
0
xin lỗi
Tầm quan trọng nút cụ thể v trong đồ thị tổng thể. Giá trị này được lưu trữ trong một
Sự mất mát
bảng và giá trị của nó được cập nhật bằng cách lan truyền ngược.
h (1) h (1)
khởi tạo tính từ1
Nhập khẩu. Top P
Đề xuất.
Mạng lưới
3.3. Đường dẫn hình ảnh và đường cơ sở
Mạng lưới h (2) h (2) tôi (1) adj2
khởi tạo adj1

Một vấn đề khác mà chúng tôi gặp phải là điều chỉnh mạng đồ thị cho
0
Tầm quan trọng
vấn đề về tầm nhìn là làm thế nào để kết hợp mạng đồ thị

vào một đường dẫn hình ảnh. Về phân loại thì điều này khá
Sự mất mát

(2)
ồ (2) ban đầu h (2)
adj1 tính từ1
h (2)
adj2
Đề xuất.
h (2)tính từ2
Nhập khẩu.
đơn giản. Chúng tôi lấy đầu ra của mạng đồ thị,
Top P
sắp xếp lại nó để các nút luôn xuất hiện theo cùng một thứ tự
Mạng lưới Mạng lưới

hh(3) (3) h (3)


trong đó hh adj1tính từ1 adj2
adj2
tôi (2) adj3

vào mạng cuối cùng và không đệm bất kỳ nút nào đã được

không được mở rộng. Do đó, nếu chúng ta có đồ thị có 316 nút
(T-1) (T-1) … h (T-1)(T-1)
h
h init hh adj1 tính từ1
tính
từ tính từ đầu ra và mỗi nút dự đoán một biến ẩn 5 độ mờ, chúng tôi
Đề xuất.
tạo vectơ đặc trưng 1580 độ mờ từ biểu đồ. Chúng tôi cũng
Mạng lưới
h (T)
Cuối cùng
ghép vectơ đặc trưng này với lớp fc7 (4096-dim) của
đầu ra
Phân loại
Mạng lưới
mạng VGG-16 được tinh chỉnh [35] và điểm cao nhất cho mỗi mạng
Nhãn dự đoán
GSNN ra Danh mục COCO được dự đoán bởi Faster R-CNN (80-dim). Cái này
mất trước
Sau đó, vectơ đặc trưng 5756-dim được đưa vào mạng phân loại cuối
Công nguyên
Phân loại
nhãn gt cùng 1 lớp được đào tạo với khả năng bỏ học.
Sự mất mát

Đối với đường cơ sở, chúng tôi so sánh với: (1) Đường cơ sở VGG - nguồn cấp dữ liệu

chỉ fc7 vào mạng phân loại cuối cùng; (2) Đường cơ sở phát hiện -
Hình 3. Sơ đồ mạng thần kinh tìm kiếm đồ thị. Hiển thị quá trình khởi tạo các
đưa fc7 và điểm COCO cao nhất vào mạng phân loại cuối cùng.
trạng thái ẩn, bổ sung các nút mới khi biểu đồ được mở rộng và dòng tổn thất

thông qua đầu ra, sự lan truyền và


4. Kết quả
lưới quan trọng.

4.1. Bộ dữ liệu
trạng thái ẩn của các nút liền kề, bằng 0. Sau đó, chúng tôi cập nhật

trạng thái ẩn bằng cách sử dụng mạng lan truyền. Giá trị Đối với các thử nghiệm của mình, chúng tôi muốn thử nghiệm trên một tập dữ liệu
của h (2) sau đó được sử dụng để dự đoán điểm quan trọng i (1) ,
đại diện cho thế giới hình ảnh phức tạp, ồn ào với nhiều
được sử dụng để chọn các nút tiếp theo để thêm adj2. Những cái này các loại đối tượng khác nhau, trong đó các nhãn có khả năng mơ hồ và
(2)
các nút sau đó được khởi tạo bằng h = 0 và ẩn
chồng chéo, còn các danh mục rơi vào một đuôi dài
trạng thái adj2 được cập nhật lại thông qua mạng lan truyền. Sau đó phân phối [37]. Con người làm tốt trong bối cảnh này, nhưng tầm nhìn
T bước, sau đó chúng tôi thực hiện tất cả các trạng thái ẩn tích lũy các thuật toán vẫn gặp khó khăn với nó. Để đạt được mục đích này, chúng tôi đã chọn
T
h để dự đoán đầu ra GSNN cho tất cả các nút hoạt động. Bộ dữ liệu Visual Genome [15] v1.0.

Trong quá trình lan truyền ngược, entropy chéo nhị phân (BCE) Visual Genome chứa hơn 100.000 hình ảnh tự nhiên
tổn thất được đưa ngược qua lớp đầu ra và tổn thất quan trọng được từ trên mạng. Mỗi hình ảnh được gắn nhãn với các đối tượng, thuộc
đưa qua các mạng quan trọng để tính và mối quan hệ giữa các đối tượng được con người nhập vào.
cập nhật các thông số mạng. người chú thích. Người chú thích có thể nhập bất kỳ đối tượng nào trong ảnh
Một chi tiết cuối cùng là việc bổ sung “độ lệch nút” vào thay vì từ một danh sách được xác định trước, do đó, có
(T)
GSNN. Trong GGNN, hàm đầu ra trên mỗi nút g(h v , xv) hàng ngàn nhãn đối tượng với một số nhãn phổ biến hơn

4
Machine Translated by Google

và hầu hết có ít ví dụ hơn. Có trung bình 21 đối tượng được gắn nhãn trong 4.3. Chi tiết đào tạo
một hình ảnh, so với các tập dữ liệu
Chúng tôi cùng đào tạo tất cả các bộ phận của đường ống (ngoại trừ phần
chẳng hạn như ImageNet [29] hoặc PASCAL [7], những cảnh chúng tôi đang xem
máy dò). Tất cả các mô hình đều được huấn luyện với Stochastic gradient
việc xem xét phức tạp hơn nhiều. Bộ gen thị giác cũng
gốc, ngoại trừ GSNN được đào tạo bằng ADAM [13].
được gắn nhãn với các mối quan hệ đối tượng-đối tượng và thuộc tính đối tượng
Chúng tôi sử dụng tỷ lệ học tập ban đầu là 0,05, 0,005 cho VGG
các mối quan hệ mà chúng tôi sử dụng cho GSNN.
net trước f c7, giảm theo hệ số 0,1 cứ sau 10
Trong các thử nghiệm của mình, chúng tôi tạo một tập hợp con từ Visual 6 và động lượng là 0,5. Chúng tôi
kỷ nguyên, hình phạt L2 là 1e
Bộ gen mà chúng tôi gọi là bộ dữ liệu đa nhãn Visual Genome
đặt kích thước trạng thái ẩn GSNN của chúng tôi thành 10, giảm mức độ quan trọng
hoặc VGML. Trong VGML, chúng tôi lấy 200 đối tượng phổ biến nhất trong tập
hệ số γ đến 0,3, số bước thời gian T đến 3, ngưỡng tin cậy ban đầu là 0,5 và
dữ liệu và 100 thuộc tính và thông tin phổ biến nhất.
số mở rộng P của chúng tôi là 5.
đồng thời thêm bất kỳ danh mục COCO nào không có trong 300 danh mục đó để có tổng số
Mạng đầu ra và tầm quan trọng của GSNN là các mạng một lớp có kích hoạt
của 316 khái niệm trực quan. Sau đó, nhiệm vụ của chúng tôi là phân loại
sigmoid. Tất cả các mạng đã được đào tạo
nhiều nhãn: với mỗi hình ảnh dự đoán tập hợp con nào của 316
trong 20 kỷ nguyên với kích thước lô là 16.
tổng số danh mục xuất hiện trong cảnh. Chúng tôi chia ngẫu nhiên

hình ảnh thành sự phân chia khoảng 80-20 chuyến tàu/kiểm tra. Kể từ khi chúng tôi sử dụng 4.4. Đánh giá định lượng
máy dò được đào tạo trước từ COCO, chúng tôi đảm bảo không có máy dò nào của chúng tôi
Bảng 1 cho thấy kết quả của phương pháp của chúng tôi trên Visual
hình ảnh thử nghiệm trùng lặp với hình ảnh đào tạo của máy dò của chúng tôi.
Phân loại đa nhãn bộ gen. Trong thí nghiệm này,
Chúng tôi cũng đánh giá phương pháp này một cách chuẩn hơn
đồ thị Visual Genome, WordNet kết hợp tốt hơn
Tập dữ liệu COCO [19] cho thấy phương pháp của chúng tôi hữu ích
Biểu đồ bộ gen trực quan. Điều này gợi ý rằng việc bao gồm kiến thức ngữ
trên nhiều tập dữ liệu và phương pháp của chúng tôi không dựa vào
nghĩa bên ngoài từ WordNet và thực hiện suy luận rõ ràng trên biểu đồ tri
đồ thị được xây dựng riêng cho bộ dữ liệu của chúng tôi. Chúng tôi đào tạo và kiểm tra
thức cho phép mô hình của chúng tôi
trong cài đặt nhiều nhãn [24] và đánh giá mức tối thiểu
học cách biểu diễn tốt hơn so với các mô hình khác.
đặt [28].
Chúng tôi cũng thực hiện các thử nghiệm để kiểm tra tác động của việc

giới hạn kích thước của tập dữ liệu huấn luyện đối với hiệu suất.
4.2. Xây dựng Sơ đồ tri thức
Hình 4 thể hiện kết quả của thí nghiệm này trên Visual
Chúng tôi cũng sử dụng Visual Genome làm nguồn cho biểu đồ tri thức của
Bộ gen, thay đổi kích thước tập huấn luyện từ toàn bộ tập huấn luyện (khoảng

mình. Chỉ sử dụng phần tách đoàn tàu, chúng tôi xây dựng một biểu đồ tri 80.000), cho đến tận 500

thức kết nối các khái niệm bằng cách sử dụng các mối quan hệ đối tượng-thuộc ví dụ. Việc chọn các tập con của các ví dụ cho các thử nghiệm này được thực

tính và đối tượng-đối tượng phổ biến nhất trong hiện ngẫu nhiên, nhưng mỗi tập huấn luyện là một tập con

tập dữ liệu. Cụ thể, chúng tôi đã tính tần suất một đối tượng/đối tượng của những cái lớn hơn—ví dụ: tất cả các ví dụ trong 1.000

mối quan hệ hoặc cặp đối tượng/thuộc tính xảy ra trong quá trình huấn luyện bộ cũng nằm trong bộ 2.000. Chúng ta thấy điều đó, cho đến năm 1.000

thiết lập và cắt tỉa bất kỳ cạnh nào có ít hơn 200 phiên bản. tập mẫu, tất cả các phương pháp dựa trên GSNN đều hoạt động tốt hơn các

Điều này để lại cho chúng ta một biểu đồ trên tất cả các hình ảnh với đường cơ sở. Ở 1.000 và 500 ví dụ, tất cả các phương pháp đều hoạt động như

mỗi cạnh là một mối quan hệ chung. Ý tưởng là vậy nhau. Với tính chất đuôi dài của Visual Genome,

chúng ta sẽ có những mối quan hệ rất chung (chẳng hạn như cỏ là có khả năng là với ít hơn 2.000 mẫu, nhiều danh mục không có đủ ví dụ cho

màu xanh lá cây hoặc người mặc quần áo) nhưng không phải là mối quan hệ bất kỳ phương pháp nào để học

hiếm và chỉ xuất hiện trong các hình ảnh đơn lẻ (chẳng hạn như người cưỡi ngựa Tốt. Thí nghiệm này chỉ ra rằng phương pháp của chúng tôi có thể

ngựa vằn). cải thiện ngay cả trong trường hợp dữ liệu thấp đến một điểm.

Các biểu đồ Visual Genome rất hữu ích cho vấn đề của chúng tôi Trong Bảng 2, chúng tôi hiển thị kết quả trên nhãn đa nhãn COCO

bởi vì chúng chứa đựng các mối quan hệ ở cấp độ cảnh giữa các đối tượng, ví tập dữ liệu. Chúng ta có thể thấy rằng sự thúc đẩy từ việc sử dụng kiến thức

dụ người mặc quần hoặc vòi cứu hỏa có màu đỏ và do đó về đồ thị có ý nghĩa hơn so với Visual Genome. Một

cho phép mạng đồ thị suy luận về nội dung trong một cảnh. lời giải thích có thể là kiến thức về Visual Genome

Tuy nhiên, nó không chứa các mối quan hệ ngữ nghĩa hữu ích. đồ thị cung cấp thông tin quan trọng giúp cải thiện

Ví dụ, có thể hữu ích khi biết rằng con chó là động vật nếu hệ thống thị giác hiệu suất trên chính tập dữ liệu COCO. Trong thí nghiệm Visual Genome trước

của chúng ta nhìn thấy một con chó và một trong những nhãn hiệu của chúng ta là đây, phần lớn thông tin biểu đồ được chứa trong nhãn và hình ảnh. Một

động vật. Để giải quyết vấn đề này, chúng tôi cũng tạo một phiên bản đồ thị

bằng cách kết hợp Đồ thị bộ gen trực quan với WordNet [23]. kết quả thú vị khác là biểu đồ Visual Genome hoạt động tốt hơn biểu đồ kết

Sử dụng tập hợp con của WordNet từ [10], trước tiên chúng tôi thu thập các hợp cho COCO, mặc dù cả hai đều hoạt động tốt hơn đường cơ sở. Một lý do có

các nút trong WordNet không có trong nhãn đầu ra của chúng tôi bằng cách bao gồm các nút đó thể là do bản gốc

kết nối trực tiếp với nhãn đầu ra của chúng tôi và do đó có khả năng Biểu đồ VGML nhỏ hơn, rõ ràng hơn và chứa nhiều thông tin liên quan hơn biểu

có liên quan và thêm chúng vào biểu đồ kết hợp. Sau đó chúng tôi đồ kết hợp. Hơn nữa, trong

lấy tất cả các cạnh của WordNet giữa các nút này và thêm thử nghiệm VGML, WordNet là thông tin bên ngoài mới dành cho thuật toán giúp

chúng vào biểu đồ kết hợp của chúng tôi. nâng cao hiệu suất.

5
Machine Translated by Google

Bảng 1. Độ chính xác trung bình trung bình để phân loại nhiều nhãn trên
chính thức trên tất cả các danh mục, nhưng lại hoạt động tốt hơn ở một
Bộ dữ liệu đa nhãn Visual Genome. Các số cho đường cơ sở VGG,
số danh mục và tệ hơn ở những danh mục khác. Hình 5 cho thấy sự khác biệt
Đường cơ sở VGG với các phát hiện, GSNN sử dụng biểu đồ Visual Genome
với độ chính xác trung bình cho từng danh mục giữa GSNN của chúng tôi
và GSNN bằng cách sử dụng biểu đồ Visual Genome và WordNet kết hợp.
mô hình với biểu đồ kết hợp và đường cơ sở phát hiện

cho thí nghiệm VGML. Hình 6 cho thấy điều tương tự đối với
Phương pháp bản đồ
thí nghiệm COCO của chúng tôi. Hiệu suất trên một số lớp được cải
VGG 30,57
thiện đáng kể, chẳng hạn như “ngã ba” trong thử nghiệm VGML của chúng tôi và
VGG+Det 31,4
“cái kéo” trong thí nghiệm COCO của chúng tôi. Những điều này và những điều tốt khác
GSNN-VG 32.83 kết quả về “con dao” và “bàn chải đánh răng” dường như chỉ ra rằng

GSNN-VG+WN 33
lý luận đồ thị đặc biệt hữu ích với các vật thể nhỏ trong

bức hình. Trong phần tiếp theo, chúng tôi phân tích các mô hình

Thử nghiệm dữ liệu thấp về bộ gen trực quan GSNN trên một số ví dụ để cố gắng đạt được trực giác tốt hơn khi
35

30
mô hình GSNN đang làm gì và tại sao nó hoạt động tốt hoặc
25
kém về một số ví dụ nhất định.
20
ảđ
nồb

15

10 4.5. Đánh giá định tính


5

0
Một cách để phân tích GSNN là xem xét độ nhạy cảm của các tham
Đầy 40.000 20.000 10.000 5.000 2.000 1.000 500

Kích thước tập huấn luyện


số trong mô hình của chúng tôi đối với một đối tượng cụ thể.
Đường cơ sở Phát hiện Đồ thị VGonly Đồ thị kết hợp đầu ra. Cho một hình ảnh I và một nhãn quan tâm yi xuất hiện trong

Hình 4. Độ chính xác trung bình trung bình trên Visual Genome ở mức thấp hình ảnh, chúng tôi muốn biết

thiết lập dữ liệu. Hiển thị hiệu suất cho tất cả các phương pháp đầy đủ thông tin di chuyển qua GSNN như thế nào và những nút nào
tập dữ liệu, 40.000, 20.000, 10.000, 5.000, 2.000, 1.000 và 500 và các cạnh nó sử dụng. Chúng tôi đã kiểm tra độ nhạy của đầu ra
ví dụ đào tạo. đối với các trạng thái và phát hiện ẩn bằng cách tính toán một phần
yi yi
đạo hàm yi đối với thể loại
h(1) h(2) xdet
Bảng 2. Độ chính xác trung bình trung bình để phân loại nhiều nhãn trên
quan tâm. Các giá trị này cho chúng ta biết một thay đổi nhỏ ở trạng thái
COCO. Các số cho đường cơ sở VGG, đường cơ sở VGG có phát hiện, GSNN
ẩn của một nút cụ thể sẽ ảnh hưởng như thế nào đến một đầu ra cụ thể. Chúng tôi
sử dụng biểu đồ Visual Genome và GSNN sử dụng biểu đồ Visual Genome và
sẽ mong đợi được thấy, ví dụ, để dán nhãn cho con voi,
WordNet kết hợp.
chúng tôi thấy độ nhạy cao đối với các trạng thái ẩn tương ứng

sang màu xám và thân cây.


Phương pháp bản đồ
Trong phần này, chúng tôi trình bày phân tích độ nhạy cho
VGG 69,86
Mô hình đồ thị kết hợp GSNN trên thí nghiệm VGML
VGG+Det 73,93
và biểu đồ Visual Genome trên các thí nghiệm COCO.
GSNN-VG 77,57
Đặc biệt, chúng tôi kiểm tra một số lớp hoạt động tốt
GSNN-VG+WN 75,73
theo GSNN so với đường cơ sở phát hiện và một số

hoạt động kém nhằm cố gắng hiểu rõ hơn lý do tại sao


Bảng 3. Độ chính xác trung bình trung bình để phân loại nhiều nhãn trên
một số danh mục cải thiện nhiều hơn.
COCO, chỉ sử dụng các máy dò chẵn và lẻ.
Hình 7 hiển thị phân tích độ nhạy biểu đồ cho các thử nghiệm với

VGML ở bên trái và COCO ở bên phải,


Phương pháp mAP chẵn mAP lẻ
hiển thị bốn ví dụ trong đó GSNN hoạt động tốt hơn và hai
VGG+Det GSNN- 71,87 71,73 nó tệ hơn ở đâu. Mỗi ví dụ hiển thị hình ảnh,
VG GSNN-VG+WN 73 73,43 kết quả thực tế cơ bản mà chúng tôi đang phân tích và độ nhạy
73,59 73,97 về khái niệm quan tâm đối với các trạng thái ẩn

của đồ thị hoặc phát hiện. Để thuận tiện, chúng tôi hiển thị

Một mối lo ngại có thể xảy ra là sự phụ thuộc quá mức của đồ thị tên của các phát hiện hàng đầu hoặc trạng thái ẩn. Chúng tôi cũng hiển thị

suy luận về bộ 80 máy dò COCO và phát hiện ban đầu. Vì vậy, chúng một phần của biểu đồ đã được mở rộng để xem GSNN đang sử dụng mối

tôi đã thực hiện một thí nghiệm cắt bỏ quan hệ nào.

để xem phương pháp của chúng tôi nhạy cảm đến mức nào khi có tất cả Đối với thử nghiệm VGML, phía trên bên trái của Hình 7 hiển thị

các phát hiện ban đầu. Chúng tôi chạy lại các thí nghiệm COCO với cả hai rằng bằng cách sử dụng tính năng phát hiện con người, GSNN có thể suy luận

đồ thị sử dụng hai tập hợp con khác nhau của máy dò COCO. Các quần jean có nhiều khả năng hơn vì quần jean thường ở trên người

tập hợp con đầu tiên chỉ là các danh mục COCO chẵn và tập hợp con thứ hai trong hình ảnh sử dụng cạnh “mòn”. Nó cũng nhạy cảm với

tập hợp con chỉ là các danh mục lẻ. Chúng ta thấy từ Bảng 3 rằng ván trượt và ngựa, và mỗi thứ trong số này đều có mối liên hệ thứ

Các phương pháp GSNN lại vượt trội hơn so với đường cơ sở. hai với quần jean thông qua con người, vì vậy nó có khả năng

Như người ta có thể nghi ngờ, phương pháp của chúng tôi không thực hiện đơn để nắm bắt được thực tế là mọi người có xu hướng mặc quần jean khi đi trên

6
Machine Translated by Google

0,35

0,3

0,25

0,2

0,15
ảA
nệiP
h C
t

0,1

0,05

pn
gg
nữhl
ắớ

ás
n
t
đ

NÊRT
uc
đ
iồđ
ạg
k
c

iat

ôh

ứcb
t
ci
í
h

hdt
cùư
r


n

nnờ
ê

âhp
x
b
r
t
d
đ
l
s
v
c
ồr
b

ui
gg
n

zỏe

a
ô
y
ư
h

i
ó
ò

yề
ocá

may
p


o
n
i
u
nử
gnàoh

nều

agz
u
n

it
đ
ásb
x

i
ềĩ

a
mn
hnà
e

upc
q
m
b
x
đ

àbh

h
ầhâ
á
e
è
-0,05

iạá
rn
t
b

nam
y
n
ưkn

ựg
đ
b
àl
m
x

t
c
ưg
u
ê

ỏỗ
i

h
òt

ớh

a

yn
à
ợo
y
n
ah

hn

rn
t

g

ế

ầh

n
i


ax

ến
x
c
l

ut
q
ph
ê

ầi
í
na

n

yề
n
gu

h
n
-0,1

Danh mục

Hình 5. Sự khác biệt về Độ chính xác Trung bình cho từng nhãn trong số 316 nhãn trong VGML giữa mô hình biểu đồ kết hợp GSNN của chúng tôi và đường cơ

sở phát hiện cho thử nghiệm Bộ gen thị giác. Các danh mục hàng đầu: kéo, bánh rán, đĩa ném, lò vi sóng, nĩa. Các loại dưới cùng: xếp chồng lên nhau,

lát gạch, nâu nhạt, đại dương, cỏ.


0,08

0,07

0,06

0,05

0,04
ảA
nệiP
h C
t

0,03

0,02

0,01

VT
àv
tạ c

eh
iơ x
át
v
gnờưig

nr

ồr
b
tợư

nử
a

hcás
ihág
c
etx

0 -0,01
ế
iả
gv
n

ut
q
ựằ

ảá
an

ác

ávb
oc
ăg
B

o
aìht

ih

hnò
nh

nừ

ia
ítm
x
gế
ưch

u
naá

tộuhc

g
eđx
ơổa

iờưgn

hy
c

ĩnc
d
uo

uc
q

iéh

pạ
ếm
ca a

ảa

ưmn
b
m

yìá
áxb
m
k

nnớ
níì

ú

ôxb
c
gh
alv
hc
p

ia

ábM

gn
i
ya

h
nov
c

ểừid
á b
átm
s

olab
-0,02
nno
yóấ

g
c

tn
g ás
ớó
ư v
l

uôấb
g

àrB
c
đ
gn

ảă
h
á
ủlt

in
hnạ
òc
v

h
g
aáih

âct
y

nậ
gu yh

o r
Danh mục

Hình 6. Sự khác biệt về Độ chính xác Trung bình cho từng nhãn trong số 80 nhãn trong COCO giữa mô hình biểu đồ GSNN VG của chúng tôi và đường cơ sở

phát hiện cho thử nghiệm COCO. Các danh mục hàng đầu: nĩa, bánh rán, cốc, táo, lò vi sóng. Danh mục cuối cùng: máy sấy tóc, đồng hồ đỗ xe, gấu, diều

và hươu cao cổ.

ngựa và ván trượt. Lưu ý rằng độ nhạy không giống với kết quả phát đồ thị như thông tin bổ sung để cải thiện việc phân loại hình ảnh.

hiện thực tế nên không có gì mâu thuẫn khi ngựa có độ nhạy cao. Hàng Chúng tôi cung cấp phân tích để kiểm tra luồng thông tin qua GSNN

thứ hai bên trái hiển thị một ví dụ thành công cho xe đạp, sử dụng và cung cấp những hiểu biết sâu sắc về lý do tại sao mô hình của

khả năng phát hiện từ người và ván trượt cũng như thực tế là mọi chúng tôi cải thiện hiệu suất. Chúng tôi hy vọng rằng công việc này

người có xu hướng “đi” xe đạp và ván trượt. Hàng cuối cùng hiển thị cung cấp một bước tiến tới việc đưa lý luận mang tính biểu tượng vào

trường hợp hỏng kính chắn gió. Nó tương quan chính xác với xe buýt, các khung thị giác máy tính chuyển tiếp nguồn cấp dữ liệu truyền thống.

nhưng do biểu đồ tri thức thiếu kết nối giữa xe buýt và kính chắn

gió nên mạng biểu đồ không thể hoạt động tốt hơn đường cơ sở phát GSNN và khuôn khổ chúng tôi sử dụng cho các vấn đề về thị giác
hiện. Ở bên phải, đối với thí nghiệm COCO, ví dụ trên cùng cho thấy là hoàn toàn chung chung. Các bước tiếp theo của chúng tôi sẽ là áp
rằng ngã ba có mối tương quan cao với việc phát hiện ngã ba, điều dụng GSNN cho các nhiệm vụ thị giác khác, chẳng hạn như phát hiện,
này không có gì đáng ngạc nhiên. Tuy nhiên, nó có thể củng cố khả Trả lời câu hỏi bằng hình ảnh và chú thích hình ảnh. Một hướng thú
năng phát hiện này bằng các kết nối giữa bông cải xanh và bàn ăn, cả vị khác là kết hợp quy trình của công việc này với một hệ thống như
hai đều là kết nối hai bước để phân nhánh trên biểu đồ. Tương tự, NEIL [4] để tạo ra một hệ thống xây dựng các biểu đồ tri thức và sau
ví dụ ở giữa cho thấy rằng các kết nối biểu đồ cho pizza, bát và chai đó cắt tỉa chúng để có được biểu đồ hữu ích, chính xác hơn cho các
nằm trên bàn ăn sẽ củng cố việc phát hiện bàn ăn. Phía dưới bên phải tác vụ hình ảnh.
hiển thị một trường hợp thất bại khác. Nó có thể nhận được kết nối

giữa tính năng phát hiện nhà vệ sinh và máy sấy tóc (cả hai đều được Lời cảm ơn: Chúng tôi xin cảm ơn tất cả những người đã dành thời gian
tìm thấy trong phòng tắm), nhưng việc thiếu kết nối tốt trong biểu xem xét tác phẩm này và đưa ra những nhận xét hữu ích. Nghiên cứu này

đồ đã khiến GSNN không thể cải thiện so với mức cơ bản. dựa trên công việc được hỗ trợ một phần bởi Văn phòng Giám đốc Tình báo
Quốc gia (ODNI), Hoạt động Dự án Nghiên cứu Tiên tiến về Tình báo
(IARPA). Các quan điểm và kết luận trong tài liệu này là của các tác

giả và không nhất thiết được hiểu là đại diện cho các chính sách chính
thức, được thể hiện hay ngụ ý của ODNI, IARPA hoặc chính phủ Hoa Kỳ.
Chính phủ Hoa Kỳ được phép sao chép và phân phối các bản in lại cho mục
5. Kết luận đích của chính phủ bất chấp mọi chú thích bản quyền trong đó. Tài liệu
này dựa trên công trình được hỗ trợ bởi Học bổng nghiên cứu sau đại học

Trong bài báo này, chúng tôi trình bày Mạng thần kinh tìm kiếm của Quỹ Khoa học Quốc gia theo Số tài trợ DGE-1252522 và ONR MURI
N000141612007.
đồ thị (GSNN) như một cách sử dụng kiến thức một cách hiệu quả

7
Machine Translated by Google

VGML COCO
Đen ván
Cái nĩa
pizza
Ngựa trượt

Người Bông cải xanh


Đĩa Sách
Mũ lưỡi trai

Chân Màu xanh lá Ăn uống


Quần jean
Bàn

Phát hiện Ẩn t=2 Ẩn t=3 Phát hiện Ẩn t=2 Ẩn t=3

Đứng đầu: Đứng đầu: Đứng đầu: Đứng đầu:


Đứng đầu: Đứng đầu:

Người Người Ngựa Cái nĩa pizza Cái nĩa

Ván trượt Đen Ván trượt Bông cải xanh Bông cải xanh Màu xanh lá

Ngựa Đang chạy Người Sách pizza


Bàn ăn
Chim Cũ Mũ lưỡi trai Ngựa vằn Màu xanh lá Bông cải xanh

Băng ghế Đại dương Chân Chuột Đĩa Sách

Cái chai
Sách
Cái bát

Xe đạp
Người pizza
Ván
Ăn uống
trượt
Bàn
Đã đỗ xe
Tròn
Đen

Phát hiện Ẩn t=2 Ẩn t=3 Phát hiện Ẩn t=2 Ẩn t=3

Đứng đầu: Đứng đầu: Đứng đầu: Đứng đầu:


Đứng đầu: Đứng đầu:

Xe đạp Đã đỗ xe Đã đỗ xe Sách Bàn ăn


Bàn ăn
Ván trượt Cũ Xe đạp pizza Tròn pizza

Ngựa Ván trượt Cái bát Sách


Biển báo dừng Lớn
Chiếc ô Đen Ngựa Bánh ngọt Dễ thấy Cái bát

chiếc dĩa nhựa ném Người Áo sơ mi Cái chai Nấu chín Bánh ngọt

Động cơ Ván
Người
trượt
xe đạp
Bóng chày
Lướt sóng

Găng tay
Cái bảng
ô
Trắng Người cô bé

Xa

Màu xanh da trời

Xe buýt Đen
Đường phố

Phát hiện Ẩn t=2 Ẩn t=3 Phát hiện Ẩn t=2 Ẩn t=3

Đứng đầu: Đứng đầu: Đứng đầu:


Đứng đầu: Đứng đầu: Đứng đầu:

Xe buýt
Xe buýt Đường phố Phòng vệ sinh
Đen Phòng vệ sinh

Ván trượt Trắng Xa Găng tay bóng chày Đen


Xe máy
Xe máy Ngựa Người Chiếc ô
Đang chạy
Màu xanh da trời

Ngựa Người Cái đồng hồ


Găng tay bóng chày Ván lướt sóng
Xa

Cái đồng hồ
Đen Áo sơ mi Balo Người Găng tay bóng chày

đồ thị Có thuộc tính Có Giữ


Huyền thoại TRÊN mặc

Hình 7. Phân tích độ nhạy của GSNN trong thí nghiệm VGML (trái) và thí nghiệm COCO (phải) với đồ thị kết hợp và đồ thị Visual Genome
tương ứng. Mỗi ví dụ hiển thị hình ảnh, một phần của biểu đồ tri thức được mở rộng trong quá trình phân loại và các giá trị độ nhạy
của các phát hiện ban đầu cũng như trạng thái ẩn ở bước thời gian 2 và 3 đối với lớp đầu ra được liệt kê. Các nút phát hiện hàng đầu
và nút trạng thái ẩn được in để thuận tiện vì trục x quá lớn để liệt kê mọi lớp. Hàng trên cùng và giữa hiển thị kết quả cho các hình
ảnh và lớp trong đó GSNN hoạt động tốt hơn đáng kể so với đường cơ sở phát hiện để có trực giác khi phương pháp của chúng tôi hoạt
động. Hàng dưới cùng hiển thị các hình ảnh và lớp trong đó GSNN hoạt động kém hơn so với đường cơ sở phát hiện để biết khi nào phương
pháp của chúng tôi thất bại và tại sao.

số 8
Machine Translated by Google

Người giới thiệu [20] T. Malisiewicz và A. Efros. Ngoài các phạm trù: Mô hình memex trực

quan để suy luận về các mối quan hệ đối tượng.


[1] KM Borgwardt và H.-P. Kriegel. Hạt nhân có đường dẫn ngắn nhất trên
NIPS, 2009.
đồ thị. ICDM, 2005.
[21] VD Massa, G. Monfardini, L. Sarti, F. Scarselli, M. Mag-gini, và
[2] J. Bruna, W. Zaremba, A. Szlam và Y. LeCun. Thuộc về phổ
M. Gori. So sánh giữa mạng nơ-ron đệ quy và mạng nơ-ron đồ thị.
mạng và mạng được kết nối cục bộ trên đồ thị. arXiv
IEEE quốc tế
bản in trước arXiv:1312.6203, 2013.
Hội nghị chung về thủ tục mạng lưới thần kinh, 2006.
[3] A. Carlson, J. Betteridge, B. Kisiel, B. Settles, ER Hr-uschka, và
[22] A. Micheli. Mạng lưới thần kinh cho đồ thị: Một cách tiếp cận mang
TM Mitchell. Hướng tới một kiến trúc cho việc học ngôn ngữ không
tính xây dựng theo ngữ cảnh. Giao dịch IEEE trên mạng thần kinh,
ngừng nghỉ. AAAI, 2010. 2009.

[4] X. Chen, A. Shrivastava và A. Gupta. Neil: Giải nén [23] GA Miller. Wordnet: Cơ sở dữ liệu từ vựng cho tiếng Anh. ACM,
kiến thức trực quan từ dữ liệu web. CVPR, 2013. 38, 1995.
[5] K. Duan, D. Parikh, D. Crandall và K. Grauman. Khám phá các thuộc [24] I. Misra, CL Zitnick, M. Mitchell và R. Girshick. nhìn thấy
tính được bản địa hóa để nhận dạng chi tiết. CVPR, thông qua Xu hướng báo cáo của con người: Phân loại trực quan từ
2012.
Nhãn ồn ào lấy con người làm trung tâm. Trong CVPR, 2016.

[6] DK Duvenaud, D. Maclaurin, J. Iparraguirre, R. Bom-barell, T. [25] M. Niepert, M. Ahmed và K. Kutzkov. Học mạng lưới thần kinh tích
Hirzel, A. Aspuru-Guzik và RP Adams. Mạng tích chập trên đồ thị chập cho đồ thị. bản in trước arXiv
để học dấu vân tay phân tử. NIPS, 2015. arXiv:1605.05273, 2016.

[26] F. Orsini, P. Frasconi và LD Raedt. Đồ thị bất biến ker-


[7] M. Everingham, L. Van Gool, CKI Williams, J. Winn, nel. IJCAI, 2015.

và A. Zisserman. Các lớp đối tượng trực quan PASCAL [27] Pinar, Yanardag, và SVN Vishwanathan. Biểu đồ sâu
Kết quả Thử thách 2012 (VOC2012). http://www.pascal-network.org/ hạt nhân. KDDM, 2015.

challenges/VOC/voc2012/workshop/index.html. [28] S. Ren, K. He, R. Girshick và J. Sun. R-CNN nhanh hơn: Phát hiện

[8] A. Farhadi, I. Endres, D. Hoiem, và D. Forsyth. Miêu tả đối tượng theo thời gian thực tới các phường với mạng đề xuất khu
đối tượng theo thuộc tính của chúng. CVPR, 2009. vực. NIPS, 2015.

[9] M. Gori, G. Monfardini và F. Scarselli. Một mô hình mới cho [29] O. Russakovsky, J. Đặng, H. Su, J. Krause, S. Satheesh,

học trong lĩnh vực đồ thị. Hội nghị chung quốc tế của IEEE về S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein,
mạng thần kinh, 2, 2005. AC Berg và L. Fei-Fei. ImageNet Hình ảnh quy mô lớn

[10] K. Guu, J. Miller và P. Liang. Duyệt qua biểu đồ kiến thức Thử thách công nhận. IJCV, 115(3):211–252, 2015.

trong không gian vectơ. Trong phương pháp thực nghiệm trong ngôn ngữ tự nhiên [30] F. Sadeghi, SK Divvala, và A. Farhadi. Viske: Trực quan

Đang xử lý (EMNLP), 2015. trích xuất kiến thức và trả lời câu hỏi bằng cách xác minh trực

[11] M. Henaff, J. Bruna, và Y. LeCun. Mạng tích chập sâu trên dữ liệu quan các cụm từ quan hệ. CVPR, 2015.

có cấu trúc biểu đồ. bản in trước arXiv [31] F. Scarselli, M. Gori, AC Tsoi và G. Monfardini. Các

arXiv:1506.05163, 2015. mô hình mạng lưới thần kinh đồ thị. Giao dịch của IEEE trên mạng thần kinh

Mạng, 2009.
[12] J. Johnson, R. Krishna, M. Stark, L.-J. Li, DA Shamma,
[32] N. Shervashidze, P. Schweitzer, EJ van Leeuwen,
MS Bernstein và L. Fei-Fei. Truy xuất hình ảnh bằng cảnh

đồ thị. CVPR, 2015. K. Mehlhorn và KM Borgwardt. Weisfeiler-lehman

hạt nhân đồ thị. JMLR, 2011.


[13] DP Kingma và JL Ba. Adam: Một phương pháp ngẫu nhiên
[33] N. Shervashidze, SVN Vishwanathan, TH Petri,
tối ưu hóa. ICLR, 2015.
K. Mehlhorn và KM Borgwardt. Hạt nhân đồ thị hiệu quả để so sánh
[14] RI Kondor và J. Lafferty. Hạt nhân khuếch tán trên đồ thị và
đồ thị lớn. AISTATS, ngày 5, 2009.
không gian đầu vào rời rạc khác. ICML, 2, 2002.
[34] A. Shrivastava, S. Singh, và A. Gupta. Học bán giám sát có giới
[15] R. Krishna, Y. Zhu, O. Groth, J. Johnson, K. Hata, J. Kravitz,
hạn sử dụng các thuộc tính và thuộc tính so sánh. ECCV, 2012.
S. Chen, Y. Kalantidis, L.-J. Li, DA Shamma, M. Bern-stein và L.

Fei-Fei. Gen thị giác: Kết nối ngôn ngữ


[35] K. Simonyan và A. Zisserman. Tích chập rất sâu
và tầm nhìn bằng cách sử dụng các chú thích hình ảnh dày đặc có nguồn lực từ cộng đồng.

2016. mạng để nhận dạng hình ảnh quy mô lớn. bản in trước arXiv
arXiv:1409.1556, 2014.
[16] CH Lampert, H. Nickisch và S. Harmeling. Phân loại dựa trên thuộc
[36] SVN Vishwanathan, NN Schraudolph, R. Kondor, và
tính để phân loại đối tượng trực quan không cần chụp. TPAMI, 2014.
KM Borgwardt. Hạt nhân đồ thị. JMLR, 2010.

[37] X. Zhu, D. Anguelov, và D. Ramanan. Bắt đuôi dài


[17] N. Lao, T. Mitchell và WW Cohen. Suy luận bước đi ngẫu nhiên và
sự phân bố của các tiểu thể loại đối tượng. CVPR, 2014.
học tập trong một cơ sở tri thức quy mô lớn. NIPS,
[38] Y. Zhu, A. Fathi, và L. Fei-Fei. Lý luận về khả năng đáp ứng đối
2011.
tượng trong biểu diễn cơ sở tri thức. Ở Châu Âu
[18] Y. Li và R. Zemel. Mạng lưới thần kinh trình tự đồ thị có kiểm soát.
Hội nghị về Thị giác Máy tính, 2014.
ICLR, 2016.
[39] Y. Zhu, C. Zhang, C. R và L. Fei-Fei. Xây dựng hệ thống cơ sở tri
[19] T. Lin, M. Maire, SJ Belongie, RB Girshick, J. Hays,
` thức đa phương thức quy mô lớn để trả lời các truy vấn trực quan.
P. Perona, D. Ramanan, P. Dollar và CL Zitnick. Microsoft COCO:
bản in trước arXiv arXiv:1507.05670, 2015.
các đối tượng phổ biến trong ngữ cảnh. ECCV, 2014.

You might also like