Liu Deep Supervised Hashing CVPR 2016 Paper

Machine Translated by Google
Băm được giám sát sâu để truy xuất hình ảnh nhanh
Hạo Miêu Lưu1,2 , Thụy Bình Vương1 , Thạch Quang Sơn1 , Xilin Chen1
1Phòng thí nghiệm xử lý thông tin thông minh trọng điểm của Viện Hàn lâm Khoa học Trung Quốc (CAS),
Viện Công nghệ Máy tính, CAS, Bắc Kinh, 100190, Trung Quốc
2Đại học Viện Khoa học Trung Quốc, Bắc Kinh, 100049, Trung Quốc
haomiao.liu@vipl.ict.ac.cn, {wangruiping, sgshan, xlchen}@ict.ac.cn
trừu tượng hình ảnh trong không gian đặc trưng và trả về những hình ảnh gần nhất.
Tuy nhiên, đối với một cơ sở dữ liệu có hàng triệu hình ảnh,
Trong bài báo này, chúng tôi trình bày một phương pháp băm mới để tìm hiểu khá phổ biến hiện nay, ngay cả việc tìm kiếm tuyến tính thông qua
mã nhị phân nhỏ gọn để truy xuất hình ảnh hiệu quả cao cơ sở dữ liệu sẽ tốn rất nhiều thời gian và bộ nhớ.
trên các tập dữ liệu quy mô lớn. Mặc dù các biến thể hiển thị hình ảnh
Để giải quyết sự kém hiệu quả của các đặc trưng có giá trị thực, các
phức tạp vẫn đặt ra thách thức lớn đối với việc truy xuất lại một cách
phương pháp băm được đề xuất để ánh xạ hình ảnh thành dạng thu gọn.
đáng tin cậy, dựa trên tiến bộ gần đây của Mạng trung tính tích chập (CNN)
mã nhị phân bảo toàn gần đúng cấu trúc dữ liệu trong không gian ban đầu,
trong việc học cách biểu diễn hình ảnh mạnh mẽ cho các nhiệm vụ thị giác
[27, 9, 17] chẳng hạn. Từ
khác nhau, bài viết này đề xuất một cuốn tiểu thuyết
hình ảnh được biểu diễn bằng mã nhị phân thay vì các đặc trưng có giá
Phương pháp băm được giám sát sâu (DSH) để học nhỏ gọn
trị thực, chi phí về thời gian và bộ nhớ cho việc tìm kiếm có thể
mã nhị phân bảo toàn tính tương tự cho khối lượng lớn dữ liệu hình ảnh.
được giảm đi rất nhiều. Tuy nhiên, hiệu suất truy xuất của
Cụ thể, chúng tôi nghĩ ra một kiến trúc CNN
hầu hết các phương pháp băm hiện có đều phụ thuộc rất nhiều vào các tính
lấy các cặp hình ảnh (tương tự/không giống nhau) làm đầu vào huấn luyện
năng mà chúng sử dụng, về cơ bản được trích xuất theo cách không có giám
và khuyến khích đầu ra của mỗi hình ảnh gần đúng
sát, do đó phù hợp hơn để xử lý các vấn đề trực quan.
các giá trị riêng biệt (ví dụ +1/-1). Để đạt được mục đích này, hàm mất mát là
tìm kiếm tương tự hơn là tìm kiếm tương tự về ngữ nghĩa.
được thiết kế tỉ mỉ để tối đa hóa khả năng phân biệt của
Mặt khác, những tiến bộ gần đây trong việc phân loại hình ảnh
không gian đầu ra bằng cách mã hóa thông tin được giám sát từ
[12, 25, 8], phát hiện đối tượng [26], nhận dạng khuôn mặt [24] và
các cặp hình ảnh đầu vào và đồng thời áp dụng tính chính quy hóa trên các
nhiều nhiệm vụ tầm nhìn khác [18, 2] chứng minh sự ấn tượng
đầu ra có giá trị thực để xấp xỉ
sức mạnh học tập của CNN. Trong những nhiệm vụ khác nhau này, CNN
các giá trị rời rạc mong muốn. Để truy xuất hình ảnh, mới sắp ra mắt
có thể được xem như một công cụ trích xuất đặc trưng được hướng dẫn
hình ảnh truy vấn có thể được mã hóa dễ dàng bằng cách truyền qua
bởi các hàm mục tiêu được thiết kế riêng cho từng nhiệm vụ riêng lẻ.
mạng và sau đó lượng tử hóa các đầu ra của mạng thành biểu diễn mã nhị
Ứng dụng thành công của CNN trong nhiều nhiệm vụ khác nhau hàm ý
phân. Các thí nghiệm mở rộng trên hai
rằng các tính năng mà CNN học được có thể nắm bắt tốt cấu trúc ngữ nghĩa
bộ dữ liệu quy mô lớn CIFAR-10 và NUS-WIDE hiển thị
cơ bản của hình ảnh mặc dù có ý nghĩa quan trọng
hiệu suất đầy hứa hẹn của phương pháp của chúng tôi so với
các biến thể ngoại hình.
hiện đại nhất.
Lấy cảm hứng từ sự mạnh mẽ của các tính năng CNN, chúng tôi đề xuất
khung học mã nhị phân bằng cách khai thác CNN
cấu trúc, được đặt tên là Băm được giám sát sâu (DSH). Trong của chúng tôi
1. Giới thiệu
phương pháp này, đầu tiên chúng tôi nghĩ ra một mô hình CNN lấy hình ảnh
Trong những năm gần đây, hàng trăm nghìn hình ảnh được tải lên cặp cùng với nhãn cho biết hai hình ảnh có
Internet mỗi ngày, khiến việc tìm kiếm hình ảnh phù hợp theo yêu cầu của tương tự như đầu vào huấn luyện và tạo ra mã nhị phân
nhiều người dùng khác nhau trở nên vô cùng khó khăn. Ví dụ: truy xuất làm đầu ra, như trong Hình 1. Trong thực tế, chúng tôi tạo ra các cặp
hình ảnh dựa trên nội dung sẽ tìm lại các hình ảnh tương tự với hình ảnh hình ảnh trực tuyến để có thể có thêm nhiều cặp hình ảnh khác
truy vấn nhất định, trong đó được sử dụng trong giai đoạn huấn luyện. Hàm mất dấu được hủy ký hiệu để
“tương tự” có thể đề cập đến sự tương tự về mặt hình ảnh hoặc ngữ nghĩa. kéo các đầu ra mạng của các hình ảnh tương tự lại với nhau và đẩy các đầu
Giả sử rằng cả hình ảnh trong cơ sở dữ liệu và ra của các hình ảnh khác nhau ra xa, sao cho
hình ảnh truy vấn được thể hiện bằng các đặc trưng có giá trị thực, không gian Hamming đã học có thể gần đúng với cấu trúc ngữ nghĩa của hình
Cách đơn giản nhất để tìm kiếm hình ảnh có liên quan là xếp hạng ảnh. Để tránh tối ưu hóa hàm mất khả vi trong không gian Hamming, mạng
hình ảnh cơ sở dữ liệu theo khoảng cách của chúng với truy vấn
2064
Đầy đủ
Đào tạo Đã kết nối

Tối đa 500
Hình ảnh
Tổng hợp Trung bình
Trung bình Sự mất mát:
3×3×32 / 2 Tổng hợp
Tổng hợp * Phân biệt đối xử
3×3×32 / 2
3×3×64 / 2
* Giống nhị phân
ngu độn
……
……
Chuyển đổi1 ngu độn
5×5×32 / 1
Truy vấn
Chuyển đổi2 Chuyển đổi3
Hình ảnh Nhị phân hóa
5×5×32 / 1 5×5×64 / 1
Giống nhị phân
đầu ra
k
Hình 1. Cấu trúc mạng được sử dụng trong phương pháp của chúng tôi. Mạng bao gồm 3 lớp tích chập và 2 lớp được kết nối đầy đủ.
Các bộ lọc trong các lớp tích chập có kích thước 5 × 5 với bước 1 (các bộ lọc 32, 32 và 64 tương ứng trong ba lớp tích chập) và
gộp trên 3 × 3 bản vá với bước 2. Lớp được kết nối đầy đủ đầu tiên chứa 500 nút và lớp thứ hai (lớp đầu ra) có k (mã
chiều dài) các nút. Hàm mất mát được thiết kế để tìm hiểu các mã giống nhị phân bảo toàn sự tương tự bằng cách khai thác các thuật ngữ phân biệt đối xử và
bộ điều chỉnh. Mã nhị phân thu được bằng cách lượng tử hóa đầu ra mạng của hình ảnh.
đầu ra được nới lỏng về giá trị thực, đồng thời các cặp hình ảnh, trong đó trọng số được xác định là số liệu về độ
bộ điều chỉnh được áp dụng để khuyến khích các đầu ra có giá trị thực tương tự của các cặp hình ảnh; Lượng tử hóa lặp lại (ITQ) [6]
để tiếp cận các giá trị rời rạc mong muốn. Trong khuôn khổ này, hình cố gắng giảm thiểu lỗi lượng tử hóa trên hình ảnh được chiếu
ảnh có thể được mã hóa dễ dàng bằng cách truyền bá đầu tiên mô tả để giảm bớt sự mất mát thông tin gây ra bởi
thông qua mạng và sau đó lượng tử hóa kết quả đầu ra của mạng thành sự khác biệt giữa không gian đặc trưng có giá trị thực và
biểu diễn mã nhị phân. không gian Hamming nhị phân.
Phần còn lại của bài báo được tổ chức như sau: Phần 2
Để giải quyết vấn đề tương tự về ngữ nghĩa phức tạp hơn, các
thảo luận về các công việc liên quan đến phương pháp của chúng tôi.
phương pháp giám sát được đề xuất để tận dụng lợi thế của nhãn
Phần 3 mô tả chi tiết về DSH. Phần 4 đánh giá sâu rộng các
thông tin, chẳng hạn như nhãn danh mục. CCA-ITQ [6], trong đó
phương pháp đề xuất trên hai tập dữ liệu quy mô lớn. Phần 5 là phần mở rộng của ITQ, sử dụng thông tin nhãn để tìm các phép chiếu
đưa ra nhận xét kết luận.
tốt hơn cho bộ mô tả hình ảnh; Mã nhị phân phân biệt có thể dự đoán
được (DBC) [22] tìm kiếm siêu phẳng

2. Công trình liên quan
phân tách các danh mục có lề lớn dưới dạng hàm băm;
Băm tổn thất tối thiểu (MLH) [20] tối ưu hóa giới hạn trên
Nhiều phương pháp băm [4, 28, 13, 27, 6, 20, 17, 22, 16,
mất mát giống như bản lề để tìm hiểu các hàm băm. Mặt khác, Băm bán
23, 15, 29, 31, 14] đã được đề xuất để nâng cao hiệu suất tìm kiếm
giám sát (SSH) [27] sử dụng
hàng xóm gần nhất do
về lượng dữ liệu dồi dào chưa được gắn nhãn để thường xuyên hóa việc băm
độ phức tạp về không gian và thời gian thấp của chúng. Trong nhưng năm đâu,
chức năng. Mặc dù các phương pháp trên sử dụng phép chiếu tuyến tính
các nhà nghiên cứu chủ yếu tập trung vào việc băm độc lập với dữ liệu
làm hàm băm nhưng chúng khó có thể xử lý tuyến tính
các phương thức, chẳng hạn như một họ các phương thức được gọi là Địa phương
dữ liệu không thể tách rời Để khắc phục hạn chế này, Giám sát
Băm nhạy cảm (LSH) [4]. Phương pháp LSH sử dụng ngẫu nhiên
Băm với hạt nhân (KSH) [17] và Nhúng tái tạo nhị phân (BRE) [13] được
các phép chiếu để tạo ra các bit băm. Về mặt lý thuyết, người ta đã
đề xuất để tìm hiểu các hàm băm bảo toàn sự tương tự trong không gian
chứng minh rằng khi độ dài mã tăng lên, khoảng cách Hamming giữa hai
hạt nhân; Băm sâu
mã nhị phân tiệm cận đến mức tiệm cận.
(DH) [3] khai thác mạng sâu phi tuyến tính để tạo mã nhị phân. Hầu
khoảng cách tương ứng của chúng trong không gian đặc trưng. Tuy nhiên,
hết các phương pháp băm đều nới lỏng mã nhị phân
Các phương pháp LSH thường yêu cầu mã dài để đạt được hiệu suất đạt
đến các giá trị thực trong việc tối ưu hóa và lượng tử hóa kết quả
yêu cầu, đòi hỏi số lượng lớn
đầu ra của mô hình để tạo ra mã nhị phân. Tuy nhiên, không có gì đảm
ký ức.
bảo rằng các mã có giá trị thực tối ưu vẫn là mã tối ưu.
Để tạo ra mã nhị phân nhỏ gọn hơn, phụ thuộc vào dữ liệu
sau khi lượng tử hóa. Các phương pháp như Băm đồ thị rời rạc (DGH)
phương pháp băm được đề xuất. Những phương pháp như vậy cố gắng
[16] và Băm rời rạc có giám sát (SDH)
tìm hiểu các hàm băm bảo toàn sự tương đồng từ tập huấn luyện. Các
[23] được đề xuất để tối ưu hóa trực tiếp mã nhị phân để
phương pháp này có thể được chia thành phương pháp không giám sát
khắc phục những thiếu sót của việc thư giãn và đạt được hiệu suất
và phương pháp giám sát (bán giám sát).
truy xuất được cải thiện.
Các phương pháp không giám sát chỉ sử dụng quá trình đào tạo không được ghi nhãn
dữ liệu để học hàm băm. Ví dụ: Spectral Hash-ing (SH) [28] giảm thiểu Mặc dù các phương pháp băm nói trên chắc chắn đã đạt được thành công ở
khoảng cách Hamming có trọng số của một mức độ nào đó, nhưng tất cả chúng đều sử dụng các phương pháp băm thủ công.
2065
các tính năng không thể nắm bắt được thông tin ngữ nghĩa bên dưới Cụ thể, đối với cặp ảnh I1, I2 Ω và cor-
k
các biến thể mạnh mẽ về hình thức trong dữ liệu trong thế giới thực đầu ra mạng nhị phân phản hồi b1, b2 {+1, 1} ,
và do đó hạn chế độ chính xác khi truy xuất của nhị phân đã học chúng tôi xác định y = 0 nếu chúng giống nhau và y = 1 nếu ngược lại.
mã. Để giải quyết vấn đề này, gần đây nhất, một số phương pháp băm Sự mất mát đối với cặp ảnh được định nghĩa là:
dựa trên CNN [31, 14, 29, 15, 30] được đề xuất để
tìm hiểu cách biểu diễn hình ảnh cùng với mã nhị phân bằng cách sử L(b1, b2, y) =1 (1 y)Dh(b1, b2)
2
dụng các CNN đầy hứa hẹn. [31, 14, 30] thi hành mạng 1
(1)
để tìm hiểu các kết quả đầu ra giống như nhị phân nhằm duy trì các mối quan hệ
+ y max(m Dh(b1, b2), 0)
2
ngữ nghĩa của các bộ ba hình ảnh; [29] huấn luyện một CNN để phù hợp với hệ nhị phân k
st bj {+1, 1} , j {1, 2}
mã được tính từ ma trận tương tự từng cặp; [15]
huấn luyện mô hình với một lớp ẩn giống nhị phân làm các đặc điểm trong đó Dh(· , ·) biểu thị khoảng cách Hamming giữa hai vectơ nhị
cho các nhiệm vụ phân loại hình ảnh. Bằng tính năng ghép ảnh phân và m > 0 là tham số ngưỡng biên. Thuật ngữ đầu tiên xử phạt
trích xuất và học mã nhị phân, những phương pháp này có các hình ảnh tương tự được ánh xạ tới các mã nhị phân khác nhau
cho thấy độ chính xác truy xuất được cải thiện đáng kể. Tuy nhiên, và thuật ngữ thứ hai trừng phạt các hình ảnh khác nhau được ánh xạ
còn tồn tại một số bất cập về mục tiêu đào tạo của các phương pháp tới các mã nhị phân đóng khi khoảng cách Ham-ming của chúng giảm
này làm hạn chế khả năng tiếp thu thực tế. xuống dưới ngưỡng lề m. Đây rồi
hiệu suất, như sẽ trình bày chi tiết trong các thử nghiệm của chúng cần lưu ý rằng để tránh giải pháp bị thu gọn, hàm mất mát của
tôi. Ngoài ra, các kích hoạt phi tuyến tính mà họ sử dụng để tính gần đúng chúng ta có dạng mất mát tương phản là [7] trong đó chỉ những
bước lượng tử hóa hoạt động với cái giá là có thể bị chậm lại các cặp khác nhau có khoảng cách trong bán kính có thể đủ điều kiện
xuống mạng đào tạo [12]. để đóng góp vào hàm mất mát.
Giả sử có N cặp huấn luyện được chọn ngẫu nhiên từ các ảnh huấn
3. Cách tiếp cận
luyện {(Ii,1, Ii,2, yi)|i = 1, ..., N},
Mục tiêu của chúng tôi là giảm thiểu hàm tổn thất tổng thể:
Mục tiêu của chúng tôi là tìm hiểu mã nhị phân nhỏ gọn cho hình ảnh
sao cho: (a) các hình ảnh tương tự phải được mã hóa thành các hình ảnh tương tự N
L =
mã nhị phân trong không gian Hamming và ngược lại; (b) mã nhị phân L(bi,1, bi,2, yi)
(2)
có thể được tính toán một cách hiệu quả. tôi=1
k
Mặc dù nhiều phương pháp băm đã được đề xuất để st bi,j { + 1, 1} , tôi {1, ..., N}, j {1, 2}
học các mã nhị phân bảo toàn sự tương đồng, họ phải chịu đựng
3.2. Thư giãn
những hạn chế của các tính năng thủ công hoặc các phép chiếu tuyến tính.
Các mô hình phi tuyến tính mạnh mẽ được gọi là C-NN đã tạo điều kiện Sẽ tốt hơn nếu người ta có thể tối ưu hóa trực tiếp E-qn.(2),
thuận lợi cho những thành công gần đây trong cộng đồng thị giác máy tính tuy nhiên điều đó là không khả thi vì các ràng buộc nhị phân trên
trong nhiều nhiệm vụ khác nhau. Để đạt được mục đích này, chúng tôi đề xuất bi,j yêu cầu ngưỡng đầu ra của mạng
sử dụng CNN được minh họa trong Hình 1 để tìm hiểu đồng thời các biểu (ví dụ với chức năng ký hiệu) và sẽ làm cho nó khó hiểu
diễn hình ảnh có tính phân biệt và mã nhị phân nhỏ gọn, có thể phá vỡ các huấn luyện mạng bằng thuật toán lan truyền ngược. Một số
hạn chế của cả các tính năng thủ công và mô hình tuyến tính. Phương pháp Các công trình gần đây [23, 16] đề xuất tối ưu trực tiếp mã nhị
của chúng tôi là chuyến tàu đầu tiên
phân, tuy nhiên do hạn chế về bộ nhớ, CNN
CNN sử dụng các cặp hình ảnh và các nhãn tương tự nhau. Ở đây hàm các mô hình chỉ có thể được đào tạo với các lô nhỏ và tính tối ưu
mất mát được thiết kế công phu của mã nhị phân được tạo ra là vấn đề khi
để tìm hiểu cách biểu diễn hình ảnh giống nhị phân bảo toàn sự kích thước lô rất nhỏ so với toàn bộ khóa đào tạo
tương đồng. Sau đó, đầu ra CNN được lượng tử hóa để tạo ra bộ.
mã nhị phân cho hình ảnh mới sắp tới. Mặt khác, nếu người ta hoàn toàn bỏ qua các ràng buộc nhị phân,
điều đó sẽ dẫn đến mã nhị phân dưới mức tối ưu do

3.1. Mất chức năng
sự khác biệt giữa không gian Euclide và không gian Ham-ming. Một sơ
Đặt Ω là không gian RGB, mục tiêu của chúng ta là tìm hiểu cách ánh xạ đồ thư giãn thường được sử dụng là sử dụng hàm sigmoid hoặc tanh
k như là
từ Ω đến mã nhị phân k-bit: F : Ω {+1, 1} , để ước tính quy trình đặt ngưỡng. Tuy nhiên, làm việc với phi
các hình ảnh tương tự (về mặt hình ảnh hoặc tương tự về mặt ngữ tuyến tính như vậy
nghĩa) được mã hóa thành các mã nhị phân tương tự. chức năng chắc chắn sẽ làm chậm lại hoặc thậm chí hạn chế
Với mục đích này, mã của các hình ảnh tương tự phải giống như sự hội tụ của mạng [12]. Để khắc phục hạn chế đó, trong công việc
càng gần càng tốt, trong khi mã của các hình ảnh khác nhau lại ở này, chúng tôi đề xuất áp dụng một bộ điều chỉnh cho
xa. Dựa trên mục tiêu này, hàm mất mát là đầu ra mạng có giá trị thực để tiếp cận mức rời rạc mong muốn
được thiết kế tự nhiên để kéo mã của các hình ảnh tương tự lại giá trị (+1/-1). Để cụ thể, chúng tôi thay thế khoảng cách Hamming
với nhau và đẩy mã của các hình ảnh khác nhau ra khỏi trong phương trình (1) bằng khoảng cách Euclide và áp đặt một bộ
nhau. điều chỉnh bổ sung để thay thế các ràng buộc nhị phân, sau đó
2066
Phương trình (1) được viết lại thành: được áp dụng một cách khôn ngoan. Với các gradient con được tính toán
trên các lô nhỏ, phần còn lại của quá trình lan truyền ngược có thể được
thực hiện theo cách tiêu chuẩn.
Lr(b1, b2, y) =1 (1 y)||b1 b2||2 2
2
Thảo luận: Với khung như vậy, mã nhị phân của hình ảnh có thể dễ
(3)
1 y max(m ||b1 b2||2 2 , 0) dàng thu được bằng dấu (b). Lưu ý rằng không giống như các phương
+ 2
pháp băm dựa trên CNN hiện có [29, 15, 14, 31, 30], phương pháp của
+α(|| |b1| 1||1 + || |b2| 1||1) chúng tôi không sử dụng các phi tuyến tính bão hòa, ví dụ như tan-h
hoặc sigmoid, để ước chừng bước lượng tử hóa vì các phi tuyến này
trong đó chỉ số r biểu thị hàm mất mát thoải mái, 1 là vectơ của tất
có thể làm chậm giảm bớt quá trình đào tạo [12]. Các thử nghiệm trong
cả các số 1, ||·||1 là chuẩn L1 của vectơ, |·| là phép toán giá trị
Phần 4.2 sẽ xác nhận ưu điểm của bộ điều chỉnh đối với các phi tuyến
tuyệt đối theo phần tử và α là tham số trọng số kiểm soát cường độ
bão hòa.
của bộ điều chỉnh.
Ở đây, chúng tôi sử dụng L2-norm để đo khoảng cách giữa các đầu ra
3.3. Chi tiết triển khai
mạng vì các gradient con được tạo ra bởi các chuẩn bậc thấp hơn xử lý các
Tham số mạng: Phương pháp DSH của chúng tôi được triển khai với
cặp hình ảnh có khoảng cách khác nhau như nhau và do đó không sử dụng
Caffe1 [10]. Cấu trúc mạng được minh họa trong Hình 1, bao gồm ba lớp
thông tin liên quan đến các cường độ khoảng cách khác nhau. Mặc dù các
tích chập theo sau là hai lớp được kết nối đầy đủ. Các lớp tích chập
định mức bậc cao hơn cũng khả thi nhưng sẽ có nhiều tính toán tương ứng
sử dụng các bộ lọc 32, 32 và 64 5 × 5 với bước 1 tương ứng và việc
được thực hiện cùng lúc. Đối với bộ điều chỉnh, L1-norm được chọn thay
gộp nhóm được thực hiện trên các cửa sổ 3 × 3 với bước 2. Lớp được
vì các định mức bậc cao hơn vì chi phí tính toán ít hơn nhiều, điều này
kết nối đầy đủ đầu tiên chứa 500 nút và lớp thứ hai chứa k nút , trong
có thể đẩy nhanh quá trình đào tạo một cách thuận lợi.
đó k là độ dài của mã nhị phân. Tất cả các lớp tích chập và lớp được
kết nối đầy đủ đầu tiên đều được trang bị ReLU [19].
Bằng cách thay thế phương trình (3) vào phương trình (2), chúng ta viết lại
chức năng mất mát tổng thể lỏng lẻo như sau:
Các lớp trọng lượng được khởi tạo bằng cách khởi tạo “Xavier”
N
1 [5]. Trong quá trình huấn luyện, kích thước lô được đặt thành 200,
Lr = (1 yi)||bi,1 bi,2||2 2
{ 2 động lượng thành 0,9 và giảm trọng lượng thành 0,004. Tốc độ học ban
tôi=1
đầu được đặt thành 10 3 và giảm 40% sau mỗi 20.000 lần lặp (tổng
1 (4)
+ cộng 150.000 lần lặp). Lề m trong phương trình (4) được đặt theo
2 yi max(m ||bi,1 bi,2||2 2 , 0)
kinh nghiệm thành m = 2k để khuyến khích mã của các hình ảnh khác
+ α(|| |bi,1| 1||1 + || |bi,2| 1||1)} nhau khác nhau không ít hơn chút ít.
k 2
Phương pháp huấn luyện: Một cách trực quan để huấn luyện mạng là
Với hàm mục tiêu này, mạng được huấn luyện bằng thuật toán lan
sử dụng cấu trúc Siamese [7] và tạo các cặp hình ảnh ngoại tuyến.
truyền ngược với phương pháp giảm độ dốc theo đợt nhỏ. Để làm như
Tuy nhiên, với sơ đồ như vậy, việc xử lý n ảnh chỉ có thể tạo ra các
vậy, độ dốc của phương trình (4) wrt bi,j , i, j cần phải được N
cặp ảnh hợp lệ và việc lưu trữ các cặp ảnh sẽ rất tốn dung lượng.
2
tính toán. Do phép toán cực đại và phép toán giá trị tuyệt đối trong
Để sử dụng tốt hơn tài nguyên tính toán và không gian lưu trữ, chúng
hàm mục tiêu không khả vi tại một số điểm nhất định, nên chúng tôi sử
tôi đề xuất tạo các cặp hình ảnh trực tuyến bằng cách khai thác tất
dụng các cấp độ con thay thế và xác định các cấp độ con là 1 tại các
cả các cặp duy nhất trong mỗi lô nhỏ. Để bao phủ các cặp ảnh đó qua
điểm đó. Các cấp độ con của hai số hạng đầu tiên của phương trình (4)
các đợt, trong mỗi lần lặp, các ảnh huấn luyện được chọn ngẫu nhiên
và số hạng thứ ba (tức là số hạng chính quy) lần lượt được viết là:
từ toàn bộ tập huấn luyện. Bằng cách đó, phương pháp của chúng tôi
giảm bớt nhu cầu lưu trữ toàn bộ ma trận tương tự theo cặp, do đó có
thể mở rộng thành các bộ dữ liệu quy mô lớn.
T erm 1
= ( 1)j+1(1 yi)(bi,1 bi,2) Hơn nữa, để tìm hiểu các mô hình tương ứng với các độ dài mã
bi,j
khác nhau, nếu người ta chọn huấn luyện từng mô hình từ đầu, sẽ rất
T erm 2 ( 1)j yi(bi,1 bi,2), ||bi,1 bi,2||2 2 < tôi
= lãng phí vì các lớp trước đó có thể được chia sẻ bởi các mô hình
bi,j 0 , nếu không thì này. Ngoài ra, khi độ dài mã tăng lên, mô hình sẽ chứa nhiều tham số
hơn ở lớp đầu ra và do đó dễ bị trang bị quá mức. Để khắc phục những

Bộ điều chỉnh
chính quy = hạn chế đó, trước tiên chúng tôi đề xuất đào tạo một mạng với một
αδ(bi,j ) bi,j
vài nút ở lớp đầu ra, sau đó tinh chỉnh nó để có được mô hình đích
(5)
Ở đâu với độ dài mã mong muốn.
1, 1 ≤ x ≤ 0 hoặc x ≥ 1 1,
(6) 1Mã nguồn DSH của chúng tôi với các mẫu đang chạy có sẵn tại http://
δ(x) =
ngược lại vipl.ict.ac.cn/resources/codes.
2067
Mô hình CIFAR-10 NUS-WIDE [29, 3, 14]. Không mất tính tổng quát, ta chỉ kiểm tra trường hợp
Bộ điều chỉnh-α-0 0,5497 0,5076
khi k = 12 và đặt m = 24 trong DSH của chúng tôi theo
Bộ điều chỉnh-α-0,001 0,6100 0,5341
Mục 3.3. Các mô hình thư giãn sigmoid được huấn luyện gần giống như
Bộ điều chỉnh-α-0,01 0,6157 0,5483
mô hình của chúng tôi ngoại trừ việc sử dụng hàm sigmoid như
Bộ điều chỉnh-α-0,1 0,4337 0,4493
kích hoạt lớp đầu ra và đặt α = 0. Chúng tôi kiểm tra
Sigmoid-m-6 0,1451 0,4876
những mô hình này với m = {1, 2, 3, 6} (lưu ý rằng mức tối đa
Sigmoid-m-3 0,2812 0,5067
khoảng cách giữa các đầu ra mạng của các mô hình này là k).
Sigmoid-m-2 0,4788 0,4838
MAP truy xuất của các mô hình khác nhau được liệt kê trong Bảng 1.
Sigmoid-m-1 0,2196 0,4638
Hình 2 cho thấy sự phân bổ đầu ra mạng
Bảng 1. Hiệu suất truy xuất (mAP) của các mô hình trong các điều kiện khác nhau trên bộ thử nghiệm CIFAR-10 ở các cài đặt khác nhau (thêm
cài đặt của α, thư giãn và m. Kết quả thu được bằng kết quả được cung cấp trong tài liệu bổ sung). Chúng tôi làm
Mã nhị phân 12 bit. ba quan sát từ các kết quả so sánh: Thứ nhất, không có chính quy hóa
(α = 0), mạng đầu ra tập trung

4. Thí nghiệm trên ngưỡng lượng tử hóa 0 (Hình 2a), do đó có khả năng
các điểm lân cận trong không gian đầu ra được lượng tử hóa
4.1. Bộ dữ liệu và số liệu đánh giá
với các mã nhị phân rất khác nhau; Thứ hai, việc áp dụng bộ điều chỉnh
Chúng tôi xác minh tính hiệu quả của phương pháp được đề xuất và chính quy (α = {0,001, 0,01, 0,1}, Hình 2b, c, d) có thể làm giảm
so sánh với các phương pháp tiên tiến khác trên hai phương pháp sự khác biệt giữa không gian đầu ra có giá trị thực và
bộ dữ liệu đã sử dụng: (1) CIFAR-10 [11]. Bộ dữ liệu này bao gồm không gian Hamming và hiệu suất truy xuất có thể được thực hiện
60.000 hình ảnh 32×32 thuộc 10 hình ảnh loại trừ lẫn nhau được cải thiện đáng kể khi cài đặt α ở mức hợp lý
danh mục (6.000 hình ảnh cho mỗi danh mục). Các hình ảnh được sử dụng phạm vi (ví dụ [0,001, 0,01]); Thứ ba, với các cài đặt thích hợp của
trực tiếp làm đầu vào cho các phương pháp cạnh tranh dựa trên CNN cũng m, mô hình thoải mái sigmoid có thể học các đầu ra giống nhị phân
như DSH của chúng tôi. Đối với các phương pháp băm thông thường, (Hình.2e, f, g). Tuy nhiên, hiệu suất truy xuất của
các hình ảnh được thể hiện bằng bộ mô tả 512-D GIST [21] những mã như vậy kém hơn nhiều so với những mã hoạt động tốt nhất của chúng tôi
sau đây [17, 29]. (2) NUS-WIDE [1]. Bộ dữ liệu này chứa 269.648 hình và nhạy cảm với m. Tăng số lượng đào tạo
ảnh được thu thập từ Flickr. Sự liên kết giữa hình ảnh và 81 khái niệm lặp đi lặp lại và điều chỉnh cẩn thận m có thể cải thiện hiệu suất của
được chú thích thủ công. Theo [17, 29], chúng tôi sử dụng các hình ảnh các mô hình thoải mái sigmoid, tuy nhiên, nó sẽ
liên quan đến mất nhiều thời gian hơn để có được một mô hình thỏa đáng. Dựa trên
21 khái niệm thường gặp nhất, trong đó mỗi khái niệm này liên kết với dựa trên những quan sát trên, theo kinh nghiệm, chúng tôi đặt α = 0,01 trong
ít nhất 5.000 hình ảnh, dẫn đến tổng cộng những thí nghiệm sau.
trong số 195.834 hình ảnh. Hình ảnh được biến dạng thành 64 × 64 trước
khi đưa vào các phương pháp dựa trên CNN. Đối với thông thường 4.3. Tạo cặp hình ảnh trực tuyến và ngoại tuyến
phương pháp băm, hình ảnh được thể hiện bằng cách cung cấp
Phần này so sánh hành vi hội tụ của sơ đồ tạo cặp ảnh trực tuyến
Các tính năng khoảnh khắc màu theo khối được chuẩn hóa 225-D.
của chúng tôi với sơ đồ thay thế
Trong các thử nghiệm của chúng tôi, nhãn tương tự được xác định bởi
Sơ đồ Xiêm, như mô tả ở Phần 3.3. Cả hai phương án
nhãn cấp độ ngữ nghĩa. Đối với CIFAR-10, hình ảnh từ cùng
sử dụng cùng một cấu trúc mạng và siêu tham số
danh mục được coi là tương tự về mặt ngữ nghĩa và ngược lại. Phần
như chi tiết ở Mục 3.3 (k = 12, m = 24). Do không gian lưu trữ hạn
phân chia đào tạo/kiểm tra được cung cấp chính thức đã được sử dụng
chế nên 10 triệu cặp hình ảnh đã được tạo
cho các thử nghiệm, cụ thể là 50.000 hình ảnh để đào tạo mô hình
ngoại tuyến cho chương trình Xiêm và chính sách tỷ lệ học tập
và 10.000 hình ảnh để đánh giá. Đối với NUS-WIDE, nếu hai
đã được điều chỉnh cho phù hợp. Để so sánh công bằng, chúng tôi nhập
hình ảnh chia sẻ ít nhất một nhãn tích cực, chúng được coi là
cùng số lượng hình ảnh cho cả hai sơ đồ trong mỗi lần lặp
tương tự và không giống nhau ở mặt khác. Chúng tôi lấy mẫu ngẫu nhiên
(200 hình ảnh cho sơ đồ trực tuyến của chúng tôi và 100 cặp hình ảnh cho
10.000 hình ảnh để tạo thành bộ truy vấn thử nghiệm và sử dụng phần còn lại
sơ đồ Xiêm thay thế). Do việc tính toán chủ yếu diễn ra trong các lớp
như tập huấn luyện.
tích chập, nên
Tiếp theo các công trình trước đây, các thước đo đánh giá được sử dụng
chi phí tính toán của hai phương án là khoảng
là: độ chính xác trung bình trung bình (mAP) cho các mã khác nhau giống nhau.
độ dài, đường cong thu hồi chính xác (48-bit) và độ chính xác trung bình
Hình 3 cho thấy sự mất mát đào tạo so với số lượng
trong bán kính Hamming 2 cho các độ dài mã khác nhau.
lặp lại trên cả hai tập dữ liệu. Có thể thấy, chương trình đào tạo trực
tuyến của chúng tôi hội tụ nhanh hơn nhiều so với chương trình đào tạo thay
4.2. Đánh giá của Regularizer
thế của người Xiêm, vì chương trình trực tuyến của chúng tôi có khả năng sử dụng
Trong phần này, chúng tôi xác nhận tính hiệu quả của bộ điều chỉnh nhiều cặp hình ảnh hơn trong mỗi lần lặp, cung cấp nhiều
được đề xuất và so sánh nó với sơ đồ thư giãn tiêu chuẩn được sử dụng thông tin về mối quan hệ ngữ nghĩa giữa các
trong các phương pháp băm dựa trên CNN hiện có hình ảnh. Ngoài ra, bằng cách lấy mẫu từ toàn bộ tập huấn luyện
2068
α=0 α=0,001 α=0,01

α=0,1
4000 4000 5000 x 104
4
3000 4000
3000
3
3000
2000 2000 2
2000
1000 1000 1
1000
0 4 3 2 1 0 1 2 3 4 0 4 3 2 1 0 1 2 3 4 0 4 3 2 1 0 1 2 3 4 0 4 3 2 1 0 1 2 3 4
(a) (b) (c) (d)

Sigmoid, m=2 Sigmoid, m=1
x 104 Sigmoid, m=6 x 104 Sigmoid, m=3
6 2 8000 3000
5
1,5 6000
4 2000
3 1 4000
2 1000
0,5 2000
1
0 0 0 0
0 1 0 1 0 1 0 1
(e) (f) (g) (h)

Hình 2. Phân phối đầu ra mạng trên bộ truy vấn thử nghiệm của CIFAR-10. (a)-(d) các mô hình sử dụng bộ điều chỉnh được đề xuất của chúng tôi theo các
cài đặt khác nhau của α, (e)-(h) các mô hình thư giãn sigmoid trong các cài đặt khác nhau của m.
NUS RỘNG Cào 48bit Finetuned 48bit

CIFAR 10 10 12
Trực tuyến Xe lửa Xe lửa
Trực tuyến 6 Xiêm 10
6
Bài kiểm tra Bài kiểm tra
số 8
Xiêm
số 8
4 4 6
6
tàu
Mất
4
tàu
Mất
2 2 4
2
2
0 0 5 10 15 20 0 0 10 20 30 40 0
0 2 4 6 8 10 12 14
0
0 1 2 3
Lần lặp/104 Lần lặp/104 (a) (b) Số lần lặp/104 (a) Số lần lặp/104 (b)
Hình 3. So sánh tổn thất huấn luyện giữa sơ đồ tạo cặp hình ảnh Hình 4. So sánh (a) mô hình được đào tạo từ đầu và (b) mô hình được tinh chỉnh về
trực tuyến của chúng tôi và phương án thay thế Xiêm. Kết quả trên mặt mất mát trong đào tạo/kiểm tra, trên tập dữ liệu CIFAR-10.
CIFAR-10 và NUS-WIDE lần lượt được hiển thị ở (a) & (b).
Mã số các mô hình được tinh chỉnh từ mạng được huấn luyện trước dựa
CIFAR-10 NUS-WIDE
Chiều trên các mô hình được huấn luyện từ đầu. Cụ thể, trước tiên,
0,6157 0,5483 chúng tôi đã huấn luyện bốn mô hình tạo lại mã nhị phân {12, 24,
Đào tạo
dài 12 24 0,6524 0,5543 36, 48}-bit (bốn hàng đầu tiên trong Bảng 2). Sau đó, chúng tôi
Từ
36 0,6433 0,5229 thay thế lớp được kết nối đầy đủ cuối cùng của mô hình 12 bit
Cào
48 0,6213 0,4896
bằng một lớp lớn hơn và tinh chỉnh nó để có được một nhóm mô hình
24 0,6512 0,5513
bit {24, 36, 48}-bit khác (ba hàng cuối cùng trong Bảng 2).
tinh chỉnh 36 0,6607 0,5582
Để tinh chỉnh, tốc độ học được đặt thành 10 3 cho lớp được
48 0,6755 0,5621
kết nối đầy đủ cuối cùng và 10 4 cho các lớp trước đó và giảm
theo hệ số 0,6 sau mỗi 4.000 lần lặp.

Bảng 2. So sánh hiệu suất truy xuất (mAP) của các mô hình được đào tạo từ đầu
và các mô hình được tinh chỉnh. Mô hình đã được đào tạo với tổng cộng 30.000 lần lặp.
Các mAP truy xuất trên cả hai bộ dữ liệu được liệt kê trong Bảng 2.
Có thể thấy rằng khi độ dài mã tăng lên, hiệu suất truy xuất của các mô
trong mỗi lần lặp lại, lược đồ của chúng tôi có thể sử dụng nhiều
hình được tinh chỉnh sẽ cải thiện nhất quán, trong khi hiệu suất của các
cặp hình ảnh hơn so với 10 triệu cặp hình ảnh được tạo ngoại tuyến
mô hình được đào tạo từ đầu sẽ giảm, đặc biệt là trên NUS -WIDE tập dữ
cho Xiêm và do đó hội tụ thỏa đáng để giảm tổn thất.
liệu với mức giảm lớn. Để xem xét kỹ hơn tình huống này, chúng tôi phân
tích tổn thất huấn luyện/kiểm tra trên hai mô hình ví dụ, đó là mô hình
4.4. Tinh chỉnh so với đào tạo từ đầu
48 bit được đào tạo từ đầu và mô hình 48 bit được tinh chỉnh. Hình 4 cho
Như đã đề cập trong Phần 3.3, nếu lớp được kết nối đầy đủ thấy sự mất mát so với số lần lặp của hai mô hình trên CIFAR-10. Rõ ràng
cuối cùng chứa một số lượng lớn các nút, việc đào tạo mô hình từ là ở mô hình đầu tiên (được đào tạo từ đầu), tổn thất đào tạo
đầu có thể dẫn đến tình trạng trang bị quá mức. Để hiểu rõ hơn về
tình huống này, trong phần này, chúng ta so sánh mod-
2069
tiếp tục giảm, trong khi tổn thất kiểm tra giảm như mong đợi Kết quả: Việc so sánh phương pháp của chúng tôi với
lúc đầu nhưng tăng lên sau khoảng 30.000 lần lặp, cho thấy những phương pháp khác được trình bày trong Bảng 3 và Hình 5. Nhìn
trang bị quá mức trên tập huấn luyện. Để so sánh, vào ngày thứ hai chung, các phương pháp dựa trên CNN này tốt hơn các phương pháp thông thường.
mô hình (được tinh chỉnh), lúc đầu tổn thất kiểm tra giảm và sau đó ổn phương pháp học băm trên cả hai tập dữ liệu với biên độ lớn,
định một cách thuận lợi chỉ sau vài nghìn lần lặp. Như là xác nhận lợi thế của việc học cách biểu diễn hình ảnh so với việc sử
quan sát cho thấy rằng các mô hình khác nhau với các dụng các tính năng thủ công. Hơn nữa, chúng tôi điều tra một số phương
độ dài mã có thể chia sẻ các lớp trước đó để giảm chi phí đào tạo cũng pháp băm thông thường được đào tạo bởi CNN
như giảm bớt tình trạng trang bị quá mức. Để biết thêm kết quả các tính năng, mặc dù hiệu suất đã được cải thiện đáng kể nhưng chúng
vui lòng tham khảo tài liệu bổ sung. vẫn kém hơn so với DSH của chúng tôi, cho thấy rằng
Hơn nữa, chúng tôi điều tra các tập hợp mạng, đó là chương trình học tập toàn diện của chúng tôi rất thuận lợi (chi tiết
được sử dụng rộng rãi trong các nhiệm vụ phân loại [12, 25, 8], để truy xuất được cung cấp trong tài liệu bổ sung).
vấn đề. Cụ thể, chúng tôi đã đào tạo bốn mô hình 12 bit với Trong số các phương pháp dựa trên CNN, người ta nhận thấy rằng
các lần khởi tạo ngẫu nhiên khác nhau và ghép các đầu ra mạng được DSH mang lại độ chính xác cao nhất trong hầu hết các trường hợp. Khoảng
lượng tử hóa dưới dạng mã nhị phân. Dưới cùng một mã cách về hiệu suất giữa các phương pháp này chủ yếu đến từ
dài, các mã tập hợp sẽ cải thiện hơn nữa hiệu suất truy xuất của các mã sự khác biệt trong mục tiêu đào tạo của họ: CNNH đào tạo mô hình để phù
được tinh chỉnh lên tới 0,04 tính bằng mAP, xác minh tính hiệu quả của hợp với hệ nhị phân phân biệt được tính toán trước
các tập hợp mạng trong việc truy xuất mã. Tuy nhiên, do việc tạo mã nhị phân và học tập qua mạng bị cô lập
nhiệm vụ (chi tiết được cung cấp trong các tài liệu bổ sung). Một lời nên tồn tại sự không khớp giữa
giải thích có thể là nhiều mạng có thể ghi lại các đặc điểm hình ảnh bổ hai giai đoạn; DLBHC huấn luyện mô hình với lớp ẩn giống nhị phân vì
sung do các tính năng dành cho nhiệm vụ phân loại, các hình , do đó mã hóa
khởi tạo ngẫu nhiên. Tuy nhiên, vì việc khai thác các tập hợp mạng dẫn ảnh khác nhau với mã nhị phân tương tự sẽ không bị trừng phạt miễn là
đến chi phí đào tạo gấp nhiều lần, chúng tôi độ chính xác của phân loại không bị ảnh hưởng;
áp dụng các mô hình tinh chỉnh trong các thí nghiệm sau đây cho Trong khi DNNH sử dụng các ràng buộc dựa trên bộ ba (chứ không phải
xem xét hiệu quả. chúng tôi áp dụng các ràng buộc theo cặp) để mô tả phức tạp hơn
quan hệ ngữ nghĩa, việc huấn luyện mạng của nó trở nên khó khăn hơn do
4.5. So sánh với công nghệ tiên tiến nhất
tính phi tuyến tính sigmoid và tham số hóa
Phương pháp so sánh: Chúng tôi so sánh phương pháp của chúng tôi với hàm ngưỡng từng phần được sử dụng trong lớp đầu ra. BẰNG
LSH [4], SH [28], ITQ [6], CCA-ITQ [6], MLH [20], BRE kết quả là DNNH hoạt động kém hơn so với phương pháp DSH của chúng tôi,
[13], KSH [17], CNNH [29], DLBHC [15] và DNNH đặc biệt là trên CIFAR-10, trong đó các ràng buộc dựa trên bộ ba
[14]. Các phương pháp này đều được thực hiện bằng cách sử dụng nguồn không thể cung cấp nhiều thông tin hơn thông tin theo cặp vì hình ảnh
mã do tác giả cung cấp ngoại trừ DNNH2 . Cho công bằng chỉ có nhãn danh mục (một số trường hợp truy xuất lại thực tế được
so sánh, tất cả các phương pháp dựa trên CNN, bao gồm CNNH, cung cấp trong tài liệu bổ sung).
DLBHC, DNNH và DSH sử dụng cùng cấu trúc mạng như được mô tả trong
Phần 3.3. Lưu ý rằng mặc dù các cấu trúc mạng phức tạp hơn cũng có thể 4.6. So sánh thời gian mã hóa
khả thi nhưng chúng tôi đã chọn
Trong các ứng dụng thực tế, việc tạo mã nhị phân cho
làm việc với một cái tương đối đơn giản để đánh giá nhanh.
hình ảnh mới đến sẽ nhanh chóng. Trong phần này, chúng tôi so sánh thời
Tập huấn luyện: Chúng tôi mong muốn sử dụng toàn bộ dữ liệu huấn luyện
gian mã hóa của phương pháp DSH của chúng tôi và 7 phương pháp băm tối
đào tạo mô hình cho tất cả các phương pháp nếu có thể. Tuy nhiên, do
ưu khác: CCA-ITQ [6], MLH [20], BRE
với lượng bộ nhớ khổng lồ mà MLH, KSH yêu cầu
[13], KSH [17], CNNH [29], DLBHC [15] và DNNH
và CNNH (O(N2 ), trong đó N là số lượng hình ảnh đào tạo), trong các thử
[14], bao gồm các phương pháp băm thông thường tuyến tính và phi tuyến
nghiệm của mình, chúng tôi đã chọn ngẫu nhiên một tập hợp con 20K từ mỗi
tính cùng với công nghệ dựa trên CNN tiên tiến nhất
tập dữ liệu để huấn luyện các mô hình cho ba phương pháp này, có chi phí
phương pháp. Để so sánh kỹ lưỡng, chúng tôi báo cáo mã hóa
lớn hơn 10 GB của trí nhớ.
thời gian của các phương pháp dựa trên CNN cả trên CPU và GPU, và
Cài đặt tham số: Các tham số của các phương pháp so sánh đó đều
thời gian trích xuất đặc trưng cho các phương pháp băm thông thường
được cài đặt dựa trên gợi ý của tác giả trong các công bố gốc. Đặc
(sử dụng mã trích xuất tính năng GIST có sẵn công khai [21]). Vì chúng
biệt, chúng tôi tìm thấy
tôi đã sử dụng các tính năng do tác giả cung cấp cho
cấu trúc phân chia và mã hóa được nghĩ ra trong DNNH [14] đã làm suy
NUS-WIDE và chỉ trích xuất các tính năng cho CIFAR-10, tất cả
giảm phần lớn mAP truy xuất trên CIFAR-10 (khoảng 0,07)
so sánh được tiến hành trên CIFAR-10. Không mất
và mang lại sự cải thiện nhẹ trên NUS-WIDE (0,01
nói chung, chúng tôi chỉ báo cáo thời gian của 24-bit và 48-bit
0,03) trong các thử nghiệm của chúng tôi, do đó chúng tôi báo cáo hiệu suất
mã. Mã nhị phân của tất cả các phương pháp dựa trên CNN là
của phiên bản được kết nối đầy đủ để đơn giản.
được tạo bằng cùng một phiên bản của Caffe. Các thí nghiệm
2Vì mã nguồn của DNNH không được công khai nên chúng tôi đã sử dụng được thực hiện trên PC có Intel i7-4770, RAM 32 GB,
tự thực hiện phương pháp này cho các thí nghiệm. và NVIDIA Titan Black với CUDA-7.0 và cuDnn v3.0.
2070
CIFAR-10 NUS-WIDE
Phương pháp
12-bit 24-bit 36-bit 48-bit 12-bit 24-bit 36-bit 48-bit
LSH [4] 0,1277 0,1367 0,1407 0,1492 0,3329 0,3392 0,3450 0,3474
SH [28] 0,1319 0,1278 0,1364 0,1320 0,3401 0,3374 0,3343 0,3332
CNTTQ [6] 0,1080 0,1088 0,1117 0,1184 0,3425 0,3464 0,3522 0,3576
CCA-ITQ [6] 0,1653 0,1960 0,2085 0,2176 MLH [20] 0,3874 0,3977 0,4146 0,4188
0,1844 0,1994 0,2053 0,2094 BRE [13] 0,3829 0,3930 0,3959 0,3990
0,1589 0,1632 0,1697 0,1717 0,3556 0,3581 0,3549 0,3592
KSH [17] 0,2948 0,3723 0,4019 0,4167 0,4331 0,4592 0,4659 0,4692
CNNH [29] 0,5425 0,5604 0,5640 0,5574 0,4315 0,4358 0,4451 0,4332
DLBHC [15] 0,5503 0,5803 0,5778 0,5885 0,4663 0,4728 0,4921 0,4916
DNNH [14] 0,5708 0,5875 0,5899 0,5904 0,5471 0,5367 0,5258 0,5248
DSH 0,6157 0,6512 0,6607 0,6755 0,5483 0,5513 0,5582 0,5621
Bảng 3. So sánh truy xuất mAP của phương pháp DSH của chúng tôi và các phương pháp băm khác trên CIFAR-10 và NUS-WIDE.
CIFAR 10 CIFAR 10
0,8 0,8
0,6 0,6
0,4 0,4
chính
chính
xác
xác
Độ
Độ
0,2 0,2
0 0
0 0,2 0,4 0,6 0,8 Thu hồi 1 12 24 36 48
Số Bit
(Một) (b)
Hình 5. So sánh hiệu suất truy xuất của phương pháp DSH của chúng tôi và các phương pháp băm khác trên CIFAR-10 (kết quả trên NUS-WIDE
được cung cấp trong các tài liệu bổ sung). (a) Đường cong PR (48-bit). (b) Độ chính xác trung bình trong bán kính Hamming 2.
CIFAR 10 ôi. Hơn nữa, các phương pháp băm thông thường thường
yêu cầu một số loại tính năng để đạt được hiệu suất truy xuất lại tương
DSH
đương với các phương pháp dựa trên CNN, hơn nữa
DNNH
làm chậm toàn bộ quá trình mã hóa.
DLBHC
CNNH
5. Kết luận
KSH
CPU 24bit
BRE
CPU 48bit Chúng tôi cho rằng hiệu suất truy xuất đầy hứa hẹn của DSH
MLH GPU 24bit
tới ba khía cạnh: Thứ nhất, sự kết hợp của tính năng phi tuyến tính
CCA ITQ GPU 48bit
học và mã hóa băm để trích xuất các biểu diễn hình ảnh theo độ tuổi cụ
Tính năng
Khai thác thể của nhiệm vụ; Thứ hai, bộ điều chỉnh được đề xuất cho
1 102 103 10 104 105 giảm sự khác biệt giữa mạng có giá trị thực
Thời gian mã hóa / µs
không gian đầu ra và không gian Hamming mong muốn; Thứ ba,
Hình 6. Chi phí thời gian để mã hóa một hình ảnh mới sắp ra mắt
giám sát theo cặp dày đặc được tạo trực tuyến để mô tả tốt không gian
(micro giây) trên CIFAR-10.
Hamming mong muốn. Xét về mặt hiệu quả,
thí nghiệm đã chỉ ra rằng phương pháp đề xuất mã hóa

Thời gian mã hóa logarit (tính bằng micro giây, cơ số
hình ảnh mới sắp ra mắt thậm chí còn nhanh hơn so với băm thông thường
10) của các phương pháp băm như vậy được thể hiện trên Hình 6, trong đó
phương pháp. Vì khuôn khổ hiện tại của chúng tôi tương đối chung,
kết quả thu được bằng cách lấy trung bình trên toàn bộ tập kiểm tra.
cấu trúc mạng phức tạp hơn cũng có thể dễ dàng bị khai thác. Ngoài ra,
Các phương pháp dựa trên CNN mất gần như cùng thời gian để mã hóa
nghiên cứu sơ bộ về “tập hợp mạng”
một hình ảnh duy nhất với độ dài mã khác nhau, vì việc tính toán chủ
trong công việc này đã chứng minh đây là một cách đầy hứa hẹn đáng giá cho chúng ta
yếu diễn ra ở các lớp chung trước đó.
điều tra trong tương lai để tăng cường hơn nữa hiệu suất truy xuất.
Nói chung, khi chỉ xem xét việc tạo mã nhị phân
từ đầu vào mô hình, ngay cả phiên bản tăng tốc GPU của Sự nhìn nhận. Công việc này được hỗ trợ một phần bởi
Các phương pháp dựa trên CNN chậm hơn các phương pháp thông thường Chương trình 973 theo hợp đồng số 2015CB351802, Quỹ khoa học tự nhiên
ít nhất là một bậc. Tuy nhiên, việc lấy Trung Quốc theo hợp đồng số 2015CB351802
thời gian trích xuất đặc trưng được xem xét, dựa trên CNN 61390511, 61379083, 61222211, 61272321 và Hiệp hội Xúc tiến Đổi mới
phương pháp này nhanh hơn gấp 10 lần so với phương pháp băm thông thường- Thanh niên Số CAS 2015085.
2071
Người giới thiệu

Hội thảo về Tầm nhìn và Nhận dạng Mẫu (CVPRW), các trang
27–
35, 2015. 2, 3, 4, 7, 8
[1] T.-S. Chua, J. Tang, R. Hong, H. Li, Z. Luo và Y. Zheng.
[16] W. Liu, C. Mu, S. Kumar và S.-F. Chang. Đồ thị rời rạc
Nus-wide: Cơ sở dữ liệu hình ảnh web trong thế giới thực từ các quốc gia
băm. Trong Những tiến bộ trong hệ thống xử lý thông tin thần kinh,
đại học singapore. Trong Kỷ yếu của Hội nghị quốc tế ACM về truy
trang 3419–
3427, 2014. 2, 3
xuất hình ảnh và video, trang 48,
[17] W. Liu, J. Wang, R. Ji, Y.-G. Giang và S.-F. Chang. Băm siêu vi với
2009. 5
hạt nhân. Trong thị giác máy tính và mô hình
[2] J. Đặng, N. Ding, Y. Jia, A. Frome, K. Murphy, S. Bengio, Công nhận (CVPR), 2012, trang 2074–
2081, 2012. 1, 2, 5,
Y. Li, H. Neven và H. Adam. Phân loại đối tượng quy mô lớn bằng 7, 8
cách sử dụng biểu đồ quan hệ nhãn. Trong ECCV 2014, các trang [18] J. Long, E. Shelhamer và T. Darrell. Mạng tích chập đầy đủ để phân
48–64. 2014. 1
đoạn ngữ nghĩa. Trong thị giác máy tính
[3] V. Erin Liong, J. Lu, G. Wang, P. Moulin và J. Chu. Sâu và Nhận dạng mẫu (CVPR), 2015, trang 3431–
3440,
băm để học mã nhị phân nhỏ gọn. Trong Tầm nhìn máy tính và Nhận 2015. 1
dạng mẫu (CVPR), 2015, trang 2475– [19] V. Nair và GE Hinton. Các đơn vị tuyến tính được chỉnh lưu cải
2483, 2015. 2, 5 tiến các máy Boltzmann bị hạn chế lại. Trong ICML-10, trang 807–
814,
[4] A. Gionis, P. Indyk và R. Motwani. Tìm kiếm tương tự trong 2010. 4
kích thước cao thông qua băm. Trong VLDB, trang 518–529, [20] M. Norouzi và Hạm đội DJ. Băm tổn thất tối thiểu cho mã nhị phân
1999. 2, 7, 8 com-pact. Trong ICML-11, trang 353–360, 2011. 2, 7,
[5] X. Glorot và Y. Bengio. Hiểu được sự khó khăn của

số 8
đào tạo mạng lưới thần kinh tiếp liệu sâu. Trong Hội nghị quốc [21] A. Oliva và A. Torralba. Mô hình hóa hình dạng của cảnh: A
tế về trí tuệ nhân tạo và thống kê, các trang sự thể hiện tổng thể của đường bao không gian. Quốc tế
249–256, 2010. 4 Tạp chí Thị giác Máy tính, 42(3):145–175, 2001. 5, 7
[22] M. Rastegari, A. Farhadi và D. Forsyth. Khám phá thuộc tính thông

[6] Y. Gong và S. Lazebnik. Lượng tử hóa lặp lại: Một cách tiếp cận
qua mã nhị phân phân biệt có thể dự đoán được. trong ECCV
thân thiện với việc học mã nhị phân. Trong máy tính
2012, trang 876–
889. 2012. 2
Nhận dạng thị giác và mẫu (CVPR), 2011, trang 817–
824, 2011. 2, 7, 8 [23] F. Shen, C. Shen, W. Liu và HT Shen. Giám sát rời rạc
băm. Thị giác máy tính và nhận dạng mẫu (CVPR),

[7] R. Hadsell, S. Chopra và Y. LeCun. Giảm kích thước bằng cách học
2015, 2015. 2, 3
ánh xạ bất biến. Trong thị giác máy tính
[24] Y. Sun, Y. Chen, X. Wang và X. Tang. Học kĩ càng
và Nhận dạng mẫu (CVPR), 2006, trang 1735–
1742,
đại diện khuôn mặt bằng cách xác minh nhận dạng chung. TRONG
2006. 3, 4
Những tiến bộ trong Hệ thống xử lý thông tin thần kinh, trang
[8] K. He, X. Zhang, S. Ren và J. Sun. Đi sâu vào
1988–
1996, 2014. 1
bộ chỉnh lưu: Vượt qua hiệu suất ở cấp độ con người trên imagenet
[25] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed,
phân loại. bản in trước arXiv arXiv:1502.01852, 2015. 1, 7
` D. Anguelov, D. Erhan, V. Vanhoucke và A. Rabinovich.
[9] H. Jegou, M. Douze và C. Schmid. Lượng tử hóa sản phẩm để tìm kiếm
Đi sâu hơn với các cuộn xoắn. Trong Thị giác máy tính và
hàng xóm gần nhất. Phân tích mẫu và máy
Nhận dạng Mẫu (CVPR), 2015, trang 1–9, 2015. 1, 7
Thông minh, Giao dịch của IEEE trên, 33(1):117–128, 2011. 1
[26] C. Szegedy, A. Toshev và D. Erhan. Mạng lưới thần kinh sâu để phát
[10] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Gir- hiện đối tượng. Những tiến bộ trong thông tin thần kinh
shick, S. Guadarrama và T. Darrell. Caffe: Kiến trúc Convolution-
Hệ thống xử lý, trang 2553–
2561, 2013. 1
al để nhúng tính năng nhanh. Trong thủ tục tố tụng [27] J. Wang, S. Kumar và S.-F. Chang. Băm bán giám sát để tìm kiếm quy
của Hội nghị Quốc tế ACM về Đa phương tiện, các trang mô lớn. Phân tích mẫu và trí thông minh của máy, Giao dịch IEEE
675–678, 2014. 4
trên, 34(12):2393–2406, 2012.
[11] A. Krizhevsky. Học nhiều lớp tính năng từ 1, 2
những hình ảnh nhỏ bé. Khoa Khoa học Máy tính, Đại học [28] Y. Weiss, A. Torralba, và R. Fergus. Băm quang phổ. TRONG
Toronto, Công nghệ. Dân biểu, (4):7, 2009. 5 Những tiến bộ trong Hệ thống xử lý thông tin thần kinh, trang
[12] A. Krizhevsky, I. Sutskever và GE Hinton. mạng hình ảnh 1753–

1760, 2008. 2, 7, 8
phân loại với mạng lưới thần kinh tích chập sâu. TRONG [29] R. Xia, Y. Pan, H. Lai, C. Liu và S. Yan. Băm có giám sát để truy
Những tiến bộ trong Hệ thống xử lý thông tin thần kinh, trang xuất hình ảnh thông qua việc học biểu diễn hình ảnh. TRONG
1097–1105, 2012. 1, 3, 4, 7 Hội nghị AAAI lần thứ 28 về trí tuệ nhân tạo,
[13] B. Kulis và T. Darrell. Học cách băm bằng cách nhúng tái cấu trúc 2014. 2, 3, 4, 5, 7, 8
nhị phân. Những tiến bộ trong thông tin thần kinh [30] R. Zhang, L. Lin, R. Zhang, W. Zuo và L. Zhang. Băm sâu có thể mở
Hệ thống xử lý, trang 1042–1050, 2009. 2, 7, 8 rộng theo bit với tính năng học tương tự được chuẩn hóa cho
[14] H. Lai, Y. Pan, Y. Liu và S. Yan. Tính năng đồng thời truy xuất hình ảnh và nhận dạng lại người. Giao dịch của IEEE về
xử lý hình ảnh, 24(12):4766–4779, 2015. 3, 4

học tập và mã hóa băm với mạng lưới thần kinh sâu. TRONG
[31] F. Zhao, Y. Huang, L. Wang và T. Tan. Băm dựa trên xếp hạng ngữ
Thị giác máy tính và nhận dạng mẫu (CVPR), 2015,
nghĩa sâu để truy xuất hình ảnh nhiều nhãn. Trong Tầm nhìn máy
trang 3270–3278, 2015. 2, 3, 4, 5, 7, 8
tính và Nhận dạng mẫu (CVPR), 2015, các trang
[15] K. Lin, H.-F. Yang, J.-H. Hsiao và C.-S. Trần. Tìm hiểu sâu về mã
1556–
1564, 2015. 2, 3, 4
băm nhị phân để truy xuất hình ảnh nhanh chóng. Trong máy tính
2072

Liu Deep Supervised Hashing CVPR 2016 Paper

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Liu Deep Supervised Hashing CVPR 2016 Paper

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

khung học mã nhị phân bằng cách khai thác CNN

Đào tạo Đã kết nối

Giống nhị phân

biểu diễn mã nhị phân. không gian Hamming nhị phân.

được (DBC) [22] tìm kiếm siêu phẳng

điều đó sẽ dẫn đến mã nhị phân dưới mức tối ưu do

thể mở rộng thành các bộ dữ liệu quy mô lớn.

hơn ở lớp đầu ra và do đó dễ bị trang bị quá mức. Để khắc phục những

(α = 0), mạng đầu ra tập trung

α=0 α=0,001 α=0,01

(a) (b) (c) (d)

(e) (f) (g) (h)

NUS RỘNG Cào 48bit Finetuned 48bit

theo hệ số 0,6 sau mỗi 4.000 lần lặp.

tình huống này, trong phần này, chúng ta so sánh mod-

thí nghiệm đã chỉ ra rằng phương pháp đề xuất mã hóa

Người giới thiệu

[4] A. Gionis, P. Indyk và R. Motwani. Tìm kiếm tương tự trong 2010. 4

[5] X. Glorot và Y. Bengio. Hiểu được sự khó khăn của

[22] M. Rastegari, A. Farhadi và D. Forsyth. Khám phá thuộc tính thông

băm. Thị giác máy tính và nhận dạng mẫu (CVPR),

[12] A. Krizhevsky, I. Sutskever và GE Hinton. mạng hình ảnh 1753–

xử lý hình ảnh, 24(12):4766–4779, 2015. 3, 4

You might also like