Nhóm kim tự tháp không gian trong tích chập sâu Mạng nhận dạng hình ảnh

Machine Translated by Google
Nhóm kim tự tháp không gian trong tích chập sâu

Mạng nhận dạng hình ảnh
Kaiming He, Xiangyu Zhang, Shaoqing Ren và Jian Sun
Tóm tắt—Mạng thần kinh tích chập sâu (CNN) hiện có yêu cầu hình ảnh đầu vào có kích thước cố định (ví dụ: 224×224). Yêu cầu này là "nhân tạo" và có thể làm
giảm độ chính xác nhận dạng đối với hình ảnh hoặc hình ảnh phụ có kích thước/tỷ lệ tùy ý. Trong công việc này, chúng tôi trang bị cho các mạng một chiến lược
tổng hợp khác, “tổng hợp kim tự tháp không gian”, để loại bỏ yêu cầu trên. Cấu trúc mạng mới, được gọi là SPP-net, có thể tạo ra biểu diễn có độ dài cố định
bất kể kích thước/tỷ lệ hình ảnh. Việc gộp kim tự tháp cũng có khả năng chống lại sự biến dạng của vật thể. Với những ưu điểm này, SPP-net nhìn chung sẽ cải
thiện tất cả các phương pháp phân loại hình ảnh dựa trên CNN. Trên tập dữ liệu ImageNet 2012, chúng tôi chứng minh rằng SPP-net tăng cường độ chính xác của
nhiều loại kiến trúc CNN mặc dù chúng có thiết kế khác nhau. Trên bộ dữ liệu Pascal VOC 2007 và Caltech101, SPP-net đạt được kết quả phân loại hiện đại bằng
cách sử dụng một bản trình bày hình ảnh đầy đủ duy nhất và không cần tinh chỉnh.
Sức mạnh của SPP-net cũng rất đáng kể trong việc phát hiện đối tượng. Bằng cách sử dụng SPP-net, chúng tôi chỉ tính toán các bản đồ đặc trưng từ toàn bộ hình
ảnh một lần, sau đó gộp các đặc điểm vào các vùng tùy ý (hình ảnh phụ) để tạo ra các biểu diễn có độ dài cố định nhằm huấn luyện các bộ dò. Phương pháp này
tránh tính toán nhiều lần các đặc tính tích chập. Khi xử lý ảnh thử nghiệm, phương pháp của chúng tôi nhanh hơn 24-102× so với phương pháp R-CNN, đồng thời đạt
được độ chính xác tốt hơn hoặc tương đương trên Pascal VOC 2007.
Trong Thử thách nhận dạng hình ảnh quy mô lớn của ImageNet (ILSVRC) 2014, các phương pháp của chúng tôi xếp thứ 2 về phát hiện đối tượng và thứ 3 về
phân loại hình ảnh giữa tất cả 38 đội. Bản thảo này cũng giới thiệu những cải tiến được thực hiện cho cuộc thi này.
Thuật ngữ chỉ mục —Mạng thần kinh tích chập, Nhóm kim tự tháp không gian, Phân loại hình ảnh, Phát hiện đối tượng
1V
4v9274.604] v5
:C i1
.
4 X0
s
0 r2
c
3
h a
[
T
1 GIỚI THIỆU
Chúng ta đang chứng kiến một sự thay đổi nhanh chóng, mang tính
cách mạng trong cộng đồng tầm nhìn của chúng ta, chủ yếu là do
mùa vụ làm cong
mạng nơ-ron tích chập sâu (CNN) [1] và khả năng sẵn có của dữ
liệu đào tạo quy mô lớn [2]. Các phương pháp tiếp cận dựa trên hình ảnh cắt/làm cong lớp đối lưu lớp fc đầu ra
mạng sâu gần đây đã được cải thiện đáng kể dựa trên công nghệ
tiên tiến trong việc phân loại hình ảnh [3], [4], [5], [6], lớp chuyển đổi hình ảnh tổng hợp kim tự tháp không gian lớp fc đầu ra
phát hiện đối tượng [7], [8], [5], nhiều nhiệm vụ nhận dạng
Hình 1: Top: cắt xén hoặc cong vênh để phù hợp với kích thước
khác [9], [10], [11], [12] và thậm chí cả các nhiệm vụ không
cố định. Giữa: một CNN thông thường. Dưới cùng: cấu trúc mạng
nhận dạng.
tổng hợp kim tự tháp không gian của chúng tôi.
Tuy nhiên, có một vấn đề kỹ thuật trong quá trình đào tạo và
thử nghiệm CNN: các CNN phổ biến yêu cầu kích thước hình ảnh
đầu vào cố định (ví dụ: 224×224), điều này giới hạn cả tỷ lệ
khung hình và tỷ lệ của hình ảnh đầu vào. có thể không phù hợp khi tỷ lệ đối tượng thay đổi. Việc sửa
Khi áp dụng cho hình ảnh có kích thước tùy ý, các phương pháp kích thước đầu vào sẽ bỏ qua các vấn đề liên quan đến tỷ lệ.
hiện tại hầu hết điều chỉnh hình ảnh đầu vào theo kích thước cố Vậy tại sao CNN yêu cầu kích thước đầu vào cố định? Một CNN
định, thông qua cắt xén [3], [4] hoặc thông qua cong vênh [13], chủ yếu bao gồm hai phần: các lớp tích chập và các lớp được kết
[7], như trong Hình 1 (trên cùng). Tuy nhiên, vùng bị cắt có nối đầy đủ theo sau. Các lớp tích chập hoạt động theo kiểu cửa
thể không chứa toàn bộ đối tượng, trong khi nội dung bị biến sổ trượt và xuất ra các bản đồ tính năng thể hiện sự sắp xếp
dạng có thể dẫn đến biến dạng hình học không mong muốn. không gian của các kích hoạt (Hình 2). Trên thực tế, các lớp
Độ chính xác của nhận dạng có thể bị tổn hại do mất hoặc biến tích chập không yêu cầu kích thước hình ảnh cố định và có thể
dạng nội dung. Ngoài ra, một thang đo được xác định trước tạo ra các bản đồ đặc trưng ở bất kỳ kích thước nào. Mặt khác,
các lớp được kết nối đầy đủ cần phải có đầu vào có kích thước/
độ dài cố định theo định nghĩa của chúng. Do đó, giới hạn kích
• K. He và J. Sun làm việc tại Microsoft Research, Bắc Kinh, Trung Quốc. E-mail:
{kahe,jiansun}@microsoft.com • X.
thước cố định chỉ đến từ các lớp được kết nối đầy đủ, tồn tại
Zhang làm việc tại Đại học Giao thông Tây An, Tây An, Trung Quốc. E-mail: ở giai đoạn sâu hơn của mạng.
xyz.clx@stu.xjtu.edu.cn
• S. Ren làm việc với Đại học Khoa học và Công nghệ Trung Quốc, Hợp Phì,
Trung Quốc. Email: sqren@mail.ustc.edu.cn Trong bài báo này, chúng tôi giới thiệu lớp nhóm kim tự
Công việc này được thực hiện khi X. Zhang và S. Ren còn là thực tập sinh tại Microsoft
tháp không gian (SPP) [14], [15] để loại bỏ ràng buộc kích
Research. thước cố định của mạng. Cụ thể, chúng tôi thêm một
Lớp SPP nằm trên lớp chập cuối cùng. Lớp SPP tổng hợp các tính và lớn hơn) kiến trúc tích chập. SPP-net cũng hiển thị các kết
năng và tạo ra các đầu ra có độ dài cố định, sau đó được đưa quả phân loại tiên tiến nhất trên Cal tech101 [21] và Pascal
vào các lớp được kết nối đầy đủ (hoặc các bộ phân loại khác). VOC 2007 [22] chỉ sử dụng một biểu diễn hình ảnh đầy đủ duy
Nói cách khác, chúng tôi thực hiện một số “tổng hợp” thông tin nhất và không tinh chỉnh.
ở giai đoạn sâu hơn của hệ thống phân cấp mạng (giữa các lớp SPP-net cũng cho thấy sức mạnh lớn trong việc phát hiện đối
chuyển đổi phức tạp và các lớp được kết nối đầy đủ) để tránh tượng. Trong phương pháp phát hiện đối tượng hàng đầu R-CNN
phải cắt xén hoặc cong vênh ngay từ đầu. [7], các tính năng từ cửa sổ ứng cử viên được trích xuất thông
qua mạng tích chập sâu. Phương pháp này cho thấy độ chính xác
Hình 1 (phía dưới) cho thấy sự thay đổi kiến trúc mạng bằng phát hiện vượt trội trên cả bộ dữ liệu VOC và ImageNet. Tuy
cách giới thiệu lớp SPP. Chúng tôi gọi cấu trúc mạng mới là nhiên, việc tính toán tính năng trong R CNN tốn nhiều thời
SPP-net. gian vì nó liên tục áp dụng các mạng tích chập sâu cho các
Nhóm kim tự tháp không gian [14], [15] (thường được gọi là pixel thô của hàng nghìn vùng bị biến dạng trên mỗi hình ảnh.
đối sánh kim tự tháp không gian hoặc SPM [15]), như một phần Trong bài báo này, chúng tôi chỉ ra rằng chúng tôi chỉ có thể
mở rộng của mô hình Bag-of-Words (BoW) [16], là một trong những chạy các lớp chập một lần trên toàn bộ hình ảnh (bất kể số
phương pháp thành công nhất trong tầm nhìn máy tính. Nó phân lượng cửa sổ), sau đó trích xuất các đặc điểm bằng SPP-net trên
chia hình ảnh thành các phần từ mức mịn hơn đến mức thô hơn và bản đồ đặc trưng. Phương pháp này mang lại tốc độ tăng hơn một
tổng hợp các đặc điểm cục bộ trong đó. SPP từ lâu đã là thành trăm lần so với R-CNN.
phần quan trọng trong các hệ thống hàng đầu và giành chiến
thắng trong cạnh tranh về phân loại (ví dụ: [17], [18], [19]) Lưu ý rằng việc đào tạo/chạy trình phát hiện trên bản đồ đặc
và phát hiện (ví dụ: [20]) trước sự phổ biến gần đây của CNN. điểm (chứ không phải vùng hình ảnh) thực sự là một ý tưởng phổ
Tuy nhiên, SPP chưa được xem xét trong bối cảnh CNN. biến hơn [23], [24], [20], [5]. Nhưng SPP-net thừa hưởng sức
mạnh của bản đồ đặc trưng CNN chuyên sâu cũng như tính linh
Chúng tôi lưu ý rằng SPP có một số đặc tính đáng chú ý đối với hoạt của SPP trên các kích thước cửa sổ tùy ý, dẫn đến độ chính
CNN sâu: 1) SPP có thể tạo đầu ra có độ dài cố định bất kể xác và hiệu quả vượt trội. Trong thử nghiệm của chúng tôi, hệ
kích thước đầu vào, trong khi tính năng gộp cửa sổ trượt được thống dựa trên mạng SPP (được xây dựng trên đường dẫn R-CNN)
sử dụng trong các mạng sâu trước đó [3] không thể; 2) SPP sử tính toán các tính năng nhanh hơn R-CNN 24-102×, đồng thời có
dụng các ngăn không gian đa cấp, trong khi nhóm cửa sổ trượt độ chính xác tốt hơn hoặc tương đương.
chỉ sử dụng một kích thước cửa sổ duy nhất. Việc gộp nhóm đa Với phương pháp đề xuất nhanh gần đây của EdgeBoxes [25], hệ thống
cấp đã được chứng minh là có khả năng chống lại sự biến dạng của chúng tôi chỉ mất 0,5 giây để xử lý một hình ảnh (bao gồm tất cả
của vật thể [15]; 3) SPP có thể gộp các đặc điểm được trích các bước). Điều này làm cho phương pháp của chúng tôi trở nên thiết
xuất ở các thang đo thay đổi nhờ tính linh hoạt của thang đo thực cho các ứng dụng trong thế giới thực.
đầu vào. Thông qua các thử nghiệm, chúng tôi cho thấy rằng tất Phiên bản sơ bộ của bản thảo này đã được xuất bản trên ECCV
cả các yếu tố này đều nâng cao độ chính xác nhận dạng của mạng 2014. Dựa trên công trình này, chúng tôi đã tham dự cuộc thi
sâu. ILSVRC 2014 [26] và xếp thứ 2 về phát hiện đối tượng và thứ 3
SPP-net không chỉ cho phép tạo ra các phản hồi từ các hình về phân loại hình ảnh (cả hai đều được cung cấp dữ liệu- chỉ
ảnh/cửa sổ có kích thước tùy ý để thử nghiệm mà còn cho phép các đường đua) trong số tất cả 38 đội. Có một số sửa đổi được
chúng tôi cung cấp hình ảnh với các kích thước hoặc tỷ lệ khác thực hiện cho ILSVRC 2014. Chúng tôi cho thấy rằng mạng SPP có
nhau trong quá trình đào tạo. Việc đào tạo với các hình ảnh có thể tăng cường các mạng khác nhau sâu hơn và lớn hơn (Phần
kích thước thay đổi làm tăng tính bất biến của tỷ lệ và giảm 3.1.2-3.1.4) so với các mạng không có SPP. Ngoài ra, được thúc
tình trạng khớp quá mức. Chúng tôi phát triển một phương pháp đẩy bởi khung phát hiện của chúng tôi, chúng tôi nhận thấy
đào tạo đa quy mô đơn giản. Để một mạng duy nhất chấp nhận kích rằng thử nghiệm nhiều chế độ xem trên bản đồ đối tượng với các
thước đầu vào thay đổi, chúng tôi ước tính nó bằng nhiều mạng cửa sổ có kích thước/định vị linh hoạt (Phần 3.1.5) có thể tăng
chia sẻ tất cả các tham số, trong khi mỗi mạng này được đào độ chính xác của phân loại. Bản thảo này cũng cung cấp chi
tạo bằng cách sử dụng kích thước đầu vào cố định. Trong mỗi kỷ tiết về những sửa đổi này.
nguyên, chúng tôi huấn luyện mạng với kích thước đầu vào nhất
định và chuyển sang kích thước đầu vào khác cho kỷ nguyên tiếp Chúng tôi đã phát hành mã để tạo điều kiện thuận lợi cho việc tìm
theo. Các thử nghiệm cho thấy rằng quá trình đào tạo đa kích kiếm trong tương lai (http://research.microsoft.com/en-us/um/people/kahe/).
thước này hội tụ giống như quá trình đào tạo một kích thước
truyền thống và mang lại độ chính xác kiểm tra tốt hơn.
Ưu điểm của SPP là trực giao với các thiết kế CNN cụ thể. 2 MẠNG SÂU VỚI PYRA KHÔNG GIAN
Trong một loạt thử nghiệm được kiểm soát trên bộ dữ liệu ĐÓNG GÓI TRUNG BÌNH
ImageNet 2012, chúng tôi chứng minh rằng SPP cải thiện bốn
2.1 Lớp chập và bản đồ đặc trưng
kiến trúc CNN khác nhau trong các ấn phẩm hiện có [3], [4],
[5] (hoặc các sửa đổi của chúng), so với các đối tác không có Hãy xem xét các kiến trúc bảy lớp phổ biến [3], [4].
SPP. Những kiến trúc này có số lượng/kích thước bộ lọc khác Năm lớp đầu tiên là lớp tích chập, một số lớp được theo sau
nhau, bước tiến, độ sâu hoặc các thiết kế khác. Do đó, thật bởi các lớp gộp. Các lớp gộp này cũng có thể được coi là lớp
hợp lý khi chúng tôi phỏng đoán rằng SPP sẽ cải tiến phức tạp tích chập, theo nghĩa là chúng đang sử dụng cửa sổ trượt. Hai
hơn (sâu hơn). cái cuối cùng

bộ lọc #175 bộ lọc #66
bộ lọc #55 bộ lọc #118
(a) hình ảnh (b) bản đồ đặc điểm (c) kích hoạt mạnh nhất (a) hình ảnh (b) bản đồ tính năng (c) kích hoạt mạnh nhất
Hình 2: Trực quan hóa các bản đồ tính năng. (a) Hai hình ảnh trong Pascal VOC 2007. (b) Bản đồ đặc trưng của một số bộ lọc đối lưu5.
Các mũi tên chỉ ra phản hồi mạnh nhất và vị trí tương ứng của chúng trong ảnh. (c) Hình ảnh ImageNet có phản hồi mạnh nhất của các bộ
lọc tương ứng. Các hình chữ nhật màu xanh lá cây đánh dấu các trường tiếp nhận phản hồi mạnh nhất.
các lớp được kết nối đầy đủ (fc6, fc7)

các lớp được kết nối đầy đủ, với softmax N-way làm đầu ra, trong
đó N là số lượng danh mục.
biểu diễn có độ dài cố định
Mạng sâu được mô tả ở trên cần kích thước hình ảnh cố định. ……
Tuy nhiên, chúng tôi nhận thấy rằng yêu cầu về kích thước cố định
……
chỉ do các lớp được kết nối đầy đủ yêu cầu các vectơ có độ dài 16×256-d 4×256-d 256-d
cố định làm đầu vào. Mặt khác, các lớp tích chập chấp nhận đầu
vào có kích thước tùy ý. Các lớp tích chập sử dụng các bộ lọc
trượt và đầu ra của chúng có tỷ lệ khung hình gần giống với đầu
lớp tổng hợp kim tự tháp không gian
vào. Những kết quả đầu ra này được gọi là bản đồ đặc trưng [1] -
chúng không chỉ liên quan đến cường độ của các phản hồi mà còn
bản đồ tính năng của conv5
liên quan đến vị trí không gian của chúng. (kích thước tùy ý)
hình ảnh đầu vào của lớp

Trong Hình 2, chúng tôi hình dung một số bản đồ tính năng.
tích chập
Chúng được tạo bởi một số bộ lọc của lớp đối lưu5. Hình 2(c)
hiển thị những hình ảnh được kích hoạt mạnh nhất của các bộ lọc Hình 3: Cấu trúc mạng với lớp tổng hợp kim tự tháp không gian. Ở
này trong tập dữ liệu ImageNet. Chúng tôi thấy một bộ lọc có thể đây 256 là số bộ lọc của lớp conv5 và conv5 là lớp chập cuối cùng.
được kích hoạt bởi một số nội dung ngữ nghĩa. Ví dụ: bộ lọc thứ
55 (Hình 2, phía dưới bên trái) được kích hoạt nhiều nhất bằng
hình tròn; bộ lọc thứ 66 (Hình 2, trên cùng bên phải) được kích
hoạt nhiều nhất bởi hình ; và bộ lọc thứ 118 (Hình 2, phía
vectơ có độ dài cố định. Các vectơ như vậy có thể được tạo bằng
dưới bên phải) được kích hoạt nhiều nhất bởi hình .
phương pháp Bag-of-Words (BoW) [16] để gộp các đặc điểm lại với
Những hình dạng này trong ảnh đầu vào (Hình 2(a)) kích hoạt bản
nhau. Nhóm kim tự tháp không gian [14], [15] cải thiện BoW ở chỗ
đồ đặc trưng tại các vị trí tương ứng (các mũi tên trong Hình 2).
nó có thể duy trì thông tin không gian bằng cách gộp trong các
thùng không gian cục bộ. Các ngăn không gian này có kích thước
Điều đáng chú ý là chúng tôi tạo các bản đồ đặc trưng trong
tỷ lệ thuận với kích thước hình ảnh nên số lượng ngăn là cố định
Hình 2 mà không sửa kích thước đầu vào. Các bản đồ đặc trưng này
bất kể kích thước hình ảnh. Điều này trái ngược với việc gộp cửa
được tạo ra bởi các lớp tích chập sâu tương tự như các bản đồ
sổ trượt của các mạng sâu trước đó [3], trong đó số lượng cửa sổ
đặc trưng trong các phương pháp truyền thống [27], [28]. Trong
trượt phụ thuộc vào kích thước đầu vào.
các phương pháp đó, vectơ SIFT [29] hoặc các mảng hình ảnh [28]
được trích xuất dày đặc và sau đó được mã hóa, ví dụ, bằng lượng
Để áp dụng mạng sâu cho hình ảnh có kích thước khay arbi,
tử hóa vectơ [16], [15], [30], mã hóa thưa thớt [17], [18] hoặc
chúng tôi thay thế lớp gộp cuối cùng (ví dụ: pool5, sau lớp chập
Hạt Fisher [19].
cuối cùng) bằng lớp gộp kim tự tháp không gian. Hình 3 minh họa
Các tính năng được mã hóa này bao gồm các bản đồ tính năng và sau
phương pháp của chúng tôi.
đó được gộp lại theo Bag-of-Words (BoW) [16] hoặc kim tự tháp
Trong mỗi ngăn không gian, chúng tôi gộp các phản hồi của từng bộ
không gian [14], [15]. Tương tự, các đặc điểm tích chập sâu có
lọc (trong suốt bài viết này, chúng tôi sử dụng cách gộp tối đa).
thể được gộp lại theo cách tương tự.
Đầu ra của tổng hợp kim tự tháp không gian là các vectơ chiều kM
với số lượng thùng được ký hiệu là M (k là số lượng bộ lọc trong
2.2 Lớp gộp kim tự tháp không gian Các lớp tích lớp chập cuối cùng). Các vectơ chiều cố định là đầu vào của lớp
chập chấp nhận kích thước đầu vào tùy ý, nhưng chúng tạo ra kết được kết nối đầy đủ.
quả đầu ra có kích thước thay đổi. Các lớp phân loại (SVM/
softmax) hoặc các lớp được kết nối đầy đủ yêu cầu Với việc gộp chung kim tự tháp không gian, hình ảnh đầu vào có thể
có kích thước bất kỳ. Điều này không chỉ cho phép tỷ lệ khung hình
[pool3x3] [pool2x2] [pool1x1]
tùy ý mà còn cho phép chia tỷ lệ tùy ý. Chúng ta có thể thay đổi kích
type=pool type=pool type=pool
thước hình ảnh đầu vào theo bất kỳ tỷ lệ nào (ví dụ: min(w, h)=180,
pool=đầu pool=đầu pool=đầu
224, ...) và áp dụng cùng một mạng sâu. Khi hình ảnh đầu vào ở các tỷ
vào tối vào tối vào tối
lệ khác nhau, mạng (có cùng kích thước bộ lọc) sẽ trích xuất các đặc đa=conv5 đa=conv5 đa=conv5
điểm ở các tỷ lệ khác nhau. Các thang đo đóng vai trò quan trọng trong sizeX=5 sải chân=4 sizeX=7 sải bước=6 sizeX=13 sải chân=13
các phương pháp truyền thống, ví dụ các vectơ SIFT thường được trích
xuất ở nhiều tỷ lệ [29], [27] (được xác định bởi kích thước của các [fc6]
type=fc
miếng vá và bộ lọc Gaussian). Chúng tôi sẽ chỉ ra rằng thang đo cũng
đầu ra=4096 đầu
rất quan trọng đối với tính chính xác của mạng sâu.
vào=pool3x3,pool2x2,pool1x1
Điều thú vị là cấp độ kim tự tháp thô nhất có một ngăn duy nhất bao
Hình 4: Một ví dụ về gộp kim tự tháp 3 cấp theo kiểu cuda-convnet [3].
phủ toàn bộ hình ảnh. Trên thực tế, đây là một hoạt động “tổng hợp
Ở đây sizeX là kích thước của cửa sổ gộp. Cấu hình này dành cho mạng
toàn cầu”, cũng được nghiên cứu trong một số công trình đồng thời.
có kích thước bản đồ tính năng của conv5 là 13×13, do đó, các lớp
Trong [31], [32] việc gộp chung trung bình toàn cầu được sử dụng để
pool3×3, pool2×2 và pool1×1 sẽ có các thùng 3×3, 2×2 và 1×1 tương ứng.
giảm kích thước mô hình và cũng giảm việc trang bị quá mức; trong
[33], việc gộp nhóm trung bình toàn cầu được sử dụng ở giai đoạn thử
nghiệm sau tất cả các lớp fc để cải thiện độ chính xác; trong [34],
tổng hợp tối đa toàn cầu được sử dụng để nhận dạng đối tượng được giám
sát yếu. Hoạt động tổng hợp toàn cầu tương ứng với phương pháp Bag-of-
Words truyền thống.

kích thước hình ảnh trong quá trình đào tạo, chúng tôi xem xét một
tập hợp các kích thước được xác định trước. Chúng tôi xem xét hai
kích thước: 180×180 ngoài 224×224. Thay vì cắt vùng 180×180 nhỏ hơn,
2.3 Huấn luyện mạng Về mặt lý chúng tôi thay đổi kích thước vùng 224×224 nói trên thành 180×180. Vì
thuyết, cấu trúc mạng trên có thể được huấn luyện với phương pháp lan vậy, các vùng ở cả hai tỷ lệ chỉ khác nhau về độ phân giải chứ không
truyền ngược tiêu chuẩn [1], bất kể kích thước hình ảnh đầu vào. khác nhau về nội dung/bố cục. Để công việc mạng chấp nhận đầu vào
Nhưng trong thực tế, việc triển khai GPU (chẳng hạn như cuda-convnet 180×180, chúng tôi triển khai một mạng đầu vào có kích thước cố định
[3] và Caffe [35]) tốt nhất nên chạy trên các hình ảnh đầu vào cố (180×180) khác. Kích thước bản đồ đặc trưng sau conv5 là a×a = 10×10
định. Tiếp theo, chúng tôi mô tả giải pháp đào tạo tận dụng các triển trong trường hợp này. Sau đó, chúng tôi vẫn sử dụng win = a/n và str =
khai GPU này trong khi vẫn duy trì các hành vi tổng hợp kim tự tháp a/n để triển khai từng cấp độ gộp kim tự tháp. Đầu ra của lớp tổng hợp
không gian. kim tự tháp không gian của mạng 180 này có cùng độ dài cố định với
mạng 224. Như vậy, mạng 180 này có các tham số chính xác giống như
mạng 224 ở mỗi lớp. Nói cách khác, trong quá trình đào tạo, chúng tôi
Huấn luyện một kích triển khai mạng SPP có kích thước đầu vào khác nhau bằng hai mạng có
kích thước cố định chia sẻ các tham số.

thước Như trong các nghiên cứu trước, trước tiên chúng ta xem xét một
mạng lấy đầu vào có kích thước cố định (224×224) được cắt từ hình ảnh.
Việc cắt xén là nhằm mục đích tăng cường dữ liệu.
Đối với một hình ảnh có kích thước nhất định, chúng ta có thể tính Để giảm chi phí chuyển từ mạng này (ví dụ: 224) sang mạng khác (ví
toán trước kích thước thùng cần thiết để gộp chung kim tự tháp không gian. dụ: 180), chúng tôi huấn luyện từng kỷ nguyên đầy đủ trên một mạng,
Hãy xem xét các bản đồ đặc trưng sau đối lưu5 có kích thước a×a (ví sau đó chuyển sang mạng khác (giữ tất cả trọng số) cho kỷ nguyên đầy
dụ: 13×13). Với cấp độ kim tự tháp gồm n×n thùng, chúng tôi triển khai đủ tiếp theo. Điều này được lặp đi lặp lại. Trong các thử nghiệm,
cấp độ tổng hợp này dưới dạng tổng hợp cửa sổ trượt, trong đó kích chúng tôi nhận thấy tốc độ hội tụ của quá trình đào tạo đa kích thước
thước cửa sổ win = a/n và sải bước str = a/n với · và · biểu thị các này tương tự như quá trình đào tạo một kích thước ở trên.
hoạt động trần và sàn. Với kim tự tháp cấp l, chúng tôi triển khai l
các lớp như vậy. Lớp được kết nối đầy đủ tiếp theo (fc6) sẽ nối các
Mục đích chính của chương trình đào tạo nhiều kích thước của chúng
đầu ra l. Hình 4 cho thấy một cấu hình ví dụ về gộp nhóm kim tự tháp
tôi là mô phỏng các kích thước đầu vào khác nhau trong khi vẫn tận
3 cấp (3×3, 2×2, 1×1) theo kiểu cuda-convnet [3].
dụng việc triển khai kích thước cố định được tối ưu hóa tốt hiện có.
Bên cạnh việc triển khai hai thang đo ở trên, chúng tôi cũng đã thử
nghiệm một biến thể sử dụng s × s làm đầu vào trong đó s được lấy mẫu
Mục đích chính của chương trình đào tạo quy mô đơn của chúng tôi là
ngẫu nhiên và thống nhất từ [180, 224] ở mỗi kỷ nguyên. Chúng tôi báo
kích hoạt hành vi tổng hợp đa cấp. Các thí nghiệm cho thấy đây là một
cáo kết quả của cả hai biến thể trong phần thử nghiệm.
lý do để đạt được độ chính xác.
Đào tạo đa kích thước

Lưu ý rằng các giải pháp đơn/đa kích thước ở trên chỉ dành cho mục
Mạng của chúng tôi với SPP dự kiến sẽ được áp dụng trên các hình ảnh đích đào tạo. Ở giai đoạn thử nghiệm, phường có thể áp dụng SPP-net
ở mọi kích thước. Để giải quyết vấn đề thay đổi trên các hình ảnh ở mọi kích thước một cách dễ dàng.
người mẫu chuyển đổi1 chuyển đổi đối lưu3 đối lưu4 chuyển đổi5 đối lưu6 chuyển đổi7
2 2 2 2
ZF-5 96 × 7 , chuỗi 2 256 × 5 , chuỗi 2 2 384 × 3 2 384 × 3 256 × 3
2, 2, chuỗi 2 - -
LRN, nhóm 3 str 2 LRN, nhóm 3
kích thước bản đồ 55 × 27 × 27 13 × 13 13 × 13 13 × 13
Convnet*-5 55 96 × 112 , đường 4 2 256 × 5 2 384 × 3 2 384 × 3 256 × 3 2

2, 2, 2 - -
LRN, LRN, nhóm 3 đường 2 hồ 3
kích thước bản đồ 55 × 55 27 × 27 13 × 13 13 × 13 13 × 13
Chiến thắng-5/7 96 × 7 2 , chuỗi 2 2 256 × 5 2 512 × 3 2 512 × 3 2 512 × 3 2 512 × 3 512 × 3 2

2 2,
hồ bơi 3 , đường 3, LRN hồ bơi 2 chuỗi 2
kích thước bản đồ 36 × 36 18 × 18 18 × 18 18 × 18 18 × 18 18 × 18 18 × 18
2
Bảng 1: Kiến trúc mạng: số bộ lọc×kích thước bộ lọc (ví dụ: 96×7 ), bước lọc (ví dụ: str 2), cửa sổ gộp
2
kích thước (ví dụ: nhóm 3 ) và kích thước bản đồ tính năng đầu ra (ví dụ: kích thước bản đồ 55 × 55). LRN đại diện cho Phản hồi cục bộ
Bình thường hóa. Phần đệm được điều chỉnh để tạo ra kích thước bản đồ tính năng đầu ra dự kiến.
3 SPP-NET ĐỂ PHÂN LOẠI HÌNH ẢNH một kiến trúc sâu hơn với 7 lớp tích chập,
trong đó conv3 đến conv7 có cùng cấu trúc.
3.1 Thử nghiệm phân loại ImageNet 2012
Chúng tôi đào tạo các mạng theo quy trình đào tạo 1000 danh mục
Trong các mô hình cơ sở, lớp tổng hợp sau lớp cuối cùng
bộ ImageNet 2012. Thuật toán huấn luyện của chúng tôi tuân theo
lớp tích chập tạo ra các bản đồ đặc trưng 6×6, với
thực tiễn của các công trình trước đây [3], [4], [36]. Độ tuổi của
hai lớp fc 4096-d và lớp softmax 1000 chiều
hình ảnh được thay đổi kích thước sao cho kích thước nhỏ hơn là 256,
tiếp theo. Bản sao của chúng tôi về các mạng cơ sở này
và phần cắt 224×224 được chọn từ trung tâm hoặc
nằm trong Bảng 2 (a). Chúng tôi đào tạo 70 kỷ nguyên cho ZF-5 và
bốn góc của toàn bộ hình ảnh1 . Dữ liệu được tăng cường bằng
90 kỷ nguyên cho những người khác. Bản sao ZF-5 của chúng tôi là
cách lật ngang và thay đổi màu sắc [3].
tốt hơn so với báo cáo trong [4]. Lợi ích này là do
Dropout [3] được sử dụng trên hai lớp được kết nối đầy đủ.
các góc cắt là từ toàn bộ hình ảnh, cũng như
Tốc độ học bắt đầu từ 0,01 và chia cho 10
được báo cáo trong [36].
(hai lần) khi lỗi ổn định. Việc thực hiện của chúng tôi
dựa trên mã có sẵn công khai của cuda-convnet 3.1.2 Nhóm đa cấp cải thiện độ chính xác
[3] và Cà phê [35]. Tất cả các mạng trong bài viết này có thể được
Trong Bảng 2 (b), chúng tôi hiển thị kết quả bằng cách sử dụng
được đào tạo trên một GPU GeForce GTX Titan duy nhất (6 GB
huấn luyện kích thước đơn. Quy mô đào tạo và kiểm tra đều
trí nhớ) trong vòng hai đến bốn tuần.
224×224. Trong các mạng này, các lớp tích chập
3.1.1 Kiến trúc mạng cơ sở có cấu trúc giống như các mô hình đường cơ sở tương ứng, trong
khi lớp tổng hợp sau lớp cuối cùng
Ưu điểm của SPP là độc lập với kiến trúc mạng xoắn ốc được sử
lớp chập được thay thế bằng lớp SPP. Vì
dụng. Chúng tôi điều tra
kết quả ở Bảng 2, chúng tôi sử dụng kim tự tháp 4 cấp. Các
bốn kiến trúc mạng khác nhau trong các ấn phẩm hiện có [3],
kim tự tháp là {6×6, 3×3, 2×2, 1×1} (tổng cộng 50 thùng).
[4], [5] (hoặc các sửa đổi của chúng) và chúng tôi
Để so sánh công bằng, chúng tôi vẫn sử dụng tiêu chuẩn 10-
show SPP cải thiện độ chính xác của tất cả các kiến trúc này.
Các kiến trúc cơ sở này nằm trong Bảng 1 và xem dự đoán với mỗi lượt xem cắt xén 224 × 224. Của chúng tôi
kết quả trong Bảng 2 (b) cho thấy sự cải thiện đáng kể
được giới thiệu ngắn gọn dưới đây:
qua các đường cơ sở không có SPP trong Bảng 2 (a). Một cách thú vị,
• ZF-5: kiến trúc này dựa trên Zeiler và Fer
mức tăng lớn nhất của lỗi top 1 (1,65%) được đưa ra bởi
mô hình “nhanh” (nhỏ hơn) của gus (ZF) [4]. Con số
kiến trúc chính xác nhất. Vì chúng tôi vẫn đang sử dụng
chỉ ra năm lớp tích chập.
10 lượt xem bị cắt giống như trong (a), những lợi ích này chỉ
• Convnet*-5: đây là bản sửa đổi của Krizhevsky
vì sự tổng hợp đa cấp.
mạng lưới của et al. [3]. Chúng tôi đặt hai lớp gộp
Điều đáng chú ý là mức tăng đa cấp
sau conv2 và conv3 (thay vì sau conv1 và
tổng hợp không chỉ đơn giản là do có nhiều tham số hơn; hơn là,
đối lưu2). Kết quả là, đặc điểm sẽ ánh xạ sau mỗi
đó là vì việc tổng hợp đa cấp rất mạnh mẽ đối với
lớp có cùng kích thước với ZF-5.
sự khác biệt về biến dạng đối tượng và bố cục không gian
• Overfeat-5/7: kiến trúc này dựa trên
[15]. Để thể hiện điều này, chúng tôi huấn luyện một mạng ZF-5 khác với
Bài viết vượt trội [5], với một số sửa đổi như trong
một kim tự tháp 4 cấp khác: {4×4, 3×3, 2×2, 1×1}
[6]. Ngược lại với ZF-5/Convnet*-5, kiến trúc này tạo ra
(tổng cộng 30 thùng). Mạng này có ít tham số hơn
bản đồ tính năng lớn hơn (thay vào đó là 18×18
so với đối tác không có SPP của nó, bởi vì lớp fc6 của nó có
13 × 13) trước lớp gộp cuối cùng. Một cái lớn hơn
Đầu vào 30×256-d thay vì 36×256-d. Top 1/top 5 lỗi của mạng này
số bộ lọc (512) được sử dụng trong lớp đối lưu 3 và lớp
là 35.06/14.04. Kết quả này
tích chập tiếp theo. Chúng tôi cũng điều tra
tương tự như kim tự tháp 50 thùng ở trên (34,98/14,14),
1. Trong [3], bốn góc được chọn từ các góc của nhưng tốt hơn đáng kể so với đối tác không có SPP
cắt trung tâm 256×256. (35,99/14,76).
lỗi hàng đầu (%)

ZF-5 Convnet*-5 Vượt trội-5 Vượt trội-7
(a) không có SPP 35,99 34,93 34.13 32.01
(b) SPP được huấn luyện đơn kích cỡ 34,98 (1,01) (c) 34,38 (0,55) 32,87 (1,26) 30,36 (1,65)
SPP được huấn luyện đa kích cỡ 34,60 (1,39) 33,94 (0,99) 32,26 (1,87) 29,68 (2,33)
lỗi top 5 (%)

ZF-5 Convnet*-5 Vượt trội-5 Vượt trội-7
(a) không có SPP 14,76 (b) SPP được huấn luyện một 13,92 13,52 11:97
11.12
cỡ 14,14 (0,62) (c) SPP được huấn luyện đa cỡ 13,64 13,54 (0,38) 12,80 (0,72) (0.85)
(1,12) 13,33 (0,59) 12,33 (1,19) 10,95 (1,02)
Bảng 2: Tỷ lệ lỗi trong bộ xác thực của ImageNet 2012. Tất cả các kết quả thu được bằng cách sử dụng 10 chế độ xem tiêu chuẩn
thử nghiệm. Trong ngoặc là mức tăng so với đường cơ sở “không có SPP”.
SPP bật kiểm tra xem top-1 val

3.1.4 Biểu diễn hình ảnh đầy đủ cải thiện độ chính xác
ZF-5, huấn luyện cỡ đơn 1 vụ 38,01
1 đầy đủ 37,55 Tiếp theo, chúng tôi điều tra tính chính xác của hình ảnh đầy đủ
ZF-5, huấn luyện cỡ đơn
37,57 lượt xem. Chúng tôi thay đổi kích thước hình ảnh sao cho min(w, h)=256
ZF-5, được huấn luyện nhiều kích cỡ 1 vụ 1
ZF-5, được huấn luyện nhiều kích cỡ đầy đủ 37.07 trong khi vẫn duy trì tỷ lệ khung hình của nó. Mạng SPP là
33,18 áp dụng trên hình ảnh đầy đủ này để tính điểm của
Overfeat-7, huấn luyện đơn cỡ 1 vụ
32,72 cái nhìn đầy đủ. Để so sánh công bằng, chúng tôi cũng đánh giá
Overfeat-7, huấn luyện đơn cỡ 1 đầy đủ
Overfeat-7, huấn luyện đa kích 1 crop 32,57 độ chính xác của chế độ xem đơn ở trung tâm 224 × 224
Overfeat-7, huấn luyện đa kích 1 đầy đủ 31:25 crop (được sử dụng trong các đánh giá trên). Các
so sánh về độ chính xác của thử nghiệm một lượt xem là
Bảng 3: Tỷ lệ lỗi trong bộ xác thực của ImageNet Bảng 3. Ở đây chúng tôi đánh giá ZF-5/Overfeat-7. Top 1
2012 bằng cách sử dụng một chế độ xem duy nhất. Các hình ảnh được thay đổi kích thước như vậy
tất cả tỷ lệ lỗi đều được giảm bớt nhờ sự thể hiện toàn cảnh. Điều
min(w, h) = 256. Chế độ xem crop là trung tâm 224×224 này cho thấy tầm quan trọng của việc duy trì
của hình ảnh. nội dung hoàn chỉnh. Mặc dù mạng lưới của chúng tôi đã được đào tạo
chỉ sử dụng hình ảnh vuông, nó khái quát tốt cho các hình ảnh khác
tỷ lệ khía cạnh.
So sánh Bảng 2 và Bảng 3, chúng tôi thấy rằng

3.1.3 Đào tạo nhiều kích cỡ cải thiện độ chính xác
sự kết hợp của nhiều chế độ xem tốt hơn đáng kể
Bảng 2 (c) cho thấy kết quả của chúng tôi khi sử dụng đào tạo đa kích cỡ.
hơn so với chế độ xem toàn hình ảnh. Tuy nhiên, việc trình bày hình
Kích thước đào tạo là 224 và 180, trong khi thử nghiệm ảnh đầy đủ vẫn có giá trị tốt. Đầu tiên,
kích thước vẫn là 224. Chúng tôi vẫn sử dụng chế độ xem 10 tiêu chuẩn
về mặt thực nghiệm, chúng tôi thấy rằng (được thảo luận trong phần
sự dự đoán. Các lỗi top 1/top-5 của tất cả các kiến trúc phụ tiếp theo) ngay cả đối với sự kết hợp của hàng tá quan điểm,
giảm tiếp. Lỗi top-1 của SPP-net (Overfeat-7) hai chế độ xem hình ảnh đầy đủ bổ sung (có lật)
giảm xuống 29,68%, tốt hơn 2,33% so với đối tác không có SPP và tốt vẫn có thể tăng độ chính xác lên khoảng 0,2%. Thứ hai,
hơn 0,68% so với kích thước đơn của nó chế độ xem hình ảnh đầy đủ nhất quán về mặt phương pháp
đối tác được đào tạo. với các phương pháp truyền thống [15], [17], [19] trong đó
Bên cạnh việc sử dụng hai kích thước rời rạc 180 và vectơ SIFT được mã hóa của toàn bộ hình ảnh được gộp lại
224, chúng tôi cũng đã đánh giá bằng kích thước ngẫu nhiên cùng nhau. Thứ ba, trong các ứng dụng khác như hình ảnh
lấy mẫu thống nhất từ [180, 224]. Lỗi top 1/5 truy xuất [37], một biểu diễn hình ảnh, chứ không phải là
của SPP-net (Overfeat-7) là 30,06%/10,96%. Lỗi top 1 hơi nặng hơn điểm phân loại, là cần thiết để xếp hạng tương tự.
phiên bản 2 size, Một đại diện hình ảnh đầy đủ có thể được ưa thích.
có thể vì kích thước 224 (được sử dụng cho
testing) được truy cập ít hơn. Nhưng kết quả vẫn tốt hơn 3.1.5 Thử nghiệm nhiều chế độ xem trên Bản đồ tính năng
phiên bản kích thước đơn. Lấy cảm hứng từ thuật toán phát hiện của chúng tôi (được mô tả trong
Trước đây đã có giải pháp CNN [5], [36] giải quyết phần tiếp theo), chúng tôi tiếp tục đề xuất một chế độ xem đa dạng
với nhiều tỷ lệ/kích cỡ khác nhau, nhưng chúng chủ yếu dựa trên phương pháp thử nghiệm trên bản đồ đặc trưng. Nhờ sự
về thử nghiệm. Trong Overfeat [5] và phương pháp của Howard [36], tính linh hoạt của SPP, chúng ta có thể dễ dàng trích xuất các tính năng
mạng đơn được áp dụng ở nhiều quy mô trong từ các cửa sổ (chế độ xem) có kích thước tùy ý từ
giai đoạn kiểm tra và điểm số được tính trung bình. Howard bản đồ đặc trưng tích chập.
đào tạo thêm hai mạng khác nhau trên các vùng hình ảnh có độ phân Ở giai đoạn thử nghiệm, chúng tôi thay đổi kích thước hình ảnh sao cho
giải thấp/cao và tính điểm trung bình. ĐẾN min(w, h) = s trong đó s đại diện cho thang đo được xác định trước
kiến thức của chúng tôi, phương pháp của chúng tôi là phương pháp đầu tiên đào tạo (như 256). Sau đó, chúng tôi tính toán các bản đồ đặc trưng tích
một mạng duy nhất với hình ảnh đầu vào có nhiều kích cỡ. chập từ toàn bộ hình ảnh. Đối với việc sử dụng
phương thang đo kiểm tra lượt xem kiểm tra top-1 val top-5 val top-5 kiểm tra
pháp Krizhevsky et al. [3] 1 10 40,7 18,2
1 - 39.01 16,97
Quá đỉnh (nhanh) [5]
6 - 38.12 16,27
Quá đỉnh (nhanh) [5]
4 - 35,74 14.18
Quá đỉnh (lớn) [5]
Howard (cơ sở) [36] 3 162 37,0 15,8
Howard (độ phân giải cao) [36] 3 162 36,8 16.2
Zeiler & Fergus (ZF) (nhanh) [4] 1 10 38,4 16,5
Zeiler & Fergus (ZF) (lớn) [4] 1 10 37,5 16.0
1 10 - 13.1
Chatfield và cộng sự. [6]
của chúng tôi (SPP 1 10 29,68 10:95
O-7) của chúng tôi (SPP O-7) 6 96+2đầy đủ 27,86 9.14 9.08
Bảng 4: Tỷ lệ lỗi trong ImageNet 2012. Tất cả các kết quả đều dựa trên một mạng duy nhất. Số lượt xem trong
Chiến công vượt trội phụ thuộc vào quy mô và bước tiến, trong đó có hàng trăm quy mô tốt nhất.
thứ hạng đội bài kiểm tra top 5

các chế độ xem bị đảo ngược, chúng tôi cũng tính toán các bản đồ đặc trưng của
GoogleLeNet [32] 6,66
hình ảnh bị đảo lộn. Cho bất kỳ chế độ xem (cửa sổ) nào trong
1 VGG [33] 7,32
hình ảnh, chúng tôi ánh xạ cửa sổ này tới các bản đồ đặc trưng (
2 3 của chúng tôi 8.06
cách lập bản đồ ở Phụ lục), sau đó sử dụng SPP
4 Howard 8.11
để gộp các tính năng từ cửa sổ này (xem Hình 5).
9 giờ 50
Tầm nhìn sâu hơn
Các tính năng gộp sau đó được đưa vào các lớp fc
5 6 NUS-BST 9,79
để tính điểm softmax của cửa sổ này. Những cái này
7 TTIC ECP 10.22
điểm số được tính trung bình cho dự đoán cuối cùng. Cho
tiêu chuẩn 10 lượt xem, chúng tôi sử dụng s = 256 và lượt xem
Bảng 5: Kết quả thi đấu phân loại ILSVRC 2014 [26]. Mục nhập tốt
là các cửa sổ 224×224 ở các góc hoặc giữa. Các thử nghiệm cho
nhất của mỗi đội được liệt kê.
thấy lỗi top 5 của 10 lượt xem
dự đoán trên bản đồ đặc điểm nằm trong khoảng 0,1%
Dự đoán 10 lượt xem ban đầu về cắt xén hình ảnh.
Chúng tôi tiếp tục áp dụng phương pháp này để trích xuất nhiều trong ILSVRC 2013. Chúng tôi chỉ xem xét mạng đơn
quan điểm từ nhiều quy mô. Chúng tôi thay đổi kích thước hình ảnh thành sáu hiệu suất để so sánh có thể quản lý được.
chia tỷ lệ s {224, 256, 300, 360, 448, 560} và tính toán Mạng đơn tốt nhất của chúng tôi đạt được lỗi top 5 9,14%
bản đồ đặc trưng trên toàn bộ hình ảnh cho từng tỷ lệ. trên bộ xác thực. Đây chính xác là mô hình đơn
Chúng tôi sử dụng 224 × 224 làm kích thước chế độ xem cho mọi tỷ lệ, mục mà chúng tôi đã gửi tới ILSVRC 2014 [26]. Top 5
vì vậy những chế độ xem này có kích thước tương đối khác nhau trên sai số là 9,08% trên bộ thử nghiệm (ILSVRC 2014 có
hình ảnh gốc cho các tỷ lệ khác nhau. Chúng tôi sử dụng 18 lượt xem dữ liệu đào tạo/xác nhận/kiểm tra giống như ILSVRC
cho mỗi thang đo: một ở giữa, bốn ở các góc, 2012). Sau khi tổng hợp 11 mô hình, kết quả của đội ta (8,06%)
và bốn ở giữa mỗi bên, có/không có đứng thứ 3 trong tổng số 38 đội tham dự
lật (khi s = 224 có 6 góc nhìn khác nhau). ILSVRC 2014 (Bảng 5). Vì những lợi thế của mạng SPP nói chung là
Sự kết hợp của 96 lượt xem này làm giảm top 5 độc lập với kiến trúc,
sai số từ 10,95% đến 9,36%. Kết hợp hai chế độ xem hình ảnh đầy chúng tôi hy vọng rằng nó sẽ tiếp tục cải thiện sâu hơn và
đủ (với chức năng lật) càng làm giảm top 5 kiến trúc tích chập lớn hơn [33], [32].
sai số tới 9,14%.
Trong bài báo Overfeat [5], thay vào đó, các khung nhìn cũng
3.2 Thí nghiệm phân loại VOC 2007
được trích xuất từ các bản đồ tính năng tích chập
Phương pháp của chúng tôi có thể tạo ra một bản trình bày hình
của cây trồng hình ảnh. Tuy nhiên, chế độ xem của chúng không
ảnh toàn màn hình. Với các mạng trên được đào tạo trước về
thể có kích thước bitrary; đúng hơn, các cửa sổ là nơi
ImageNet, chúng tôi trích xuất các biểu diễn này từ
các tính năng gộp phù hợp với chiều mong muốn. Chúng tôi
hình ảnh trong tập dữ liệu đích và đào tạo lại các bộ phân loại
thực nghiệm thấy rằng những cửa sổ bị hạn chế này ít hơn
SVM [38]. Trong quá trình đào tạo SVM, chúng tôi cố tình thực hiện
có lợi hơn các cửa sổ có kích thước/có vị trí linh hoạt của chúng tôi.
không sử dụng bất kỳ tính năng tăng cường dữ liệu nào (lật/xem nhiều chế độ xem). Chúng tôi
l2-chuẩn hóa các tính năng cho việc huấn luyện SVM.
3.1.6 Tóm tắt và kết quả ILSVRC 2014
Nhiệm vụ phân loại trong Pascal VOC 2007 [22]
Trong Bảng 4, chúng tôi so sánh với các phương pháp tiên tiến bao gồm 9.963 hình ảnh trong 20 loại. 5.011 hình ảnh
trước đây. Krizhevsky và cộng sự [3] là người chiến thắng dành cho đào tạo, còn lại dành cho thử nghiệm. Các
phương pháp trong ILSVRC 2012; Đánh bại [5], Howard [36], hiệu suất được đánh giá bằng trung bình Độ chính xác trung bình
và Zeiler và Fergus [4] là những phương pháp hàng đầu (bản đồ). Bảng 6 tóm tắt kết quả.
số 8
(Một) (b) (d) (e)

người mẫu (c) không có SPP (ZF-5) SPP (ZF-5) SPP (ZF-5) SPP (ZF-5) SPP (Overfeat-7)
cắt cắt đầy đầy đầy
kích cỡ 224×224 224×224 224×- 392×- 364×-

59,96 57,28 - - -
đối lưu4
66,34 65,43 - - -
chuyển đổi5
69,14 68,76 70,82 71,67 76,09

pool5/7 (6×6)
74,86 75,55 77,32 78,78 81,58
fc6/8
75,90 76,45 78,39 80.10 82,44
fc7/9
Bảng 6: Phân loại mAP trong Pascal VOC 2007. Đối với SPP-net, lớp pool5/7 sử dụng cấp kim tự tháp 6×6.
(Một) (b) (c) (d)

người mẫu không có SPP (ZF-5) SPP (ZF-5) SPP (ZF-5) SPP (Overfeat-7)
cắt cắt đầy đầy
kích cỡ 224×224 224×224 224×- 224×-
80,12 81.03 - -
đối lưu4
84,40 83,76 - -
chuyển đổi5
87,98 87,60 89,46 91,46

hồ bơi5/7 (6×6)
- 89,47 91,44 93,42
Nhóm SPP5/7
fc6/8 87,86 88,54 89,50 91,83
fc7/9 85,30 86.10 87,08 90,00
Bảng 7: Độ chính xác phân loại trong Caltech101. Đối với SPP-net, lớp pool5/7 sử dụng cấp kim tự tháp 6×6.
Chúng tôi bắt đầu từ đường cơ sở trong Bảng 6 (a). Mô hình là mạng. Trong những kết quả này, Oquab và cộng sự (77,7%) và
ZF-5 không có SPP. Để áp dụng mô hình này, chúng tôi thay đổi kích thước Chatfield và cộng sự (82,42%) được lấy từ mạng
hình ảnh sao cho kích thước nhỏ hơn của nó là 224 và cắt tinh chỉnh và thử nghiệm nhiều chế độ xem. Kết quả của chúng tôi
vùng trung tâm 224×224. SVM được huấn luyện thông qua có thể so sánh được với công nghệ hiện đại, chỉ sử dụng một
các tính năng của một lớp. Trên tập dữ liệu này, càng tìm hiểu sâu hơn biểu diễn hình ảnh đầy đủ và không có tinh chỉnh.
lớp càng tốt thì kết quả càng tốt. Trong Bảng 6 (b), chúng tôi
thay thế mạng không có SPP bằng mạng SPP của chúng tôi. Là bước đầu tiên
3.3 Thí nghiệm trên Caltech101
so sánh, chúng tôi vẫn áp dụng SPP-net ở trung tâm
Bộ dữ liệu Caltech101 [21] chứa 9.144 hình ảnh trong
Cắt xén 224 × 224. Kết quả của các lớp fc được cải thiện.
102 loại (một nền). Chúng tôi lấy mẫu ngẫu nhiên 30 hình ảnh cho
Mức tăng này chủ yếu là do tổng hợp đa cấp.
mỗi danh mục để đào tạo và tối đa 50
Bảng 6 (c) hiển thị kết quả của chúng tôi trên hình ảnh đầy đủ, trong đó
hình ảnh cho mỗi danh mục để thử nghiệm. Chúng tôi lặp lại 10 ngẫu nhiên
hình ảnh được thay đổi kích thước sao cho cạnh ngắn hơn là 224.
chia nhỏ và lấy trung bình độ chính xác. Bảng 7 tóm tắt
Chúng tôi thấy rằng kết quả được cải thiện đáng kể ket qua cua chung toi.
(78,39% so với 76,45%). Điều này là do hình ảnh đầy đủ Có một số quan sát chung trong Pascal
đại diện duy trì nội dung hoàn chỉnh. Kết quả VOC 2007 và Caltech101: SPP-net tốt hơn
Bởi vì việc sử dụng mạng của chúng tôi không phụ thuộc hơn mạng không có SPP (Bảng 7 (b) so với (a)) và trình bày chế độ
theo tỷ lệ, chúng tôi thay đổi kích thước hình ảnh sao cho nhỏ hơn xem đầy đủ tốt hơn so với lưới cắt ((c) so với (b)).
kích thước là s và sử dụng cùng một mạng để trích xuất Nhưng kết quả ở Caltech101 có một số điểm khác biệt
đặc trưng. Chúng tôi thấy rằng s = 392 cho kết quả tốt nhất với Pascal VOC. Các lớp được kết nối đầy đủ ít hơn
(Bảng 6 (d)) dựa trên bộ xác nhận. Đây chủ yếu là chính xác và các lớp SPP tốt hơn. Điều này có thể
vì các đối tượng chiếm các vùng nhỏ hơn trong VOC vì các danh mục đối tượng trong Caltech101 ít hơn
2007 nhưng các vùng lớn hơn trong ImageNet, vì vậy mối quan hệ tương đối liên quan đến những thứ trong ImageNet và các lớp sâu hơn
tỷ lệ đối tượng là khác nhau giữa hai bộ. Những cái này chuyên biệt hơn về thể loại. Hơn nữa, chúng tôi thấy rằng
kết quả chỉ ra vấn đề quy mô trong các nhiệm vụ phân loại,
thang đo 224 có hiệu suất tốt nhất trong số
và SPP-net có thể giải quyết một phần vấn đề “không phù hợp về thang đo chúng tôi đã thử nghiệm trên tập dữ liệu này. Điều này chủ yếu là do
quy mô” này.
các đối tượng trong Caltech101 cũng chiếm diện tích lớn
Trong Bảng 6 (e) kiến trúc mạng được thay thế các hình ảnh, như trường hợp của ImageNet.
với mô hình tốt nhất của chúng tôi (Overfeat-7, được đào tạo nhiều kích cỡ), Bên cạnh việc cắt xén, chúng tôi cũng đánh giá độ cong vênh của
và mAP tăng lên 82,44%. Bảng 8 tóm tắt hình ảnh để phù hợp với kích thước 224 × 224. Giải pháp này duy trì
kết quả của chúng tôi và so sánh với các phương pháp hiện đại. nội dung đầy đủ nhưng lại gây ra sự xuyên tạc. TRÊN
Trong số các phương pháp này, VQ [15], LCC mô hình SPP (ZF-5), độ chính xác là 89,91% khi sử dụng
[18] và FK [19] đều dựa trên kim tự tháp không gian lớp SPP làm tính năng - thấp hơn 91,44%
khớp và [13], [4], [34], [6] dựa trên độ sâu sử dụng cùng một mô hình trên hình ảnh đầy đủ không bị biến dạng.
phương pháp VOC 2007 Caltech101 các lớp được kết nối đầy đủ (fc6, fc7)
† VQ [15] 56,07 74,41±1,0
† LLC [18] 57,66 76,95±0,4 biểu diễn có độ dài cố định

……
† FK [19] 61,69 77,78±0,6
- 86,91±0,7
DeCAF [13]
Zeiler & Fergus [4] 75,90‡ 86,5±0,5

lớp tổng hợp kim
77,7 -
Oquab và cộng sự. [34] tự tháp không gian
Chatfield và cộng sự. [6] 82,42 88,54±0,3
của chúng tôi 82,44 93,42±0,5
bản đồ đặc trưng của conv5

cửa sổ
Bảng 8: Kết quả phân loại Pascal VOC 2007
(mAP) và Caltech101 (độ chính xác). †con số được báo cáo bởi
lớp chập
[27]. ‡việc triển khai của chúng tôi như trong Bảng 6 (a).
hình ảnh đầu vào
Hình 5: Tập hợp các đối tượng từ các cửa sổ tùy ý trên bản đồ
Bảng 8 tóm tắt kết quả của chúng tôi so với các phương pháp đối tượng. Các bản đồ đặc trưng được tính toán từ toàn bộ hình
tiên tiến nhất trên Caltech101. Kết quả của chúng tôi (93,42%)
ảnh. Việc tổng hợp được thực hiện trong các cửa sổ ứng cử viên.
vượt quá kỷ lục trước đó (88,54%) một cách đáng kể (4,88%).
4.1 Thuật toán phát hiện Chúng
4 SPP-NET ĐỂ PHÁT HIỆN ĐỐI TƯỢNG tôi sử dụng chế độ tìm kiếm chọn lọc “nhanh” [20] để tạo ra
khoảng 2.000 cửa sổ ứng viên cho mỗi hình ảnh.

Mạng sâu đã được sử dụng để phát hiện đối tượng. Sau đó, chúng tôi thay đổi kích thước hình ảnh sao cho min(w,
Chúng tôi xem xét ngắn gọn phương pháp R-CNN tiên tiến gần đây h) = s và trích xuất các bản đồ đặc trưng từ toàn bộ hình ảnh.
[7]. Trước tiên, R-CNN trích xuất khoảng 2.000 cửa sổ ngày Hiện tại, chúng tôi sử dụng mô hình SPP-net của ZF-5 (được huấn
tháng candi từ mỗi hình ảnh thông qua tìm kiếm có chọn lọc luyện một kích thước). Trong mỗi cửa sổ ứng cử viên, chúng tôi
[20]. Sau đó, vùng hình ảnh trong mỗi cửa sổ được biến dạng sử dụng kim tự tháp không gian 4 cấp (1×1, 2×2, 3×3, 6×6, tổng
thành một kích thước cố định (227×227). Mạng sâu được đào tạo cộng là 50 thùng) để tổng hợp các tính năng. Điều này tạo ra
trước được sử dụng để trích xuất tính năng của từng cửa sổ. Sau
biểu diễn 12.800-d (256×50) cho mỗi cửa sổ. Những biểu diễn này
đó, bộ phân loại SVM nhị phân được huấn luyện về các tính năng được cung cấp cho các lớp được kết nối đầy đủ của mạng. Sau đó,
này để phát hiện. R-CNN tạo ra kết quả có chất lượng hấp dẫn và chúng tôi huấn luyện bộ phân loại SVM tuyến tính nhị phân cho
vượt trội hơn đáng kể so với các phương pháp trước đó. Tuy từng danh mục trên các tính năng này.
nhiên, do R-CNN liên tục áp dụng mạng tích chập sâu cho khoảng Việc triển khai đào tạo SVM của chúng tôi tuân theo [20],
2.000 cửa sổ trên mỗi hình ảnh nên rất tốn thời gian. Trích [7]. Chúng tôi sử dụng cửa sổ thực tế cơ bản để tạo ra các mẫu
xuất tính năng là nút thắt thời gian chính trong thử nghiệm. dương tính. Các mẫu âm tính là những mẫu chồng lên cửa sổ dương
tối đa 30% (được đo bằng tỷ lệ giao nhau trên liên kết (IoU)).
SPP-net của chúng tôi cũng có thể được sử dụng để phát hiện đối tượng.
Chúng tôi chỉ trích xuất các bản đồ đặc trưng từ toàn bộ hình Bất kỳ mẫu âm tính nào sẽ bị loại bỏ nếu nó chồng lên một mẫu
ảnh một lần (có thể ở nhiều tỷ lệ). Sau đó, chúng tôi áp dụng âm tính khác hơn 70%. Chúng tôi áp dụng phương pháp khai thác
cách gộp nhóm kim tự tháp không gian trên mỗi cửa sổ ứng cử âm cứng tiêu chuẩn [23] để huấn luyện SVM. Bước này được lặp
viên của bản đồ đối tượng để gộp một biểu diễn có độ dài cố lại một lần. Chỉ mất chưa đầy 1 giờ để đào tạo SVM cho tất cả
định của cửa sổ này (xem Hình 5). Bởi vì các phép tích chập tốn 20 loại. Trong thử nghiệm, bộ phân loại được sử dụng để chấm
thời gian chỉ được áp dụng một lần nên phương pháp của chúng điểm các cửa sổ ứng cử viên. Sau đó, chúng tôi sử dụng mức
tôi có thể chạy nhanh hơn các cấp độ lớn. triệt tiêu không tối đa [23] (ngưỡng 30%) trên các cửa sổ được
Phương pháp của chúng tôi trích xuất các tính năng theo cửa tính điểm.
sổ từ các vùng của bản đồ tính năng, trong khi R-CNN trích xuất Phương pháp của chúng tôi có thể được cải thiện bằng cách
trực tiếp từ các vùng hình ảnh. Trong các tác phẩm trước đây, trích xuất tính năng đa quy mô. Chúng tôi thay đổi kích thước
Mô hình phần biến dạng (DPM) [23] trích xuất các tính năng từ hình ảnh sao cho min(w, h) = s S = {480, 576, 688, 864,
các cửa sổ trong bản đồ tính năng HOG [24] và phương pháp Tìm 1200} và tính toán các bản đồ đặc trưng của đối số 5 cho từng
kiếm chọn lọc (SS) [20] trích xuất từ các cửa sổ trong bản đồ tỷ lệ. Một chiến lược kết hợp các tính năng từ các thang đo này
tính năng SIFT được mã hóa. Phương pháp phát hiện Overfeat [5] là gộp chúng theo từng kênh. Nhưng theo kinh nghiệm, chúng tôi
cũng trích xuất từ các cửa sổ của bản đồ tính năng tích chập thấy rằng một chiến lược khác mang lại kết quả tốt hơn. Đối với
sâu, nhưng cần xác định trước kích thước cửa sổ. Ngược lại, mỗi cửa sổ ứng cử viên, chúng tôi chọn một tỷ lệ duy nhất s
phương pháp của chúng tôi cho phép trích xuất tính năng trong S sao cho cửa sổ ứng cử viên được chia tỷ lệ có số pixel gần
các cửa sổ tùy ý từ bản đồ tính năng tích chập sâu. nhất với 224×224. Sau đó, chúng tôi chỉ sử dụng các bản đồ đặc
trưng được trích xuất từ tỷ lệ này để tính toán
10
SPP (1-sc) SPP (5-sc) R-CNN

tính năng của cửa sổ này. Nếu thang đo được xác định trước
(ZF-5) (ZF-5) (Alex-5)
đủ dày đặc và cửa sổ xấp xỉ
pool5 43,0 44,9 44,2
hình vuông, phương pháp của chúng tôi gần tương đương với việc thay đổi kích thước
42,5 44,8 46,2
cửa sổ thành 224×224 rồi trích xuất các tính năng
fc6 52,3 53,7 53,1
từ nó. Tuy nhiên, phương pháp của chúng tôi chỉ yêu cầu đưa các
ftfc6 54,5 55,2 54,2
bản đồ đặc trưng một lần (ở mỗi tỷ lệ) từ
ftfc7 58,0 58,5 59,2
toàn bộ hình ảnh, bất kể số lượng ứng cử viên
các cửa sổ. ftfc7 bb thời gian 0,053 giây 0,293 giây 8,96 giây
chuyển đổi (GPU) 0,089 giây 0,089 giây 0,07 giây

Chúng tôi cũng tinh chỉnh mạng được đào tạo trước của mình,
fc thời gian (GPU) 0,142 giây 0,382 giây 9,03 giây
theo dõi [7]. Vì các tính năng của chúng tôi được gộp từ conv5
-
bản đồ tính năng từ các cửa sổ ở mọi kích thước, để đơn giản hóa, tổng thời gian (GPU) tăng tốc (so với RCNN) 64× 24×
chúng tôi chỉ tinh chỉnh các lớp được kết nối đầy đủ.
Trong trường hợp này, lớp dữ liệu chấp nhận độ dài cố định Bảng 9: Kết quả phát hiện (mAP) trên Pascal VOC 2007.
các tính năng được gộp sau conv5, và các lớp fc6,7 và “ft” và “bb” biểu thị hộp tinh chỉnh và giới hạn
lớp fc8 21 chiều mới (thêm một danh mục phủ định) hồi quy.
theo. Các trọng số fc8 được khởi tạo bằng Gaussian
phân phối σ=0,01. Chúng tôi ấn định tất cả tỷ lệ học tập thành
1e-4 và sau đó điều chỉnh thành 1e-5 cho cả ba lớp. Trong lúc SPP (1-sc) SPP (5-sc) R-CNN
tinh chỉnh, các mẫu dương tính là những ping chồng chéo với cửa (ZF-5) (ZF-5) (ZF-5)
ftfc7 54,5 55,2 55,1
sổ thực tế cơ bản bằng [0,5, 1] và
ftfc7 bb 58,0 59,2 59,2
các mẫu âm tính bằng [0,1, 0,5). Trong mỗi lô nhỏ,
thời gian chuyển đổi 14,37 giây
25% số mẫu dương tính. Chúng tôi đào tạo các đợt nhỏ 250k sử dụng 0,053 giây 0,293 giây
(GPU) fc thời 0,089 giây

tốc độ học tập 1e-4 và sau đó là 50k 0,089 giây 0,089 giây
lô nhỏ sử dụng 1e-5. Bởi vì chúng tôi chỉ tinh chỉnh gian (GPU) tổng thời 0,142 giây 0,382 giây 14,46 giây
38× -
các lớp fc, quá trình đào tạo diễn ra rất nhanh và mất khoảng gian (GPU) tăng tốc (so với RCNN) 102×
2 giờ trên GPU (không bao gồm tính năng lưu trước vào bộ nhớ đệm
bản đồ mất khoảng 1 giờ). Cũng theo dõi [7], Bảng 10: Kết quả phát hiện (mAP) trên Pascal VOC 2007,
chúng tôi sử dụng hồi quy hộp giới hạn để xử lý hậu kỳ sử dụng cùng một mô hình SPP được đào tạo trước (ZF-5).
cửa sổ dự đoán Các tính năng được sử dụng cho hồi quy
là các tính năng tổng hợp từ conv5 (như một đối tác
của các tính năng pool5 được sử dụng trong [7]). Các cửa sổ được sử dụng
trong trường hợp này, phương pháp của chúng tôi và R-CNN có thể so sánh được
đối với việc đào tạo hồi quy là những điều trùng lặp với
điểm trung bình. Kết quả R-CNN được tăng cường bởi
cửa sổ thực tế ít nhất là 50%.
mô hình được đào tạo trước này. Điều này là do tốt hơn
kiến trúc của ZF-5 hơn AlexNet, và cũng bởi vì
4.2 Kết quả phát hiện của việc tổng hợp nhiều cấp độ của SPPnet (nếu không sử dụng SPP
ZF-5, kết quả R-CNN sẽ giảm). Bảng 11 cho thấy
Chúng tôi đánh giá phương pháp của chúng tôi về nhiệm vụ phát hiện
kết quả của từng hạng mục.
Bộ dữ liệu Pascal VOC 2007. Bảng 9 cho thấy kết quả của chúng tôi
Bảng 11 cũng bao gồm các phương pháp bổ sung. chọn lọc
trên các lớp khác nhau, bằng cách sử dụng thang đo 1 (s=688) hoặc thang đo 5.
Tìm kiếm (SS) [20] áp dụng kết hợp kim tự tháp không gian trên
Ở đây kết quả R-CNN được báo cáo trong [7] bằng cách sử dụng
Bản đồ tính năng SIFT. DPM [23] và Vùng [39] là
AlexNet [3] với 5 lớp đối lưu. Sử dụng hồ bơi5
dựa trên các tính năng HOG [24]. Phương pháp vùng
các lớp (trong trường hợp của chúng tôi là các tính năng gộp), kết quả của chúng tôi
cải thiện lên 46,1% [8] bằng cách kết hợp nhiều tính năng khác
(44,9%) tương đương với kết quả của R-CNN (44,2%).
nhau bao gồm đối lưu5. DetectorNet [40] đào tạo sâu
Nhưng bằng cách sử dụng các lớp fc6 không được tinh chỉnh , kết quả của chúng tôi là
mạng xuất ra mặt nạ đối tượng theo pixel. Cái này
kém hơn. Giải thích là các lớp fc của chúng tôi được huấn luyện
phương pháp chỉ cần áp dụng mạng sâu một lần
trước bằng cách sử dụng các vùng hình ảnh, trong khi phát hiện
cho toàn bộ hình ảnh, như trường hợp của phương pháp của chúng tôi. Nhưng
trường hợp chúng được sử dụng trên các vùng bản đồ đặc trưng. Các
phương pháp này có mAP thấp hơn (30,5%).
các vùng bản đồ đặc trưng có thể có sự kích hoạt mạnh mẽ gần
ranh giới cửa sổ, trong khi các vùng hình ảnh có thể
không. Sự khác biệt về cách sử dụng này có thể được giải quyết bằng
4.3 Độ phức tạp và thời gian chạy
tinh chỉnh. Bằng cách sử dụng các lớp fc được tinh chỉnh (ftfc6,7), chúng ta
kết quả tương đương hoặc tốt hơn một chút so với Mặc dù có độ chính xác tương đương, phương pháp của chúng tôi là
kết quả tinh chỉnh của R-CNN. Sau khi giới hạn hộp nhanh hơn nhiều so với R-CNN. Độ phức tạp của tính toán tính năng
hồi quy, kết quả 5 thang đo của chúng tôi (59,2%) tốt hơn 0,7% tích chập trong R-CNN là O(n ·
hơn R-CNN (58,5%) và kết quả 1 thang đo của chúng tôi (58,0%) 2272 ) với số cửa sổ n ( 2000). Độ phức tạp của phương pháp của
tệ hơn 0,5%. 2
chúng tôi là O(r · s ) ở tỷ lệ s, trong đó
Trong Bảng 10, chúng tôi so sánh thêm với R-CNN bằng cách sử r là tỷ lệ khung hình. Giả sử r là khoảng 4/3. bên trong
dụng cùng một mô hình SPPnet được đào tạo trước (ZF-5). TRONG phiên bản thang đo đơn khi s = 688, độ phức tạp này là
11
phương pháp mAP areo xe đạp chim thuyền chai xe buýt xe mèo ghế bò bàn chó ngựa mbike người nhà máy cừu sofa xe lửa TV
DPM [23] 33,7 33,2 60,3 10,2 16,1 27,3 54,3 58,2 23,0 20,0 24,1 26,7 12,7 58,1 48,2 43,2 12,0 21,1 36,1 46,0 43,5
SS [20] 33,8 43,5 46,5 1 0,4 12,0 9,3 49,4 53,7 39,4 12,5 36,9 42,2 26,4 47,0 52,4 23,5 12,1 29,9 36,3 42,2 48,8
Vùng [39] 41,7 54,2 52,0 20,3 24,0 20,1 55,5 68,7 42,6 19,2 44,2 49,1 26,6 57,0 54,5 43,4 16,4 36,6 37,7 59,4 52,3 Nợ
ròng [40] 30,5 29,2 35,2 19,4 16,7 3,7 53,2 50,2 27,2 10,2 34,8 30,2 28,2 46,6 41,7 26,2 10,3 32,8 26,8 39,8 47,0
RCNN ftfc7 (A5) 54,2 64,2 69,7 50,0 41,9 32,0 62,6 71,0 60,7 32,7 58,5 46,5 56,1 60,6 66,8 54,2 31,5 52,8 48,9 57,9 64,7
RCNN ftfc7 ( ZF5) 55,1 64,8 68,4 47,0 39,5 30,9 59,8 70,5 65,3 33,5 62,5 50,3 59,5 61,6 67,9 54,1 33,4 57,3 52,9 60,2 62,9
SPP ftfc7 (ZF5) 55,2 65,5 65,9 51,7 38,4 32,7 62,6 68,6 69,7 33,1 66,6 53,1 58,2 63,6 68,8 50,4 27,4 53,7 48,2 61,7 64,7
RCNN bb (A5) 58,5 68,1 72,8 56,8 43,0 36,8 66,3 74,2 67,6 34,4 63,5 54,5 61,2 69,1 68,6 58,7 33,4 62,9 51,1 62,5 64,8 RCNN
bb (ZF5) 59,2 68,4 74,0 54,0 40,9 35,2 64,1 74,4 69,8 35,5 66,9 53,8 64,2 69,9 69,6 58,9 36,8 63,4 56 0,0 62,8 64,9 SPP bb
(ZF5) 59,2 68,6 69,7 57,1 41,2 40,5 66,3 71,3 72,5 34,4 67,3 61,7 63,1 71,0 69,8 57,6 29,7 59,0 50,2 65,2 68,0
Bảng 11: So sánh kết quả phát hiện trên Pascal VOC 2007.
phương pháp mAP areo xe đạp chim thuyền chai xe buýt xe mèo ghế bò bàn chó ngựa mbike người nhà máy cừu sofa xe lửa TV
SPP-net (1) 59,2 68,6 69,7 57,1 41,2 40,5 66,3 71,3 72,5 34,4 67,3 61,7 63,1 71,0 69,8 57,6 29,7 59,0 50,2 65,2 68,0 SPP-
net (2) 59 .1 65,7 71,4 57,4 42,4 39,9 67,0 71,4 70,6 32,4 66,7 61,7 64,8 71,7 70,4 56,5 30,8 59,9 53,2 63,9 64,6 kết hợp
60,9 68,5 71,7 58,7 41,9 42,5 67,7 72,1 73,8 34,7 67,0 63,4 66,0 72,5 71,3 58,9 32,8 60,9 56,1 67,9 68,8
Bảng 12: Kết quả phát hiện VOC 2007 sử dụng tổ hợp mô hình. Kết quả của cả hai mô hình đều sử dụng “ftfc7 bb”.
khoảng 1/160 của R-CNN; ở phiên bản 5 tỷ lệ, độ phức tạp này bằng xem xét rằng EdgeBox không được sử dụng để đào tạo.
khoảng 1/24 của R-CNN. Sau đó, chúng tôi sử dụng cả SS và EdgeBox làm đề xuất trong giai
Trong Bảng 10, chúng tôi cung cấp một so sánh hợp lý về thời đoạn đào tạo và chỉ áp dụng EdgeBox trong giai đoạn thử nghiệm.
gian chạy tính toán tính năng bằng cách sử dụng cùng một mô hình MAP là 56,3 nếu không có hồi quy hộp giới hạn, tốt hơn 55,2 (Bảng
SPP (ZF-5). Việc triển khai R CNN là từ mã được xuất bản bởi các 10) do có thêm mẫu đào tạo. Trong trường hợp này, thời gian thử
tác giả triển khai trong Caffe [35]. Chúng tôi cũng triển khai nghiệm tổng thể là 0,5 giây cho mỗi hình ảnh bao gồm tất cả các
tính toán tính năng của mình trong Caffe. Trong Bảng 10, chúng tôi bước (đề xuất và công nhận). Điều này làm cho phương pháp của chúng
đánh giá thời gian trung bình của 100 hình ảnh VOC ngẫu nhiên sử tôi trở nên thiết thực cho các ứng dụng trong thế giới thực.
dụng GPU.
R-CNN mất 14,37 giây cho mỗi hình ảnh cho các kết cấu, trong khi
phiên bản 1 tỷ lệ của chúng tôi chỉ mất 0,053 giây cho mỗi hình
4.4 Kết hợp mô hình để phát hiện
ảnh. Vì vậy, của chúng tôi nhanh hơn R-CNN 270×. Phiên bản 5 tỷ lệ
của chúng tôi mất 0,293 giây cho mỗi hình ảnh để tạo phức, nhanh Kết hợp mô hình là một chiến lược quan trọng để tăng cường độ
hơn 49 lần so với R-CNN. Việc tính toán đặc trưng tích chập của chính xác phân loại dựa trên CNN [3]. Chúng tôi đề xuất một phương
chúng tôi nhanh đến mức thời gian tính toán của các lớp fc chiếm pháp kết hợp đơn giản để phát hiện.
một phần đáng kể. Bảng 10 cho thấy thời gian GPU tính toán các đặc Chúng tôi huấn luyện trước một mạng khác trong ImageNet, sử dụng
trưng 4.096-d fc7 là 0,089 giây cho mỗi hình ảnh. Xem xét cả tính cùng cấu trúc nhưng các cách khởi tạo ngẫu nhiên khác nhau. Sau
năng tích chập và kết nối đầy đủ, phiên bản 1 tỷ lệ của chúng tôi đó chúng tôi lặp lại thuật toán phát hiện ở trên.
nhanh hơn R-CNN 102 lần và kém hơn 1,2%; phiên bản 5 thang đo của Bảng 12 (SPP-net (2)) thể hiện kết quả của mạng lưới này. MAP của
chúng tôi nhanh hơn 38 lần và có kết quả tương đương. nó tương đương với mạng đầu tiên (59,1% so với 59,2%) và vượt trội
hơn mạng đầu tiên ở 11 danh mục.
Chúng tôi cũng so sánh thời gian chạy trong Bảng 9 trong đó R-
CNN sử dụng AlexNet [3] như trong bài báo gốc [7]. Phương pháp của Với hai mô hình, trước tiên chúng tôi sử dụng một trong hai mô
chúng tôi nhanh hơn từ 24× đến 64×. Lưu ý rằng AlexNet [3] có cùng hình để chấm điểm tất cả các cửa sổ ứng cử viên trên ảnh thử nghiệm.
số lượng bộ lọc như ZF 5 của chúng tôi trên mỗi lớp đối lưu. Sau đó, chúng tôi thực hiện triệt tiêu không tối đa đối với sự kết
AlexNet nhanh hơn vì nó sử dụng tính năng phân tách trên một số hợp của hai bộ cửa sổ ứng cử viên (với điểm số của chúng). Một cửa
lớp, được thiết kế cho hai GPU trong [3]. sổ tự tin hơn được đưa ra bởi một phương pháp có thể ngăn chặn
những cửa sổ kém tin cậy hơn được đưa ra bởi phương pháp kia. Sau
Chúng tôi tiếp tục đạt được một hệ thống đầy đủ hiệu quả với sự khi kết hợp, mAP được tăng lên 60,9% (Bảng 12). Ở 17 trên tổng số
trợ giúp của phương pháp đề xuất cửa sổ gần đây [25]. Đề xuất Tìm 20 danh mục, sự kết hợp hoạt động tốt hơn từng mô hình riêng lẻ.
kiếm Chọn lọc (SS) [20] mất khoảng 1-2 giây cho mỗi hình ảnh trên Điều này cho thấy hai mô hình này bổ sung cho nhau.
CPU. Phương pháp của EdgeBoxes [25] chỉ mất 0,2 giây. Lưu ý rằng
chỉ cần sử dụng phương pháp đề xuất nhanh trong quá trình thử
nghiệm là đủ. Sử dụng cùng một mô hình được đào tạo như trên (sử Chúng tôi phát hiện thêm rằng tính bổ sung chủ yếu là do các
dụng SS), chúng tôi chỉ kiểm tra các vị trí chuyên nghiệp do lớp tích chập. Chúng tôi đã cố gắng kết hợp hai kết quả tinh chỉnh
EdgeBoxes tạo ra. MAP là 52,8 không có hồi quy hộp giới hạn. Điều được khởi tạo ngẫu nhiên của cùng một mô hình tích chập và không
này hợp lý tìm thấy kết quả nào.

12
thứ hạng đội bản đồ

4.5 Phát hiện ILSVRC 2014
1 NUS 37,21
Nhiệm vụ phát hiện ILSVRC 2014 [26] bao gồm 200 2 của chúng tôi 35.11
Thể loại. Có hình ảnh 450k/20k/40k trong 3 tia UV 32.02

-
tập huấn luyện/xác nhận/kiểm tra. Chúng tôi tập trung vào nhiệm vụ (mô hình đơn của chúng tôi) (31,84)
4 Đông Nam-CASIA 30,47
của rãnh chỉ dữ liệu được cung cấp (danh mục 1000
5 1-HKUST 28,86
Dữ liệu đào tạo CLS không được phép sử dụng).
6 CASIA CRIPAC 2 28,61
Có ba điểm khác biệt chính giữa bộ dữ liệu huấn luyện phát hiện
(DET) và phân loại (CLS),

Bảng 13: Kết quả thi đấu ILSVRC 2014
điều này ảnh hưởng rất lớn đến chất lượng trước đào tạo. Đầu tiên,
phát hiện (bản nhạc chỉ cung cấp dữ liệu) [26]. Tốt nhất
dữ liệu đào tạo DET chỉ bằng 1/3 CLS
mục nhập của mỗi đội được liệt kê.
dữ liệu huấn luyện. Đây dường như là một thách thức cơ bản của
nhiệm vụ DET chỉ cung cấp dữ liệu. Thứ hai,
số danh mục của DET là 1/5 của CLS. Vượt qua

NUS, sử dụng thông tin theo ngữ cảnh.
vấn đề này, chúng tôi khai thác danh mục con được cung cấp
nhãn2 để đào tạo trước. Có tổng cộng 499 danh mục con không chồng Hệ thống của chúng tôi vẫn cho thấy lợi thế lớn về tốc độ
chéo (tức là các nút lá trong cho tập dữ liệu này. Mô hình duy nhất của chúng tôi mất 0,6 giây
phân cấp danh mục được cung cấp). Vì vậy, chúng tôi đào tạo trước 499- (0,5 cho chuyển đổi, 0,1 cho fc, không bao gồm đề xuất) trên mỗi
mạng danh mục trên tập huấn luyện DET. Thứ ba, hình ảnh thử nghiệm trên GPU trích xuất các tính năng tích chập
sự phân bố của quy mô đối tượng là khác nhau giữa từ tất cả 5 thang đo. Sử dụng cùng một mô hình, phải mất 32
Bộ huấn luyện DET/CLS. Quy mô đối tượng chiếm ưu thế trong giây cho mỗi hình ảnh theo cách của RCNN. Với giá 40k
CLS có chiều dài khoảng 0,8 hình ảnh, nhưng trong DET thì kiểm tra hình ảnh, phương pháp của chúng tôi cần 8 GPU·giờ để
khoảng 0,5. Để giải quyết sự khác biệt về quy mô, chúng tôi thay đổi kích thước tính toán các đặc điểm tích chập, trong khi RCNN sẽ
mỗi ảnh huấn luyện có giá trị min(w, h) = 400 (thay vì yêu cầu 15 GPU·ngày.
256) và cắt ngẫu nhiên các khung nhìn 224×224 để đào tạo.
Cây trồng chỉ được sử dụng khi nó chồng lên mặt đất 5 KẾT LUẬN
đối tượng sự thật ít nhất 50%. SPP là một giải pháp linh hoạt để xử lý các quy mô khác nhau,
Chúng tôi xác minh tác động của việc đào tạo trước trên Pascal VOC kích thước và tỷ lệ khung hình. Những vấn đề này rất quan trọng trong
2007. Đối với cơ sở về CLS trước khi đào tạo, chúng tôi xem xét nhận dạng trực quan, nhưng nhận được ít sự quan tâm trong
các tính năng của pool5 (mAP 43,0% trong Bảng 9). Đã thay thế bối cảnh của các mạng sâu. Chúng tôi đã đề xuất giải pháp đào tạo
với mạng gồm 200 danh mục được đào tạo trước về DET, mạng sâu bằng kim tự tháp không gian
mAP giảm đáng kể xuống còn 32,7%. Danh mục 499 lớp tổng hợp. Mạng SPP thu được cho thấy độ chính xác vượt trội
mạng được đào tạo trước cải thiện kết quả lên 35,9%. trong các nhiệm vụ phân loại/phát hiện và
Điều thú vị là ngay cả khi lượng dữ liệu huấn luyện tăng tốc đáng kể việc phát hiện dựa trên DNN. nghiên cứu của chúng tôi
không tăng, việc đào tạo một mạng lưới gồm nhiều loại phân loại cũng cho thấy rằng nhiều kỹ thuật/sự hiểu biết sâu sắc đã được chứng minh qua thời gian
hơn sẽ nâng cao chất lượng tính năng. Cuối cùng là tập luyện với trong thị giác máy tính vẫn có thể đóng vai trò quan trọng trong
min(w, h) = 400 thay vì 256 cải thiện hơn nữa nhận dạng dựa trên mạng sâu.
mAP lên 37,8%. Mặc dù vậy, chúng tôi thấy rằng vẫn còn một
khoảng cách đáng kể so với kết quả trước khi đào tạo CLS. Cái này PHỤ LỤC A
cho thấy tầm quan trọng của dữ liệu lớn đối với việc học sâu.
Trong phần phụ lục, chúng tôi mô tả một số cách thực hiện
Đối với ILSVRC 2014, chúng tôi đào tạo mạng Overfeat 7 SPP-net
chi tiết:
gồm 499 danh mục. Các bước còn lại tương tự như
Vụ việc VOC 2007 Theo [7], chúng tôi sử dụng xác nhận Phép trừ trung bình.
được thiết lập để tạo các mẫu dương tính/âm tính, với Hình ảnh đào tạo/kiểm tra được cắt xén 224×224 là
cửa sổ được đề xuất bởi chế độ tìm kiếm nhanh có chọn lọc. thường được xử lý trước bằng cách trừ đi giá trị trung bình trên mỗi pixel
Tập huấn luyện chỉ đóng góp các mẫu tích cực [3]. Khi hình ảnh đầu vào ở bất kỳ kích thước nào, hình ảnh trung
bằng cách sử dụng các cửa sổ sự thật mặt đất. Chúng tôi tinh chỉnh fc bình có kích thước cố định sẽ không được áp dụng trực tiếp. bên trong
các lớp và sau đó huấn luyện các SVM bằng cách sử dụng các mẫu trong Tập dữ liệu ImageNet, chúng tôi làm cong hình ảnh trung bình 224×224
cả tập xác nhận và tập huấn luyện. Hộp giới hạn đến kích thước mong muốn và sau đó trừ đi. Trong Pascal VOC
hồi quy được đào tạo trên bộ xác nhận. 2007 và Caltech101, chúng tôi sử dụng giá trị trung bình không đổi (128)
Mô hình duy nhất của chúng tôi dẫn đến 31,84% mAP trong trong tất cả các thí nghiệm.
Bộ thử nghiệm ILSVRC 2014 [26]. Chúng tôi kết hợp sáu tương tự
Thực hiện các thùng gộp.
mô hình sử dụng chiến lược được giới thiệu trong bài viết này.
Chúng tôi sử dụng triển khai sau đây để xử lý tất cả
MAP là 35,11% trong bộ thử nghiệm [26]. Kết quả này
thùng rác khi áp dụng mạng. biểu thị chiều rộng
xếp thứ 2 trong bảng chỉ cung cấp dữ liệu của ILSVRC
và chiều cao của bản đồ đối tượng conv5 (có thể là
2014 (Bảng 13) [26]. Kết quả chiến thắng là 37,21% từ
ảnh đầy đủ hoặc một cửa sổ) dưới dạng w và h. Đối với cấp độ trung
bình của pyra có n×n thùng, thùng thứ (i, j) nằm trong
2. Được phép sử dụng nhãn danh mục con được cung cấp, như được giải thích
tôi 1 Tôi
j 1 j
đã được nêu rõ trong phần giới thiệu cuộc thi. phạm vi của [ N
cái, nw] × [ N
h, N h]. Một cách trực quan,
13
người:3,29 người:2,42
người:1,05
người:0,76
người: 0,92
chậu kiến:0,3 3 người:2,69

người pn:0,22
cây trồng trong chậu:0,78

cá nhân:0,3 8
xe buýt: 2,01
người: 1,48
bò: 0,80
người: 1,20
con chó:0,99
con chó:0,37
người: 0,79
cừu:1,52
b ottle:0,2 4 người:4.16
ô tô: 0,93
cá nhân: 0,40
người: 1,05
người: 1,16 người:3,35
người: 2,39
xe đạp: 0,67
tỷ lệ n:0,32
ghế: 0,21
người:2.11
xe đạp: 2,71
bàn ăn:0,78 ngựa: 1,68
xe đạp:2.04 ngựa: 0,61
chim:1,39
chim: 0,84
xe đạp: 2,85
màn hình tv:1.77

ghế sofa: 0,55
máy bay: 0,93

ngựa: 1,29
cây trồng trong chậu:0,73 người: 1,52
xe buýt: 1,42
máy bay:1,01
a erop l ane:0.45 người: 1,53
người: 0,73
người:1,23
máy bay: 0,91
máy bay:máy bay: 1,40
0,79
ghế:4,79
người: 0,27 người: 1,18
máy bay: máy
0,57bay: 0,54 người: 0,22 bàn ăn:0,96
chai: 1,20
người:3,29

máy bay: 0,94

chai: 1,15
người: 1,79
người: 1,36
người:1,10
xe máy:0,74
xe máy:1.11
người: 0,93
người: 0,68
di N trong gtab le:0.34

người: 0,91
ghế:0,87
ch ai r:0.3 3
ghế:0,89
người:1,91
ô tô: 0,12
ngựa:1,73 cừu:1,17 ô tô: 1,39

xe buýt: 0,56
ô tô: 0,03
cừu:0,81
c ar:0,50
ô tô: 0,11
ô tô: 1,95
người: 0,85 ô tô: 0,04

cừu:1,81 ghế sofa: 0,58
ô tô: 3,24 ô tô: 3,98

ghế sofa: 0,22
chim: 1,47
cây trồng trong chậu:0,20 cây trồng trong chậu:0,35
thứ hai:0,24
người:3,20
người: 1,52
thuyền: 0,60
c ar:3.45
bò: 1,31 ow:1.86 bò:1,39

bò: 2,36
bò:1,88
bò:1,82
ô
tô:1,31 người:1,60 người:1,02
người: 0,62
c tại: 0,52
tàu: 0,31
màn hình tv:2.24
tàu: 1,62
người: 0,86
ghế sofa:0,4 1
người: 2,15
ô tô: 2,52
Hình 6: Ví dụ về kết quả phát hiện “SPP-net ftfc7 bb” trên bộ thử nghiệm Pascal VOC 2007 (59,2% mAP).
Tất cả các cửa sổ có điểm > 0 đều được hiển thị. Danh mục/điểm dự đoán được đánh dấu. Màu cửa sổ được liên kết với danh
mục được dự đoán. Những hình ảnh này được chọn lọc thủ công vì chúng tôi thấy chúng ấn tượng.
Truy cập trang web dự án của chúng tôi để xem tất cả 4.952 kết quả phát hiện trong bộ thử nghiệm.
nếu cần làm tròn, chúng tôi thực hiện thao tác sàn ở ranh pixel. Việc ánh xạ rất phức tạp do phần đệm của tất cả các
giới bên trái/trên và trần ở ranh giới bên phải/dưới. lớp chập và lớp gộp. Để đơn giản hóa việc triển khai,
trong quá trình triển khai, chúng tôi đệm p/2 pixel cho
một lớp có kích thước bộ lọc là p. Như vậy, đối với một
Ánh xạ một cửa sổ tới các bản đồ đặc trưng.
phản hồi có tâm tại (x , y ) , trường tiếp nhận hiệu quả
Trong thuật toán phát hiện (và thử nghiệm nhiều chế độ
của nó trong miền hình ảnh được tập trung tại (x, y) =
xem trên bản đồ đối tượng), một cửa sổ được đưa ra trong
(Sx , Sy ) trong đó S là tích của tất cả các bước trước
miền hình ảnh và chúng tôi sử dụng nó để cắt các bản đồ đó. Trong mô hình của chúng tôi, S = 16 cho ZF-5 trên
đối tượng tích chập (ví dụ: đối lưu5) đã được lấy mẫu phụ
conv5 và S = 12 cho Overfeat-5/7 trên conv5/7. Cho một cửa
nhiều lần . Vì vậy chúng ta cần căn chỉnh cửa sổ trên bản
sổ trong miền hình ảnh, chúng ta chiếu ranh giới bên trái
đồ đặc điểm.
(trên cùng) theo: x = x/S + 1 và ranh giới bên phải (dưới)
Trong quá trình triển khai, chúng tôi chiếu điểm góc x = x/S 1. Nếu phần đệm không phải là p/2, chúng ta cần
của cửa sổ lên một pixel trong bản đồ đặc điểm, sao cho thêm phần bù thích hợp cho x.
điểm góc này trong miền hình ảnh gần nhất với tâm trường
tiếp nhận của bản đồ đặc điểm đó
14
NGƯỜI GIỚI THIỆU [31] M. Lin, Q. Chen và S. Yan, “Mạng trong mạng,” arXiv:1312.4400, 2013.
[1] Y. LeCun, B. Boser, JS Denker, D. Henderson, RE Howard, W. Hubbard và LD [32] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan,
Jackel, “Tương truyền ngược áp dụng cho nhận dạng mã zip viết tay,” V. Vanhoucke và A. Rabinovich, “Đi sâu hơn với các kết cấu,”
Tính toán thần kinh, 1989. arXiv:1409.4842 , 2014.
[2] J. Đặng, W. Dong, R. Socher, L.-J. Li, K. Li và L. Fei Fei, “Imagenet: [33] K. Simonyan và A. Zisserman, “Mạng tích chập rất sâu để nhận dạng hình
Cơ sở dữ liệu hình ảnh phân cấp quy mô lớn,” trong CVPR, 2009. ảnh quy mô lớn,” arXiv:1409.1556, [34] M. Oquab, L. Bottou, I. Laptev,
2014.
[3] A. Krizhevsky, I. Sutskever và G. Hinton, “Phân loại Imagenet với mạng J. Sivic và cộng sự, “Học và chuyển giao các cách biểu diễn hình ảnh cấp
lưới thần kinh tích chập sâu,” trong NIPS, 2012. trung bằng cách sử dụng mạng nơ ron tích chập,” trong CVPR, 2014.
[4] MD Zeiler và R. Fergus, “Trực quan hóa và hiểu các mạng lưới thần kinh [35] Y. Jia, “Caffe: Kiến trúc tích chập nguồn mở để nhúng tính năng nhanh,”
tích chập,” arXiv:1311.2901, 2013. http://caffe.berkeleyvision.org/, 2013.
[5] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus và Y. LeCun,
“Overfeat: Nhận dạng, bản địa hóa và phát hiện tích hợp bằng cách sử [36] AG Howard, “Một số cải tiến về phân loại hình ảnh dựa trên mạng thần
dụng mạng chập,” arXiv:1312.6229, kinh tích chập sâu,” ArXiv:1312.5402, 2013.
2013.
[6] AVK Chatfield, K. Simonyan và A. Zisserman, “Sự trở lại của ma quỷ một [37] H. Jegou, F. Perronnin, M. Douze, J. Sanchez, P. Perez và C. Schmid,
cách chi tiết: Đi sâu vào các mạng phức tạp,” trong ArXiv:1405.3531, “Tổng hợp các bộ mô tả hình ảnh cục bộ thành các mã nhỏ gọn,” TPAMI,
2014. tập. 34, không. 9, trang 1704–
1716, 2012.
[7] R. Girshick, J. Donahue, T. Darrell và J. Malik, “Hệ thống phân cấp tính
[38] C.-C. Chang và C.-J. Lin, “Libsvm: thư viện dành cho máy vectơ hỗ trợ,”
năng phong phú để phát hiện đối tượng chính xác và phân đoạn ngữ
Giao dịch ACM về Hệ thống và Công nghệ Thông minh (TIST), 2011.
nghĩa,” trong CVPR, 2014.
[8] WY Zou, X. Wang, M. Sun và Y. Lin, “Phát hiện đối tượng chung với các
[39] X. Wang, M. Yang, S. Zhu và Y. Lin, “Các vùng dành cho thuốc chung
mô hình và vùng thần kinh dày đặc,” trong ArXiv: 1404.4316, 2014.
phát hiện đối tượng,” trong ICCV, 2013.
[40] C. Szegedy, A. Toshev và D. Erhan, “Mạng lưới thần kinh sâu để phát
[9] NHƯ Razavian, H. Azizpour, J. Sullivan và S. Carlsson, “Cnn có sẵn các
hiện đối tượng,” trong NIPS, 2013.
tính năng sẵn có: Một cơ sở đáng kinh ngạc để nhận dạng,” trong CVPR
2014, Hội thảo DeepVision, 2014.
[10] Y. Taigman, M. Yang, M. Ranzato và L. Wolf, “Deepface: Thu hẹp khoảng
THAY ĐỔI arXiv
cách với hiệu suất ở cấp độ con người trong việc xác minh khuôn mặt,”
trong CVPR, 2014.
[11] N. Zhang, M. Paluri, M. Ranzato, T. Darrell và L. Bourdevr, “Panda: Đặt v1. Báo cáo kỹ thuật ban đầu cho bài báo ECCV 2014.
các mạng liên kết để lập mô hình thuộc tính sâu,” trong CVPR, 2014.
arXiv v2. Đã gửi phiên bản cho TPAMI. Bao gồm các thử
[12] Y. Gong, L. Wang, R. Guo và S. Lazebnik, “Tổng hợp các tính năng kích
hoạt tích chập sâu theo nhiều quy mô,” trong ArXiv:1403.1840, 2014. nghiệm bổ sung về SPP trên các kiến trúc khác nhau. Bao
gồm các chi tiết cho ILSVRC 2014.
[13] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng và T.
Darrell, “Decaf: Một tính năng kích hoạt tích chập sâu để nhận dạng
arXiv v3. Phiên bản được chấp nhận cho TPAMI. Bao gồm các
hình ảnh chung,” arXiv:1310.1531, 2013.
[14] K. Grauman và T. Darrell, “Hạt nhân khớp kim tự tháp: Phân loại phân mạng có R-CNN sử dụng cùng kiến trúc.
biệt đối xử với các tập hợp đặc điểm hình ảnh,” trong ICCV, 2005.
Bao gồm các thử nghiệm phát hiện bằng EdgeBoxes. arXiv
[15] S. Lazebnik, C. Schmid và J. Ponce, “Ngoài các đặc điểm: Kết hợp kim
tự tháp không gian để nhận biết các danh mục cảnh quan tự nhiên,” trong v4. Đã sửa đổi “Ánh xạ cửa sổ tới Bản đồ đặc điểm” trong
CVPR, 2006.
Phụ lục để thực hiện dễ dàng hơn.
[16] J. Sivic và A. Zisserman, “Video google: phương pháp truy xuất văn bản
để khớp đối tượng trong video,” trong ICCV, 2003.
[17] J. Yang, K. Yu, Y. Gong và T. Huang, “Đối sánh kim tự tháp không gian
tuyến tính bằng cách sử dụng mã hóa thưa thớt để phân loại hình ảnh,”
trong CVPR, 2009.
[18] J. Wang, J. Yang, K. Yu, F. Lv, T. Huang và Y. Gong, “Mã hóa tuyến
tính hạn chế cục bộ để phân loại hình ảnh,” trong CVPR,
2010.
`
[19] F. Perronnin, J. Sanchez và T. Mensink, “Cải thiện hạt nhân Fisher để
phân loại hình ảnh quy mô lớn,” trong ECCV, 2010.
[20] KE van de Sande, JR Uijlings, T. Gevers và AW Smeul ders, “Phân đoạn
như tìm kiếm có chọn lọc để nhận dạng đối tượng,” trong ICCV, 2011.
[21] L. Fei-Fei, R. Fergus và P. Perona, “Học các mô hình trực quan tổng
quát từ một số ví dụ đào tạo: Phương pháp tiếp cận Bayes gia tăng đã
được thử nghiệm trên 101 danh mục đối tượng,” CVIU, 2007.
[22] M. Everingham, L. Van Gool, CKI Williams, J. Winn và A. Zisserman, “Kết

quả của Thử thách các lớp đối tượng trực quan PASCAL 2007 (VOC2007),”
2007.
[23] PF Felzenszwalb, RB Girshick, D. McAllester và D. Ra manan, “Phát hiện
đối tượng bằng các mô hình dựa trên bộ phận được đào tạo phân biệt,”
PAMI, 2010.
[24] N. Dalal và B. Triggs, “Biểu đồ của độ dốc định hướng cho
phát hiện con người,” trong CVPR,
` 2005.
[25] CL Zitnick và P. Dollar, “Hộp cạnh: Định vị đề xuất đối tượng từ các
cạnh,” trong ECCV, 2014.
[26] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang,
A. Karpathy, A. Khosla, M. Bernstein và cộng sự, “Imagenet quy mô lớn
thách thức nhận dạng hình ảnh,” arXiv:1409.0575, 2014.
[27] K. Chatfield, V. Lempitsky, A. Vedaldi và A. Zisserman, “Điều ác nằm ở

các chi tiết: đánh giá về các phương pháp mã hóa tính năng gần đây,”
trong BMVC, 2011.
[28] A. Coates và A. Ng, “Tầm quan trọng của mã hóa so với đào tạo bằng mã
hóa thưa thớt và lượng tử hóa vectơ,” trong ICML, 2011.
[29] DG Lowe, “Các đặc điểm hình ảnh đặc biệt từ các điểm chính không thay
đổi tỷ lệ,” IJCV, 2004.
[30] JC van Gemert, J.-M. Geusebroek, CJ Veenman và AW
Smeulders, “Sách mã hạt nhân để phân loại cảnh,” trong ECCV, 2008.

Nhóm kim tự tháp không gian trong tích chập sâu Mạng nhận dạng hình ảnh

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Nhóm kim tự tháp không gian trong tích chập sâu Mạng nhận dạng hình ảnh

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Nhóm kim tự tháp không gian trong tích chập sâu

hơn (sâu hơn). cái cuối cùng

bộ lọc #175 bộ lọc #66

bộ lọc #55 bộ lọc #118

các lớp được kết nối đầy đủ (fc6, fc7)

hình ảnh đầu vào của lớp

Words truyền thống.

kích thước cố định chia sẻ các tham số.

Việc cắt xén là nhằm mục đích tăng cường dữ liệu.

Đào tạo đa kích thước

kích thước bản đồ 55 × 27 × 27 13 × 13 13 × 13 13 × 13

Convnet*-5 55 96 × 112 , đường 4 2 256 × 5 2 384 × 3 2 384 × 3 256 × 3 2

kích thước bản đồ 55 × 55 27 × 27 13 × 13 13 × 13 13 × 13

Chiến thắng-5/7 96 × 7 2 , chuỗi 2 2 256 × 5 2 512 × 3 2 512 × 3 2 512 × 3 2 512 × 3 512 × 3 2

kích thước bản đồ 36 × 36 18 × 18 18 × 18 18 × 18 18 × 18 18 × 18 18 × 18

lỗi hàng đầu (%)

(a) không có SPP 35,99 34,93 34.13 32.01

lỗi top 5 (%)

(1,12) 13,33 (0,59) 12,33 (1,19) 10,95 (1,02)

SPP bật kiểm tra xem top-1 val

so sánh về độ chính xác của thử nghiệm một lượt xem là

So sánh Bảng 2 và Bảng 3, chúng tôi thấy rằng

pháp Krizhevsky et al. [3] 1 10 40,7 18,2

Howard (cơ sở) [36] 3 162 37,0 15,8

Howard (độ phân giải cao) [36] 3 162 36,8 16.2

Zeiler & Fergus (ZF) (nhanh) [4] 1 10 38,4 16,5

Zeiler & Fergus (ZF) (lớn) [4] 1 10 37,5 16.0

của chúng tôi (SPP 1 10 29,68 10:95

thứ hạng đội bài kiểm tra top 5

(Một) (b) (d) (e)

cắt cắt đầy đầy đầy

kích cỡ 224×224 224×224 224×- 392×- 364×-

69,14 68,76 70,82 71,67 76,09

(Một) (b) (c) (d)

cắt cắt đầy đầy

kích cỡ 224×224 224×224 224×- 224×-

87,98 87,60 89,46 91,46

fc7/9 85,30 86.10 87,08 90,00

† VQ [15] 56,07 74,41±1,0

† LLC [18] 57,66 76,95±0,4 biểu diễn có độ dài cố định

Zeiler & Fergus [4] 75,90‡ 86,5±0,5

Chatfield và cộng sự. [6] 82,42 88,54±0,3

của chúng tôi 82,44 93,42±0,5

bản đồ đặc trưng của conv5

4.1 Thuật toán phát hiện Chúng

khoảng 2.000 cửa sổ ứng viên cho mỗi hình ảnh.

SPP (1-sc) SPP (5-sc) R-CNN

chuyển đổi (GPU) 0,089 giây 0,089 giây 0,07 giây

(GPU) fc thời 0,089 giây

hơn mạng đầu tiên ở 11 danh mục.

này hợp lý tìm thấy kết quả nào.

thứ hạng đội bản đồ

Thể loại. Có hình ảnh 450k/20k/40k trong 3 tia UV 32.02

(DET) và phân loại (CLS),

nhiệm vụ DET chỉ cung cấp dữ liệu. Thứ hai,

số danh mục của DET là 1/5 của CLS. Vượt qua

chậu kiến:0,3 3 người:2,69

cây trồng trong chậu:0,78

màn hình tv:1.77

máy bay: 0,93

cây trồng trong chậu:0,21

cây trồng trong chậu:0,81