You are on page 1of 9

Machine Translated by Google

Một mạng lưới thần kinh có thể huấn luyện đầu cuối cho trình tự dựa trên hình ảnh

Nhận dạng và ứng dụng của nó để nhận dạng văn bản cảnh

Baoguang Shi, Xiang Bai và Cong Yao


Trường Thông tin Điện tử và Truyền thông

Đại học Khoa học và Công nghệ Huazhong, Vũ Hán, Trung Quốc
{shibaoguang, xbai} @ crazy.edu.cn, yaocong2010@gmail.com

trừu tượng các đối tượng sual, chẳng hạn như văn bản cảnh, chữ viết tay và âm nhạc

điểm, có xu hướng xảy ra theo trình tự, không theo đường đẳng sắc.

Nhận dạng chuỗi dựa trên hình ảnh đã là một chủ đề nghiên cứu lâu Không giống như nhận dạng đối tượng chung, nhận dạng như vậy

đời trong thị giác máy tính. Trong phần này, chúng tôi điều tra vấn đề các đối tượng giống trình tự thường yêu cầu hệ thống dự đoán

nhận dạng văn bản cảnh, một loạt các nhãn đối tượng, thay vì một nhãn duy nhất. Ở đó, việc nhận

đó là một trong những nhiệm vụ quan trọng và thách thức nhất dạng các đối tượng như vậy có thể được coi là một cách tự nhiên

trong nhận dạng trình tự dựa trên hình ảnh. Một kiến trúc công trình vấn đề nhận dạng trình tự. Một tài sản độc đáo khác của

mạng thần kinh mới, tích hợp tính năng trích xuất, lập mô hình dòng và các đối tượng giống trình tự là độ dài của chúng có thể khác nhau một

phiên âm thành một công việc khung thống nhất, được đề xuất. So với các cách ngẫu nhiên. Ví dụ, các từ tiếng Anh có thể bao gồm 2

hệ thống trước đây cho các ký tự chẳng hạn như “OK” hoặc 15 ký tự như “lời chúc mừng”. Do đó,

nhận dạng văn bản cảnh, kiến trúc được đề xuất sở hữu các mô hình sâu phổ biến nhất như

bốn thuộc tính đặc biệt: (1) Có thể đào tạo từ đầu đến cuối, DCNN [25, 26] không thể được áp dụng trực tiếp cho điều hướng trước

trái ngược với hầu hết các thuật toán hiện có mà nents compo được đào trình tự, vì các mô hình DCNN thường hoạt động trên các đầu vào và

tạo và điều chỉnh riêng biệt. (2) Nó tự nhiên kéo dài các chuỗi với độ đầu ra có kích thước cố định và do đó không có khả năng

dài tùy ý, không liên quan đến ký tự tạo ra một chuỗi nhãn có độ dài thay đổi.

phân đoạn hoặc chuẩn hóa quy mô ngang. (3) Nó không phải là Một số nỗ lực đã được thực hiện để giải quyết vấn đề này

giới hạn trong bất kỳ từ vựng nào được xác định trước và đạt được thành tựu đáng kể cho một đối tượng giống như chuỗi cụ thể (ví dụ: văn bản cảnh). Vì

biểu diễn trong cả cảnh không có từ vựng và dựa trên từ vựng ví dụ, các thuật toán trong [35, 8] trước tiên phát hiện từng cá nhân

các nhiệm vụ nhận dạng văn bản. (4) Nó tạo ra một hiệu quả nhưng nhiều các ký tự và sau đó nhận ra các ký tự được phát hiện này bằng

mô hình nhỏ hơn, thực tế hơn cho các tình huống ap plication trong thế Các mô hình DCNN, được đào tạo bằng cách sử dụng ký tự được gắn nhãn

giới thực. Các thử nghiệm trên điểm chuẩn tiêu chuẩn, bao gồm IIIT-5K, hình ảnh. Các phương pháp như vậy thường yêu cầu đào tạo một bộ phát

Văn bản ở Chế độ xem phố và ICDAR hiện bộ truyền tín hiệu mạnh để phát hiện và cắt xén chính xác từng

bộ dữ liệu, chứng minh tính ưu việt của thuật toán được đề xuất so với ký tự ra khỏi hình ảnh từ gốc. Vài người khác

các phương pháp kỹ thuật trước đây. Hơn nữa, thuật toán đề xuất các phương pháp tiếp cận (chẳng hạn như [22]) coi nhận dạng văn bản cảnh là

thực hiện tốt nhiệm vụ nhận xét điểm số âm nhạc dựa trên hình ảnh, xác vấn đề phân loại hình ảnh và gán nhãn lớp

minh rõ ràng tính tổng quát của nó. cho mỗi từ tiếng Anh (tổng cộng 90K từ). Nó chỉ ra một

mô hình được đào tạo lớn với số lượng lớn các lớp học,

khó có thể được khái quát hóa cho các loại trình tự khác như đồ vật,

1. Giới thiệu chẳng hạn như văn bản tiếng Trung, bản nhạc, v.v., bởi vì số lượng các
kết hợp cơ bản của loại

Gần đây, cộng đồng đã chứng kiến sự hồi sinh mạnh mẽ của trình tự có thể lớn hơn 1 triệu. Tóm lại, các hệ thống thuê cur dựa trên

mạng nơ-ron, chủ yếu được kích thích bởi DCNN không thể được sử dụng trực tiếp cho

thành công của các mô hình mạng nơ ron sâu, đặc biệt là Deep nhận dạng chuỗi dựa trên hình ảnh.

Mạng nơ-ron hợp pháp (DCNN), trong nhiều tầm nhìn khác nhau Các mô hình mạng nơ-ron tái diễn (RNN), một nhánh quan trọng khác

các nhiệm vụ. Tuy nhiên, phần lớn các công trình gần đây liên quan đến sâu của họ mạng nơ-ron sâu, là
mạng nơron đã dành cho việc phát hiện hoặc phân loại chủ yếu được thiết kế để xử lý các trình tự. Một trong những lợi thế

của các loại đối tượng [12, 25]. Trong bài báo này, chúng tôi được của RNN là nó không cần vị trí của

chứng nhận với một vấn đề kinh điển trong thị giác máy tính: nhận dạng mỗi phần tử trong một hình ảnh đối tượng trình tự trong cả hai khóa đào tạo

trình tự dựa trên hình ảnh. Trong thế giới thực, một chuồng ngựa vi và thử nghiệm. Tuy nhiên, một bước tiền xử lý chuyển đổi

1
Machine Translated by Google

một hình ảnh đối tượng đầu vào thành một chuỗi các tính năng lớp tập lệnh ở đầu CRNN được sử dụng để dịch các dự đoán trên
hình ảnh, thường là điều cần thiết. Ví dụ, Graves et al. [16] mỗi khung bởi các lớp lặp lại thành một dòng nhãn. Mặc dù CRNN
trích xuất một tập hợp các đặc điểm hình học hoặc hình ảnh từ các bao gồm các loại kiến trúc mạng khác nhau (ví dụ: CNN và RNN), nó
văn bản viết tay, trong khi Su và Lu [33] chuyển đổi hình ảnh từ có thể được huấn luyện chung với một chức năng mất mát.
thành các đặc trưng HOG tuần tự. Bước tiền xử lý độc lập với các
thành phần tiếp theo trong đường dẫn, do đó các hệ thống hiện có
Dự đoán
"tiểu bang"
dựa trên RNN không thể được đào tạo và tối ưu hóa theo kiểu end- sự phối hợp

to-end. Phiên mã
Lớp - s - t - aatte Dự đoán
Một số phương pháp nhận dạng văn bản khung cảnh thông thường trên mỗi

không dựa trên mạng nơ-ron cũng mang lại những ý tưởng sâu sắc khung hình (sai lệch)

...
và cách trình bày mới lạ vào lĩnh vực này. Ví dụ, Almazan` et al.
[5] và Rodriguez-Serrano et al. [30] chuyên nghiệp đặt ra để nhúng ......
Hai
chiều sâu
các hình ảnh từ và chuỗi văn bản vào một không gian con vectơ ...
LSTM
Lặp lại
chung, và việc nhận dạng từ được chuyển thành một bài toán truy ......

Lớp
xuất. Yao và cộng sự. [36] và Gordo và cộng sự. [14] đã sử dụng
các tính năng cấp trung bình để nhận dạng văn bản cảnh. Mặc dù đã
Tính năng
đạt được hiệu suất đầy hứa hẹn trên các điểm chuẩn tiêu chuẩn, ...
sự phối hợp
nhưng các phương pháp này thường vượt trội hơn so với các
nhịp điệu trước đây dựa trên mạng nơ-ron [8, 22], cũng như cách Bản đồ đối

tiếp cận được đề xuất trong bài báo này. tượng địa lý

Đóng góp chính của bài báo này là một mô hình mạng nơ-ron
Hợp hiến
mới, có kiến trúc mạng được thiết kế đặc biệt để nhận dạng các
Lớp
đối tượng giống chuỗi trong hình ảnh. Bản đồ đối

Mô hình mạng nơ-ron được đề xuất được đặt tên là Mạng nơ-ron tượng địa lý

lặp lại Convo (CRNN), vì nó là sự kết hợp của DCNN và RNN. Đối

với các ob ject giống như trình tự, CRNN sở hữu một số lợi thế
Hình ảnh đầu vào
đặc biệt so với các mô hình mạng nơ-ron thông thường: 1) Nó có
thể được học trực tiếp từ các nhãn trình tự (ví dụ: từ), không
Hình 1. Kiến trúc mạng. Kiến trúc bao gồm ba phần: 1) các lớp
cần chú thích chi tiết (ví dụ: ký tự); 2) Nó có cùng thuộc tính
phức hợp, trích xuất một dòng đặc trưng từ hình ảnh đầu vào; 2)
DCNN về việc học các biểu diễn thông tin trực tiếp từ dữ liệu
các lớp lặp lại, dự đoán phân phối nhãn cho mỗi khung; 3) lớp
hình ảnh, không yêu cầu các tính năng thủ công cũng như các bước
phiên mã, chuyển các dự đoán trên mỗi khung hình thành chuỗi
tiền xử lý, bao gồm mã hóa / phân đoạn bi narization, bản địa hóa nhãn cuối cùng.
thành phần, v.v.; 3) Nó có cùng thuộc tính RNN, có thể tạo ra một
dòng nhãn; 4) Nó không bị giới hạn về độ dài của các đối tượng
giống như trình tự, chỉ yêu cầu chuẩn hóa chiều cao trong cả 2.1. Trích xuất trình tự tính năng
giai đoạn đào tạo và thử nghiệm; 5) Nó đạt được hiệu suất tốt
Trong mô hình CRNN, thành phần của các lớp tích chập được xây
hơn hoặc có tính cạnh tranh cao đối với các văn bản cảnh (từ
dựng bằng cách lấy các lớp tích tụ và tối đa từ mô hình CNN chuẩn
ghép lại) so với các nghệ thuật trước đây [23, 8]; 6) Nó chứa ít
(các lớp được kết nối đầy đủ sẽ bị loại bỏ). Thành phần như vậy
tham số hơn nhiều so với mô hình DCNN tiêu chuẩn, tiêu tốn ít
được sử dụng để trích xuất biểu diễn tính năng tuần tự từ hình
không gian lưu trữ hơn.
ảnh đầu vào. Trước khi được đưa vào mạng, tất cả các hình ảnh
cần được thu nhỏ đến cùng một chiều cao. Sau đó, một chuỗi các
vectơ đặc trưng được trích xuất từ các bản đồ đặc trưng được
tạo ra bởi tổng hợp các lớp chập, là đầu vào cho các lớp hiện
2. Kiến trúc mạng được đề xuất
tại. Cụ thể, mỗi vectơ đặc trưng của chuỗi đối tượng được tạo

Kiến trúc mạng của CRNN, như trong Hình 1, bao gồm ba thành từ trái sang phải trên bản đồ đối tượng theo cột. Điều này có

phần, bao gồm các lớp chập, các lớp lặp lại và một lớp phiên mã, nghĩa là vector đặc trưng thứ i là tập hợp các cột thứ i của tất

từ dưới lên trên. cả các bản đồ. Chiều rộng của mỗi cột trong cài đặt của chúng tôi
được cố định thành một pixel.

Ở cuối CRNN, các lớp chập tự động trích xuất một chuỗi tính
năng từ mỗi hình ảnh đầu vào. Khi các lớp của tích chập, tổng hợp tối đa và chức năng kích
Trên đầu của mạng chập, một mạng lặp lại được xây dựng để đưa hoạt phần tử khôn ngoan hoạt động trên các vùng cục bộ, chúng là
ra dự đoán cho từng khung của chuỗi đặc trưng, được xuất ra bởi bất biến dịch. Do đó, mỗi cột của bản đồ đối tượng tương ứng

các lớp tích chập. Tran với một vùng hình chữ nhật của ảnh gốc
Machine Translated by Google

(một) (b)
tuổi (được gọi là trường tiếp nhận) và các vùng hình chữ nhật như vậy
Đầu ra
theo cùng một thứ tự với các cột tương ứng của chúng trên Cổng ...

bản đồ tính năng từ trái sang phải. Như minh họa trong Hình 2, mỗi

vectơ trong chuỗi đối tượng được liên kết với một ......
... ...
và có thể được coi là bộ mô tả hình ảnh cho trường đó Tế bào

vùng đất. ...

Quên đi
Cổng
Đầu vào

Trình tự tính năng Cổng

......

...

Hình 3. (a) Cấu trúc của một đơn vị LSTM cơ bản. Một con LSTM bao gồm một

mô-đun ô và ba cổng, cụ thể là cổng đầu vào,

cổng ra và cổng quên. (b) Cấu trúc của LSTM theo từng bậc sâu mà chúng tôi

sử dụng trong bài báo của mình. Kết hợp một phía trước (trái sang

Lĩnh vực tiếp nhận phải) và LSTM lùi (từ phải sang trái) dẫn đến LSTM theo từng vị trí hai

chiều. Xếp chồng nhiều LSTM hai chiều dẫn đến một
Hình 2. Trường tiếp nhận. Mỗi vectơ trong đối tượng địa lý được trích xuất
LSTM hai chiều sâu.
trình tự được liên kết với một trường tiếp nhận trên hình ảnh đầu vào,
và có thể được coi là vector đặc trưng của trường đó.

Mạnh mẽ, phong phú và có thể huấn luyện được, các loại tures fea Thứ ba, RNN có thể hoạt động trên các chuỗi tùy ý

bìm bịp sâu đã được áp dụng rộng rãi cho các loại nhiệm vụ nhận dạng độ dài, đi ngang từ đầu đến cuối.

vi su [25, 12]. Một số cách tiếp cận trước đây Một đơn vị RNN truyền thống có một lớp ẩn tự kết nối

đã sử dụng CNN để tìm hiểu một cách đại diện mạnh mẽ cho giữa các lớp đầu vào và đầu ra của nó. Mỗi lần nó nhận được

các đối tượng dạng chuỗi chẳng hạn như văn bản cảnh [22]. Tuy nhiên, một khung xt trong chuỗi, nó cập nhật trạng thái bên trong của nó ht

những cách tiếp cận này thường trích xuất đại diện tổng thể của với một hàm phi tuyến tính nhận cả đầu vào hiện tại xt

toàn bộ hình ảnh của CNN, sau đó các đặc điểm sâu của địa phương là và trạng thái trong quá khứ ht 1 làm đầu vào của nó: ht = g (xt, ht 1). sau đó

được thu thập để nhận biết từng thành phần của một đối tượng giống dự đoán yt được thực hiện dựa trên ht. Bằng cách này, các văn bản lừa

như trình tự. Vì CNN yêu cầu hình ảnh đầu vào phải đảo trong quá khứ {xt 0} t 0 <t được ghi lại và sử dụng để dự đoán.

được chia tỷ lệ thành một kích thước cố định để đáp ứng với đầu vào cố định của nó Tuy nhiên, đơn vị RNN phân đoạn gặp phải vấn đề biến mất [7], điều này

kích thước, nó không thích hợp cho các đối tượng giống như chuỗi giới hạn phạm vi ngữ cảnh mà nó có thể

do độ dài của chúng có sự biến đổi lớn. Trong CRNN, chúng tôi chuyển tải lưu trữ, và thêm gánh nặng cho quá trình đào tạo. Dài ngắn

các tính năng sâu vào các biểu diễn tuần tự để được Bộ nhớ thuật ngữ [18, 11] (LSTM) là một loại đơn vị RNN

bất biến với sự thay đổi độ dài của các đối tượng giống chuỗi. được thiết kế đặc biệt để giải quyết vấn đề này. Một LSTM (được giới

thiệu trong Hình 3) bao gồm một ô nhớ và ba cổng đa tiplicative, cụ


2.2. Ghi nhãn trình tự thể là cổng đầu vào, đầu ra và cổng quên.

Về mặt khái niệm, ô nhớ lưu trữ các ngữ cảnh trong quá khứ và
Một mạng thần kinh tái tạo hai chiều sâu được xây dựng
các cổng đầu vào và đầu ra cho phép ô lưu trữ các ngữ cảnh
ở trên cùng của các lớp phức hợp, như các lớp lặp lại. Các lớp lặp lại
trong một khoảng thời gian dài. Trong khi đó, bộ nhớ trong
dự đoán phân phối nhãn yt cho
ô có thể được xóa bằng cổng quên. Thiết kế đặc biệt của
mỗi khung xt trong chuỗi đối tượng x = x1 , . . . , Các xT .
LSTM cho phép nó nắm bắt các phụ thuộc trong phạm vi dài,
lợi thế của các lớp lặp lại là gấp ba lần. Trước hết,
thường xảy ra trong các chuỗi dựa trên hình ảnh.
RNN có một khả năng mạnh mẽ trong việc nắm bắt ngữ cảnh được hình

thành trong một chuỗi. Sử dụng các dấu hiệu theo ngữ cảnh cho LSTM là định hướng, nó chỉ sử dụng các ngữ cảnh trong quá khứ. Đã

nhận dạng chuỗi dựa trên hình ảnh ổn định hơn và hữu ích hơn so với bao giờ, trong các chuỗi dựa trên hình ảnh, các ngữ cảnh từ cả hai

việc xử lý từng ký hiệu một cách độc lập. Chụp cảnh trực tiếp đều hữu ích và bổ sung cho nhau. Trước đó, chúng tôi theo

nhận dạng văn bản làm ví dụ, các ký tự rộng có thể kéo dài nhiều khung dõi [17] và kết hợp hai LSTM, một phía trước

liên tiếp để mô tả đầy đủ (tham khảo và một lùi, thành LSTM hai chiều. Hơn nữa,

Hình 2). Bên cạnh đó, một số ký tự không rõ ràng sẽ dễ dàng hơn nhiều LSTM hai chiều có thể được xếp chồng lên nhau, dẫn đến

phân biệt khi quan sát bối cảnh của họ, ví dụ: dễ dàng hơn một LSTM hai chiều sâu như được minh họa trong Hình 3.b. Các

nhận ra "il" bằng cách đối chiếu chiều cao của ký tự với cấu trúc sâu cho phép mức độ trừu tượng cao hơn so với

nhận ra từng người trong số họ một cách riêng biệt. Thứ hai, RNN có thể nông một, và đã đạt được hiệu suất đáng kể chứng minh trong nhiệm vụ

lan truyền ngược các sai lệch lỗi đến đầu vào của nó, tức là lớp cấu nhận dạng giọng nói [17].

trúc, cho phép chúng tôi cùng huấn luyện các Trong các lớp lặp lại, sai lệch lỗi được truyền trong

các lớp và các lớp phức hợp trong một mạng thống nhất. hướng ngược lại của các mũi tên được hiển thị trong Hình 3.b,
Machine Translated by Google

tức là Truyền ngược Thời gian (BPTT). Tại bot tom của của các mục tổng kết. Tuy nhiên, Eq. 1 có thể được tính toán một

các lớp lặp lại, chuỗi các ferentials lan truyền được cách hiệu quả bằng cách sử dụng thuật toán tiến-lùi được mô tả

nối với nhau thành các bản đồ, đảo ngược hoạt động trong [15].

chuyển đổi bản đồ đối tượng thành chuỗi đối tượng và


được đưa trở lại các lớp phức hợp. Trên thực tế, chúng
2.3.2 Phiên mã không có Lexicon
tôi tạo một lớp mạng tùy chỉnh, được gọi là “Map-to-
Sequence”, làm cầu nối giữa các lớp phức hợp và các lớp lặp lại.
Trong chế độ này, dãy l có xác suất xác suất cao nhất như

được định nghĩa trong Phương trình. 1 được coi là dự đoán. Vì


2.3. Phiên mã không tồn tại một thuật toán có thể điều chỉnh được để tìm ra

Phiên mã là quá trình chuyển đổi các dự đoán trên mỗi chính xác sự thận trọng, chúng tôi sử dụng chiến lược được áp

khung hình do RNN thực hiện thành một chuỗi nhãn. Về mặt (arg maxπ p (π | y)), tức là được dụng
tìm gần
trong
đúng
[15].
bởi Dãy
l l lấy ≈nhãn
B

toán học, phiên mã là để tìm chuỗi nhãn có xác suất cao có khả năng xảy ra nhất πt tại mỗi dấu thời gian t, và ánh xạ

chuỗi kết quả lên l .


nhất được điều chỉnh dựa trên các khoảng thời gian trước
mỗi khung hình. Trong thực tế, tồn tại hai chế độ phiên mã,
đó là phiên mã không có từ vựng và dựa trên từ vựng. Từ 2.3.3 Phiên mã dựa trên từ vựng
điển là một tập hợp các chuỗi nhãn mà dự đoán bị ràng buộc,
ví dụ như từ điển kiểm tra chính tả. Ở chế độ miễn phí từ Ở chế độ dựa trên từ vựng, mỗi mẫu thử nghiệm được liên kết với

vựng, các dự đoán được thực hiện mà không có bất kỳ từ một từ vựng D. Về cơ bản, trình tự nhãn được nhận dạng bằng cách

vựng nào. Trong chế độ dựa trên từ vựng, các dự đoán được chọn trình tự trong từ vựng có xác suất điều kiện est cao được
=
thực hiện bằng cách chọn chuỗi nhãn có xác suất cao nhất. xác định trong phương trình. 1, tức là arg maxl D p (l | y).
tôi

Tuy nhiên, đối với các từ vựng lớn, ví dụ như từ điển kiểm tra
chính tả Hunspell 50k từ [1], sẽ rất tốn thời gian để thực hiện
2.3.1 Xác suất của chuỗi nhãn
tìm kiếm toàn bộ từ vựng, tức là để tính Phương trình 1 cho tất
Chúng tôi áp dụng xác suất có điều kiện được xác định trong lớp cả các chuỗi trong từ vựng và chọn cái có xác suất cao. Để giải
Phân loại theo thời gian của Con nectionist (CTC) do Graves et al quyết vấn đề này, chúng tôi nhận thấy rằng các trình tự nhãn được
đề xuất. [15]. Xác suất được xác định cho chuỗi la bel l được dự đoán thông qua phiên mã không có từ vựng, được ghi trong
điều kiện dựa trên các dự đoán trên mỗi khung hình và nó bỏ qua 2.3.2, thường gần với sự thật cơ bản theo số liệu khoảng cách
y = y1 , . . . , yT , vị trí mà mỗi la chỉnh sửa. Điều này cho thấy rằng chúng ta có thể giới hạn
bel in l nằm. Do đó, khi chúng ta sử dụng khả năng log
âm của xác suất này làm mục tiêu để huấn luyện mạng, tìm kiếm các ứng cử viên láng giềng gần nhất Nδ (l 0 ), trong đó
chúng ta chỉ cần hình ảnh và chuỗi la bel tương ứng của khoảng cách chỉnh sửa tối đa và l δ là trình tự được phiên mã
chúng, tránh tốn công gắn nhãn vị trí của các ký tự riêng từ y ở chế độ không có từ vựng:
lẻ.

Công thức của xác suất có điều kiện được mô tả ngắn gọn như l (2)
y). = arg max l Nδ
p (l
(l |0)
sau: Đầu vào là một chuỗi y = y1 , . . . , yT trong đó T là độ

dài dãy. Ở đây, mỗi yt <| L0 | là một phân phối xác suất trên
Các ứng cử viên Nδ (l 0 ) có thể được tìm thấy một cách hiệu quả
=
tập L
với cấu trúc dữ liệu BK-tree [9], là một cấu trúc cây số liệu được
Ký , trong đó L chứa tất cả các nhãn trong nhiệm vụ (ví dụ: tất cả
điều chỉnh cụ thể với các không gian số liệu rời rạc. Độ phức tạp
tự L glish), cũng như nhãn 'trống' được ký hiệu bằng. Hàm En A
thời gian tìm kiếm của BK-tree là O (log | D |), trong đó | D | là
ánh xạ chuỗi-sang-dãy B được xác định trên dòng π L0T bằng
kích thước biểu tượng lex. Do đó, lược đồ này dễ dàng mở rộng cho
cách trước hết loại, trong
bỏ cácđó
nhãn được
T là lặpdài.
chiều lại,B sau
ánh đó
xạ loại
π lênbỏl 'ô
các từ vựng rất lớn. Theo cách tiếp cận của chúng tôi, cây BK được
trống. Ví dụ: B ánh xạ “--hh-el-ll-oo--” ('-' đại diện cho 'trống')
xây dựng ngoại tuyến cho một từ vựng. Sau đó, chúng tôi thực hiện tìm
vào "xin chào". Sau đó, xác suất theo bậc điều kiện được định
kiếm trực tuyến nhanh với cây, bằng cách tìm các chuỗi có khoảng cách
nghĩa là tổng các xác suất của tất cả các π được ánh xạ bởi B vào
nhỏ hơn hoặc bằng δ chỉnh sửa đến chuỗi truy vấn.
l:

2.4. Đào tạo mạng


Ký hiệu tập dữ liệu huấn luyện bằng X = {Ii , li} i , trong đó
p (l | y) = X p (π | y), (1)
Ii là hình ảnh huấn luyện và li là chuỗi nhãn chân lý cơ bản.
π: B (π) = l
Mục tiêu là để giảm thiểu khả năng log âm của xác suất có
trong đó xác suất của π được xác định là p (π | y) = QT là xác điều kiện của sự thật cơ bản:
suất
lượng , yπt
có nhãn
lớn theotại
Eq.
cấpthời
1 số
sẽ điểm
khôngt khả
nhân = 1 thi
y tem
theo
t. từng
Trực giai
tiếp đoạn
tính do
toán
số
πt πt

O = - X log p (li | yi), (3)


Machine Translated by Google

Bảng 1. Tóm tắt cấu hình mạng. Hàng đầu tiên là trên cùng
trong đó yi là trình tự được tạo ra bởi các lớp lặp lại và lặp lại từ
lớp. 'k', 's' và 'p' là viết tắt của kích thước hạt nhân, kích thước sải chân và kích thước đệm
Ii . Hàm mục tiêu này tính toán
tương ứng
giá trị chi phí trực tiếp từ một hình ảnh và sự thật cơ bản của nó
Loại hình Cấu hình
trình tự nhãn. Do đó, mạng có thể là end-to-end -
Phiên mã
được đào tạo về các cặp hình ảnh và trình tự, loại bỏ Hai chiều-LSTM # đơn vị hiển thị: 256

quy trình dán nhãn thủ công cho tất cả các thành phần riêng lẻ Hai chiều-LSTM # đơn vị hiển thị: 256
-
trong hình ảnh đào tạo. Map-to-Sequence
Convolution # bản đồ: 512, k: 2 × 2, s: 1, p: 0
Mạng được đào tạo với sự giảm dần độ dốc ngẫu nhiên
MaxPooling Cửa sổ: 1 × 2, s: 2
(SGD). Gradients được tính toán bằng phương pháp truyền ngược al BatchNormalization -

gorithm. Đặc biệt, trong lớp phiên mã, lỗi dif ferentials được truyền Convolution # bản đồ: 512, k: 3 × 3, s: 1, p: 1
BatchNormalization -
ngược với tiến-lùi
Convolution # bản đồ: 512, k: 3 × 3, s: 1, p: 1
thuật toán, như được mô tả trong [15]. Trong các lớp lặp lại,
MaxPooling Cửa sổ: 1 × 2, s: 2
Truyền ngược thời gian (BPTT) được áp dụng để tính toán các sai lệch
Convolution # bản đồ: 256, k: 3 × 3, s: 1, p: 1
lỗi.
Convolution # bản đồ: 256, k: 3 × 3, s: 1, p: 1
Để tối ưu hóa, chúng tôi sử dụng ADADELTA [37] để tính toán một cách MaxPooling Cửa sổ: 2 × 2, s: 2

ngẫu nhiên tỷ lệ học tập trên mỗi chiều. Tỷ lệ với phương pháp động Convolution # bản đồ: 128, k: 3 × 3, s: 1, p: 1

MaxPooling Cửa sổ: 2 × 2, s: 2


lượng [31] thông thường ,
Convolution # bản đồ: 64, k: 3 × 3, s: 1, p: 1
ADADELTA không yêu cầu cài đặt thủ công cho việc học
Đầu vào Hình ảnh tỷ lệ xám W × 32
tỷ lệ. Quan trọng hơn, chúng tôi nhận thấy rằng việc tối ưu hóa bằng cách sử dụng

ADADELTA hội tụ nhanh hơn phương pháp xung lượng.

860 hình ảnh văn bản được cắt xén. Mỗi hình ảnh thử nghiệm được liên kết với
3. Thí nghiệm một từ vựng 50 từ được xác định bởi Wang và cộng sự. [34]. Một

đầy đủ từ vựng được xây dựng bằng cách kết hợp tất cả các khuyết điểm của từ
Để đánh giá hiệu quả của CRNN đề xuất
vựng trên mỗi hình ảnh. Ngoài ra, chúng tôi sử dụng một từ vựng 50k từ bao gồm
mô hình, chúng tôi đã tiến hành thử nghiệm trên các điểm chuẩn tiêu chuẩn
các từ trong từ điển kiểm tra chính tả Hunspell [1].
để nhận dạng văn bản cảnh và nhận dạng điểm âm nhạc,
Tập dữ liệu kiểm tra IC13 [24] kế thừa hầu hết dữ liệu của nó từ IC03.
đó đều là những nhiệm vụ khó khăn về tầm nhìn. Bộ dữ liệu và
Nó chứa 1.015 hình ảnh từ được cắt xén sự thật nền tảng.
cài đặt cho đào tạo và kiểm tra được đưa ra trong Sec. 3.1, cài đặt
IIIT5k [28] chứa 3.000 hình ảnh kiểm tra từ được cắt xén
đuôi của CRNN cho hình ảnh văn bản cảnh được cung cấp
được sưu tầm từ Internet. Mỗi hình ảnh đã được liên kết với một từ
trong Sec. 3.2, và kết quả với các đồng phân so sánh toàn diện được báo
vựng 50 từ và một từ vựng 1k từ.
cáo trong Sec. 3.3. Để chứng minh thêm
Tập dữ liệu thử nghiệm SVT [34] bao gồm 249 hình ảnh ở chế độ xem phố
tính tổng quát của CRNN, chúng tôi xác minh thuật toán được đề xuất trên
được thu thập từ Chế độ xem phố của Google. Từ họ 647 từ
nhiệm vụ nhận dạng điểm âm nhạc trong Sec. 3.4.
hình ảnh bị cắt. Mỗi hình ảnh từ có 50 từ lexi con được xác định bởi
3.1. Bộ dữ liệu Wang et al. [34].

Đối với tất cả các thử nghiệm để nhận dạng văn bản cảnh, chúng tôi
3.2. Chi tiết triển khai
sử dụng tập dữ liệu tổng hợp (Synth) do Jaderberg et

al. [20] làm dữ liệu đào tạo. Tập dữ liệu chứa 8 triệu Cấu hình mạng chúng tôi sử dụng trong các thử nghiệm của mình

hình ảnh đào tạo và các từ sự thật cơ bản tương ứng của chúng. được tóm tắt trong Bảng 1. Kiến trúc của các lớp cấu trúc dựa trên dữ

Những hình ảnh như vậy được tạo ra bởi một công cụ văn bản tổng hợp và liệu lưu trữ VGG-VeryDeep [32]. Một chỉnh sửa được thực hiện để làm cho

có tính thực tế cao. Mạng lưới của chúng tôi được đào tạo về tổng hợp nó phù hợp

dữ liệu một lần và được thử nghiệm trên tất cả các tập dữ liệu thử nghiệm trong thế giới thực khác để nhận dạng văn bản tiếng Anh. Trong lớp tổng hợp tối đa thứ 3 và thứ

mà không có bất kỳ tinh chỉnh nào về dữ liệu đào tạo của họ. Mặc dù 4, chúng tôi áp dụng tính năng tổng hợp hình chữ nhật có kích thước 1 × 2

mô hình CRNN hoàn toàn được đào tạo với dữ liệu văn bản tổng hợp, cửa sổ thay vì những cửa sổ hình vuông thông thường. Đây

nó hoạt động tốt trên hình ảnh thực từ nhận dạng văn bản tiêu chuẩn tinh chỉnh sản lượng bản đồ tính năng với chiều rộng lớn hơn, do đó dài hơn

điểm chuẩn. trình tự tính năng. Ví dụ: một hình ảnh chứa 10

Bốn tiêu chuẩn phổ biến để nhận dạng văn bản cảnh là các ký tự thường có kích thước 100 × 32, từ đó một tính năng

được sử dụng để đánh giá hiệu suất, cụ thể là ICDAR 2003 chuỗi 25 khung có thể được tạo. Chiều dài này vượt quá

(IC03), ICDAR 2013 (IC13), IIIT 5k từ (IIIT5k) và độ dài của hầu hết các từ tiếng Anh. Trên hết, các cửa sổ gộp góc hình

Văn bản Chế độ xem phố (SVT). chữ nhật mang lại các trường tiếp nhận hình chữ nhật

Bộ dữ liệu thử nghiệm IC03 [27] chứa 251 hình ảnh cảnh với các hộp (minh họa trong Hình 2), có lợi cho việc nhận biết

giới hạn văn bản có vành đai. Theo Wang et al. [34], chúng tôi một số ký tự có hình dạng hẹp, chẳng hạn như 'i' và 'l'.

bỏ qua các hình ảnh có chứa ký tự charac không phải chữ và số hoặc có ít Mạng không chỉ có các lớp phức hợp sâu, mà

hơn ba ký tự và nhận bộ kiểm tra với cũng có các lớp lặp lại. Cả hai đều được biết là khó
Machine Translated by Google

Bảng 3. So sánh giữa các phương pháp khác nhau. Các thuộc tính cho com parison
xe lửa. Chúng tôi nhận thấy rằng kỹ thuật chuẩn hóa hàng loạt [19]
bao gồm: 1) có thể huấn luyện end-to-end (E2E Train); 2)
cực kỳ hữu ích cho mạng lưới đào tạo có chiều sâu như vậy. Hai
sử dụng các tính năng phức hợp được học trực tiếp từ các lứa tuổi thay vì sử
các lớp chuẩn hóa hàng loạt được chèn sau lớp thứ 5 và thứ 6
dụng các tính năng thủ công (Conv Ftrs); 3) Yêu cầu không có hộp giới hạn sự thật
lớp chập tương ứng. Với các lớp ization bình thường hàng loạt, quá
cơ bản cho các nhân vật trong quá trình đào tạo
trình đào tạo được tăng tốc đáng kể.
(Miễn phí); 4) không bị giới hạn trong một từ điển được xác định trước (Không

Chúng tôi triển khai mạng trong công việc khung Torch7 [10] , với bị ràng buộc); 5) kích thước mô hình (nếu một mô hình có thể đào tạo từ đầu đến cuối

các triển khai tùy chỉnh cho các đơn vị LSTM (trong được sử dụng), được đo bằng số lượng thông số mô hình (Mô hình

Torch7 / CUDA), lớp phiên mã (trong C ++) và Kích thước, M là viết tắt của hàng triệu).

Cấu trúc dữ liệu BK-tree (trong C ++). Các thí nghiệm được thực hiện

trên máy trạm có Intel (R) Xeon (R) E5- 2,50 GHz

2609 CPU, 64GB RAM và NVIDIA (R) Tesla (TM) K40 E2E
Tàu chuyển
Ftrs
đổi CharGT-
Free Không
chế
hạn
bị thước
hình
Kích

GPU. Mạng được đào tạo với ADADELTA, thiết lập

tham số ρ đến 0,9. Trong quá trình đào tạo, tất cả các hình ảnh đều được thu nhỏ
Wang và cộng sự. [34] -
thành 100 × 32 để đẩy nhanh quá trình đào tạo. Các -
Mishra và cộng sự. [28]
quá trình đào tạo mất khoảng 50 giờ để đạt được sự hội tụ.
Wang và cộng sự. [35] -
Hình ảnh thử nghiệm được chia tỷ lệ để có chiều cao 32. Chiều rộng là -
Goel và cộng sự. [13]

được chia tỷ lệ theo tỷ lệ với chiều cao, nhưng ít nhất là 100 pixel. -
Bissacco và cộng sự. [số 8]

Thời gian thử nghiệm trung bình là 0,16 giây / mẫu, như được đo trên Alsharif và Pineau [6] -
IC03 không có từ điển. Tìm kiếm từ vựng gần đúng là Almazan và cộng sự. [5]
-

áp dụng cho từ vựng 50k của IC03, với tham số δ được đặt Yao và cộng sự. [36] -
đến 3. Kiểm tra mỗi mẫu trung bình mất 0,53 giây. -
Rodrguez-Serrano và cộng sự. [30]

Jaderberg và cộng sự. [23] -


3.3. Đánh giá so sánh Su và Lu [33] -

Gordo [14] -
Tất cả các độ chính xác công nhận trên bốn công cộng trên
Jaderberg và cộng sự. [22] 490 triệu
bộ dữ liệu, thu được bằng mô hình CRNN được đề xuất và
Jaderberg và cộng sự. [21] 304 triệu
các kỹ thuật hiện đại gần đây bao gồm các phương pháp tiếp cận
CRNN 8.3 triệu
dựa trên các mô hình sâu [23, 22, 21], được trình bày trong Bảng 2.

Trong các trường hợp từ vựng bị ràng buộc, phương pháp của chúng tôi nhất quán

vượt trội hơn hầu hết các phương pháp tiếp cận hiện đại, và trong thời đại
trường hợp vẫn còn nhiều hứa hẹn.
vượt trội so với trình đọc văn bản tốt nhất được đề xuất trong [22]. Đặc biệt,
Để hiểu thêm về những ưu điểm của thuật toán đặt ra chuyên nghiệp
chúng tôi có được hiệu suất vượt trội trên IIIT5k và SVT ngang bằng
so với các cách tiếp cận nhận dạng văn bản khác, chúng tôi
với [22], chỉ đạt được hiệu suất thấp hơn trên IC03
cung cấp một so sánh toàn diện về một số thuộc tính
với từ vựng "Đầy đủ". Lưu ý rằng mô hình trong [22] là
được đặt tên là Tàu E2E, Ftrs chuyển đổi, Không tính phí, Không bị giới hạn,
được đào tạo trên một từ điển cụ thể, cụ thể là mỗi từ được
và Kích thước Mô hình, như được tóm tắt trong Bảng 3.
được liên kết với một nhãn lớp. Không giống như [22], CRNN không bị
E2E Train: Cột này để hiển thị liệu một
hạn chế khi nhận ra một từ trong từ điển đã biết và có thể
Mô hình đọc văn bản có thể đào tạo từ đầu đến cuối mà không cần bất kỳ
xử lý các chuỗi ngẫu nhiên (ví dụ: số điện thoại), câu
quy trình trước hoặc thông qua một số bước riêng biệt, điều này cho thấy
hoặc các chữ viết khác như chữ Trung Quốc. Do đó, kết quả
những cách tiếp cận như vậy là thanh lịch và sạch sẽ cho đào tạo. Quét
của CRNN có tính cạnh tranh trên tất cả các bộ dữ liệu thử nghiệm.
được quan sát từ Bảng 3, chỉ các mô hình dựa trên sâu
Trong các trường hợp từ vựng không bị giới hạn, phương pháp của chúng tôi đạt được
mạng nơ-ron bao gồm [22, 21] cũng như CRNN có
hiệu suất tốt nhất trên SVT, tuy nhiên, vẫn còn kém một số proaches [8,
tài sản này.
22] trên IC03 và IC13. Lưu ý rằng các khoảng trống
Tỷ lệ chuyển đổi: Cột này cho biết liệu một proach ap có sử dụng
trong các cột “không có” của Bảng 2 biểu thị rằng không thể áp dụng các
các tính năng tích hợp học được từ đào tạo hay không
phương pháp áp dụng như vậy để nhận dạng nếu không có
hình ảnh trực tiếp hoặc các tính năng thủ công như các tations sửa lại
từ vựng hoặc không báo cáo độ chính xác nhận dạng trong
cơ bản.
các trường hợp không bị hạn chế. Phương pháp của chúng tôi chỉ sử dụng văn bản tổng hợp
CharGT-Free: Cột này cho biết liệu
với nhãn cấp độ từ làm dữ liệu đào tạo, rất khác với

PhotoOCR [8] sử dụng 7,9 triệu hình ảnh từ thực chú thích cấp độ ký tự là điều cần thiết để đào tạo

với chú thích cấp độ ký tự để đào tạo. Tốt nhất cho mỗi công thức được người mẫu. Vì các nhãn đầu vào và đầu ra của CRNN có thể là

[22] báo cáo trong từ điển không bị hạn chế trình tự, chú thích cấp ký tự là không cần thiết.

các trường hợp, được hưởng lợi từ bộ từ điển lớn của nó, tuy nhiên, nó không Không bị giới hạn: Cột này cho biết liệu

một mô hình hoàn toàn không bị giới hạn bởi một từ điển như đã đề cập mô hình được đào tạo bị giới hạn trong một từ điển cụ thể, không thể

ở trên. Theo nghĩa này, kết quả của chúng tôi là từ vựng không bị giới hạn để xử lý các từ ngoài từ điển hoặc chuỗi ngẫu nhiên.
Machine Translated by Google

Bảng 2. Độ chính xác ghi nhận (%) trên bốn bộ dữ liệu. Trong hàng thứ hai, “50”, “1k”, “50k” và “Đầy đủ” biểu thị từ vựng được sử dụng và “Không có”

biểu thị sự công nhận mà không có từ vựng. (* [22] không phải là không có từ vựng theo nghĩa chặt chẽ, vì đầu ra của nó bị giới hạn trong một từ điển 90k.

IIIT5k SVT IC03 IC13

50 1k Không có 50 Không có 50 Đầy đủ 50k Không có Không có

24.3 - - 35.0 - 56,0 55,0 - - -


ABBYY [34]
- - - 57.0 - 76,0 62,0 - - -
Wang và cộng sự. [34]

64,1 57,5 - 73,2 - 81,8 67,8 - - -


Mishra và cộng sự. [28]

- - - 70.0 - 90,0 84,0 - - -


Wang và cộng sự. [35]
- - - 77.3 - 89,7 - - - -
Goel và cộng sự. [13]

- - - 90,4 78,0 - - - - 87,6


Bissacco và cộng sự. [số 8]

- - - 74.3 - 93,1 88,6 85,1 - -


Alsharif và Pineau [6]
91,2 82,1 - 89,2 - - - - - -
Almazan và cộng sự. [5]

80,2 69,3 - 75,9 - 88,5 80,3 - - -


Yao và cộng sự. [36]

76,1 57,4 - 70.0 - - - - - -


Rodrguez-Serrano và cộng sự. [30]
- - - 86,1 - 96,2 91,5 - - -
Jaderberg và cộng sự. [23]
- - - 83.0 - 92,0 82,0 - - -
Su và Lu [33]
93,3 86,6 - 91,8 - - - - - -
Gordo [14]
97,1 92,7 - 95,4 80,7 * 98,7 98,6 93,3 93,1 * 90,8 *
Jaderberg và cộng sự. [22]

95,5 89,6 - 93,2 71,7 97,8 97,0 93,4 89,6 81,8


Jaderberg và cộng sự. [21]

CRNN 97,6 94,4 78,2 96,4 80,8 98,7 97,6 95,5 89.4 86,7

IC03 (từ vựng 50k)


Lưu ý rằng mặc dù các mô hình gần đây được học bởi bộ đồ giường nhãn
0,98

em [5, 14] và học tập gia tăng [22] đã đạt được


95,9%
0,96 95,7%
hiệu suất cạnh tranh cao, họ bị hạn chế ở 95,4%
95,5%

từ điển cụ thể.
0,94 93,7%
2420ms
Kích thước mô hình: Cột này là để báo cáo không gian lưu trữ

của mô hình đã học. Trong CRNN, tất cả các lớp đều có kết nối chia sẻ 0,92
1220ms

trọng lượng và các lớp được kết nối đầy đủ thì không
0,90
cần thiết. Do đó, số lượng tham số của CRNN 89,4%

ít hơn nhiều so với các mô hình được học trên các biến thể của CNN 0,88
370ms
[22, 21], dẫn đến một mô hình nhỏ hơn nhiều so với
0,86
90ms
[22, 21]. Mô hình của chúng tôi có 8,3 triệu tham số, chỉ lấy <1ms 12ms

0 1 2 3 4 5
RAM 33MB (sử dụng float chính xác đơn 4 byte cho mỗi Giá trị của δ

tham số), do đó nó có thể dễ dàng được chuyển đến các thiết bị di động. Hình 4. Đồ thị đường màu xanh lam: độ chính xác nhận dạng như một hàm pa
Bảng 3 cho thấy rõ ràng sự khác biệt giữa các phương pháp ứng dụng rameter δ. Thanh màu đỏ: thời gian tìm kiếm từ vựng trên mỗi mẫu. Đã kiểm tra trên

khác nhau về chi tiết và thể hiện đầy đủ các ưu điểm bộ dữ liệu IC03 với từ vựng 50k.

của CRNN so với các phương pháp cạnh tranh khác.

Ngoài ra, để kiểm tra tác động của tham số δ, chúng tôi kiểm định các giá

trị khác nhau của δ trong phương trình. 2. Trong Hình 4 , chúng tôi vẽ biểu đồ và ghi nhận cá nhân [29]. Chúng tôi truyền OMR

độ chính xác nhận dạng như một hàm của δ. Kết quả δ lớn hơn như một bài toán nhận dạng trình tự và dự đoán một trình tự

trong nhiều ứng cử viên hơn, do đó, tập lệnh tran dựa trên từ vựng của các nốt nhạc trực tiếp từ hình ảnh với CRNN. Vì

chính xác hơn. Mặt khác, chi phí tính toán tăng đơn giản, chúng tôi chỉ nhận dạng cao độ, bỏ qua tất cả các hợp âm và

với δ lớn hơn, do thời gian tìm kiếm BK-tree lâu hơn, cũng như giả sử cùng một thang âm (C major) cho tất cả các điểm.

số lượng trình tự ứng viên lớn hơn để thử nghiệm. Trong thực tế, chúng Theo hiểu biết tốt nhất của chúng tôi, không tồn tại
tôi chọn δ = 3 là sự cân bằng giữa độ chính xác và bộ dữ liệu để đánh giá các thuật toán về nhận dạng cao độ. Đến
tốc độ, vận tốc.
chuẩn bị dữ liệu đào tạo cần thiết của CRNN, chúng tôi thu thập 2650

hình ảnh từ [2]. Mỗi hình ảnh chứa một đoạn điểm
3.4. Nhận dạng điểm âm nhạc
chứa từ 3 đến 20 nốt nhạc. Chúng tôi dán nhãn mặt đất theo cách thủ công

Một bản nhạc thường bao gồm các chuỗi nốt nhạc mu được sắp xếp trên chuỗi nhãn sự thật (chuỗi không phải ezpitch) cho tất cả

các đường kẻ. Nhận biết âm nhạc những hình ảnh. Các hình ảnh thu thập được tăng lên 265k

điểm trong hình ảnh được gọi là vấn đề Nhận dạng âm nhạc quang học đào tạo mẫu bằng cách xoay vòng, thay đổi tỷ lệ và làm hỏng với

(OMR). Các phương pháp trước đây thường yêu cầu xử lý trước tuổi im nhiễu, và bằng cách thay thế nền của chúng bằng các độ tuổi im tự nhiên.

(chủ yếu là binirization), phát hiện dòng nhân viên Để thử nghiệm, chúng tôi tạo ba tập dữ liệu: 1) “Sạch sẽ”,
Machine Translated by Google

trong đó có 260 hình ảnh được thu thập từ [2]. Các ví dụ Chuyển hướng. 4 tóm tắt kết quả. CRNN vượt trội hơn cả hai hệ

được thể hiện trong Hình 5.a; 2) "Tổng hợp", được tạo thống thương mại nhờ một tỷ suất lợi nhuận lớn. Các

từ “Sạch sẽ”, sử dụng chiến lược nâng cao được đề cập Hệ thống Capella Scan và PhotoScore hoạt động hợp lý

ở trên. Nó chứa 200 mẫu, một số mẫu được hiển thị tốt trên tập dữ liệu Clean, nhưng hiệu suất của chúng giảm đáng kể

trong Hình 5.b; 3) “Thế giới thực”, chứa 200 hình ảnh trên dữ liệu tổng hợp và trong thế giới thực. Chính

trong tổng số các đoạn nhạc được lấy từ sách nhạc bằng điện thoại lý do là họ dựa vào tính năng mã hóa nhị phân mạnh mẽ để phát hiện nhân viên

Máy ảnh. Các ví dụ được thể hiện trong Hình 5.c.1 dòng và ghi chú, nhưng bước mã hóa nhị phân thường không thành công trên dữ

liệu có kích thước đồng bộ và trong thế giới thực do điều kiện ánh sáng không tốt,

tham nhũng tiếng ồn và nền lộn xộn. CRNN, đang bật

mặt khác, sử dụng các tính năng phức hợp có

mạnh mẽ với tiếng ồn và biến dạng. Bên cạnh đó, các lớp lặp lại trong
CRNN có thể sử dụng thông tin ngữ cảnh trong điểm số. Mỗi

ghi chú không chỉ được công nhận mà còn được công nhận bởi những người lân cận

ghi chú. Do đó, một số ghi chú có thể được nhận ra bằng cách ghép

chúng với các ghi chú gần đó, ví dụ: đối chiếu

các vị trí thẳng đứng.

Kết quả đã cho thấy tính tổng quát của CRNN, trong đó

nó có thể dễ dàng áp dụng cho chuỗi dựa trên hình ảnh khác

các vấn đề về nhận dạng, yêu cầu cạnh hiểu biết miền tối thiểu. So

với Capella Scan và PhotoScore,

Hệ thống dựa trên CRNN vẫn còn sơ khai và thiếu nhiều

các chức năng. Nhưng nó cung cấp một sơ đồ mới cho OMR và

đã cho thấy khả năng đầy hứa hẹn trong việc nhận dạng cao độ.

Hình 5. (a) Hình ảnh điểm nhạc sạch được thu thập từ [2] (b) 4. Kết luận
Hình ảnh bản nhạc tổng hợp. (c) Hình ảnh tỷ số trong thế giới thực

được chụp bằng máy ảnh điện thoại di động. Trong bài báo này, chúng tôi đã trình bày một kiến trúc công trình

mạng nơ-ron mới, được gọi là Nơ-ron tái diễn

Vì chúng tôi có dữ liệu đào tạo hạn chế, chúng tôi sử dụng cấu Mạng (CRNN), tích hợp những ưu điểm của cả hai

hình CRNN đơn giản hóa để giảm dung lượng mô hình. Khác với cấu hình Mạng nơ-ron liên kết (CNN) và Mạng nơ-ron tái diễn (RNN). CRNN có

được chỉ định trong Tab. 1, thể lấy hình ảnh đầu vào của

lớp chập thứ 4 và thứ 6 bị loại bỏ, và các thứ nguyên khác nhau và đưa ra các dự đoán với các

LSTM hai chiều 2 lớp được thay thế bằng LSTM định hướng sin gle 2 độ dài. Nó trực tiếp chạy trên các nhãn mức thô (ví dụ: từ),

lớp. Mạng được đào tạo trên các cặp không yêu cầu chú thích chi tiết cho từng ele ment riêng lẻ (ví dụ:

hình ảnh và chuỗi nhãn tương ứng. Hai đơn kiện nhỏ được sử dụng để ký tự) trong giai đoạn đào tạo. Hơn thế nữa,

đánh giá hoạt động ghi nhận: vì CRNN từ bỏ các lớp được kết nối đầy đủ được sử dụng trong các

1) độ chính xác của phân mảnh, tức là tỷ lệ phần trăm của các mảnh điểm mạng nơ-ron đồng màu, điều này dẫn đến kết quả nhỏ gọn hơn nhiều

được công nhận một cách chính xác; 2) khoảng cách chỉnh sửa trung bình, và mô hình hiệu quả. Tất cả các thuộc tính này làm cho CRNN trở thành

tức là khoảng cách chỉnh sửa trung bình giữa các chuỗi cao độ dự đoán và cách tiếp cận tuyệt vời để nhận dạng chuỗi dựa trên hình ảnh.

sự thật nền tảng. Để so sánh, chúng tôi đánh giá hai động cơ OMR Các thử nghiệm trên điểm chuẩn nhận dạng văn bản cảnh chứng minh

thương mại, cụ thể là Capella Scan [3] và rằng CRNN đạt được

Điểm ảnh [4]. hiệu suất cạnh tranh, so với thông thường

các phương pháp cũng như các thuật toán dựa trên CNN và RNN khác.
Bảng 4. So sánh độ chính xác nhận dạng cao độ, giữa các
Điều này khẳng định những ưu điểm của thuật toán được đề xuất. Trong
CRNN và hai hệ thống OMR thương mại, trên ba bộ dữ liệu
ngoài ra, CRNN vượt trội đáng kể so với các loại côn trùng cạnh tranh
chúng tôi đã thu thập. Hiệu suất được đánh giá bằng độ chính xác của đoạn và
khác trên điểm chuẩn cho Nhận dạng âm nhạc quang học (OMR),
khoảng cách chỉnh sửa trung bình (“độ chính xác của đoạn / chỉnh sửa trung bình
xác minh tính tổng quát của CRNN.
khoảng cách").

Lau dọn Trên thực tế, CRNN là một khuôn khổ chung, do đó nó có thể
Thế giới thực tổng hợp

20,0% / 2,31 43,5% / 3,05 áp dụng cho các miền và vấn đề khác (chẳng hạn như tiếng Trung
Capella Scan [3] 51,9% / 1,75 Điểm

ảnh [4] 55,0% / 2,34 28,0% / 1,85 20,4% / 3,00 nhận dạng ký tự), liên quan đến dự đoán trình tự

CRNN 74,6% / 0,37 81,5% / 0,30 84,0% / 0,30 trong hình ảnh. Để tăng tốc CRNN hơn nữa và làm cho nó nhiều hơn

thực tế trong các ứng dụng trong thế giới thực là một hướng khác
1Chúng tôi sẽ phát hành bộ dữ liệu để sử dụng trong học tập. rất đáng để khám phá trong tương lai.
Machine Translated by Google

Nhìn nhận [20] M. Jaderberg, K. Simonyan, A. Vedaldi và A. Zisserman.


Dữ liệu tổng hợp và mạng nơ-ron nhân tạo để nhận dạng văn bản
Công việc này chủ yếu được hỗ trợ bởi National Natural cảnh tự nhiên. Hội thảo Học sâu NIPS, 2014. 5 [21] M. Jaderberg,
Quỹ Khoa học Trung Quốc (NSFC) (Số 61222308). K. Simonyan, A. Vedaldi, và A. Zisserman.
Học tập đầu ra có cấu trúc sâu cho ý tưởng nhận lại văn bản
Người giới thiệu
không bị giới hạn. Trong ICLR, 2015. 6, 7 [22] M. Jaderberg, K.

Simonyan, A. Vedaldi, và A. Zisserman.


[1] http://hunspell.sourceforge.net/. 4, 5 [2] https://
Đọc văn bản trong tự nhiên với mạng nơ-ron phức hợp.
musescore.com/sheetmusic. 7, 8 [3] http://www.capella.de/us/
IJCV (Được chấp nhận), 2015. 1, 2,
index. cfm / products / capella-scan / info-capella-scan /. 8
3, 6, 7 [23] M. Jaderberg, A. Vedaldi, và A. Zisserman. Các tính năng
[4] http://www.sibelius.com/products/ photoscore /
chuyên sâu để đánh dấu văn bản. Trong ECCV, 2014. 2, 6, 7 [24]
ultimate.html. 8 [5] J. Almazan, A. Gordo, A. Forn es,
D. Karatzas, F. Shafait, S. Uchida, M. Iwamura, LG i Big orda, SR
và E. Valveny. Phát hiện và nhận dạng từ với các thuộc tính
Mestre, J. Mas, DF Mota, J. Almazan, và ´ L. de las Heras. ICDAR
nhúng. PAMI, 36 (12): 2552–2566, 2014. 2, 6, 7
´ ´ 2013 cuộc thi đọc mạnh mẽ.
Trong ICDAR, 2013. 5

[25] A. Krizhevsky, I. Sutskever và GE Hinton. Phân loại Imagenet với


mạng nơ-ron phức hợp sâu. Trong NIPS, 2012. 1, 3
[6] O. Alsharif và J. Pineau. Nhận dạng văn bản từ đầu đến cuối với
các mô hình tối đa HMM kết hợp. ICLR, 2014. 6, 7 [7] Y. Bengio,
[26] Y. LeCun, L. Bottou, Y. Bengio, và P. Haffner. Học tập dựa trên
PY Simard, và P. Frasconi. Học các phụ thuộc dài hạn với độ dốc
Gradient được áp dụng để nhận dạng tài liệu. Tiếp tục thực hiện
gradient là rất khó. NN, 5 (2): 157–166, 1994. 3 [8] A. Bissacco,
IEEE, 86 (11): 2278–2324, 1998. 1 [27] SM Lucas, A. Panaretos,
M. Cummins, Y. Netzer, và H. Neven. Pho toocr: Đọc văn bản trong

điều kiện không kiểm soát. Trong ICCV, 2013. 1, 2, 6, 7 [9] WA L. Sosa, A. Tang, S. Wong, R. Young, K. Ashida, H. Nagai, M. Okamoto,

Burkhard và RM Keller. Một số cách tiếp cận để tìm kiếm tệp đối H. Yamamoto, H. Miyao, J. Zhu, W. Ou, C. Wolf, J. Jolion, L.

sánh tốt nhất. Commun. ACM, 16 (4): 230–236, 1973. 4 Todoran, M. Worring, và X. Lin. ICDAR 2003 kiến nghị com đọc
mạnh mẽ: mục nhập, kết quả và định hướng trong tương lai.
IJDAR, 7 (2 - 3): 105–122, 2005. 5 [28] A. Mishra, K. Alahari,
và CV Jawahar. Chú thích văn bản cảnh sử dụng ngôn ngữ bậc cao

[10] R. Collobert, K. Kavukcuoglu, và C. Farabet. Torch7: Một môi hơn. Trong BMVC, 2012. 5, 6, 7

trường giống như matlab để học máy. Trong BigLearn, NIPS


Workshop, 2011. 6 [11] FA Gers, NN Schraudolph, và J. Schmidhuber.

Tìm hiểu cách tính thời gian chính xác với mạng lặp lại LSTM. JMLR, [29] A. Rebelo, I. Fujinaga, F. Paszkiewicz, ARS Marc¸al, C. Guedes,

3: 115–143, 2002. 3 và JS Cardoso. Nhận dạng âm nhạc quang học: các vấn đề hiện đại
và mở. IJMIR, 1 (3): 173–190, 2012. 7

[12] RB Girshick, J. Donahue, T. Darrell và J. Malik. Hệ thống phân

cấp tính năng phong phú để phát hiện đối tượng chính xác và [30] JA Rodr´ıguez-Serrano, A. Gordo và F. Perronnin. Nhúng nhãn: Một

phân đoạn ngữ nghĩa. Trong CVPR, 2014. 1, 3 [13] V. Goel, A. đường cơ sở tiết kiệm để nhận dạng văn bản. IJCV, 113 (3): 193–

Mishra, K. Alahari, và CV Jawahar. Toàn bộ lớn hơn tổng các phần: 207, 2015. 2, 6, 7

Nhận dạng các từ văn bản cảnh. Trong ICDAR, 2013. 6, 7 [31] DE Rumelhart, GE Hinton, và RJ Williams. Điện toán thần kinh:

Cơ sở nghiên cứu. chương Học tập các phản hồi của Người đại

[14] A. Gordo. Các tính năng cấp trung được giám sát để gửi lại đại diện do Lỗi lan truyền ngược, trang 696–699.

diện hình ảnh từ. Trong CVPR, 2015. 2, 6, 7 [15] A. Graves, S. MIT Press, 1988. 5
´
Fernandez, FJ Gomez, và J. Schmidhu- ber. Phân loại theo thời gian [32] K. Simonyan và A. Zisserman. Mạng màu sắc bìm bìm rất sâu để

của người kết nối: gắn nhãn dữ liệu chuỗi được đề cập chưa nhận dạng hình ảnh quy mô lớn. CoRR, abs / 1409.1556, 2014. 5

được xác định với mạng nơ-ron lặp lại. Trong ICML, 2006. 4, 5 [33] B. Su và S. Lu. Nhận dạng văn bản cảnh chính xác dựa trên

mạng nơ-ron lặp lại. Trong ACCV, 2014. 2, 6, 7

[16] A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, và


J. Schmidhuber. Một hệ thống kết nối mới để nhận dạng chữ viết [34] K. Wang, B. Babenko và S. Belongie. Nhận dạng văn bản cảnh từ
tay không bị giới hạn. PAMI, 31 (5): 855–868, 2009. 2 [17] A. đầu đến cuối. Trong ICCV, 2011. 5, 6, 7
Graves, A. Mohamed, và GE Hinton. Nhận dạng giọng nói với mạng [35] T. Wang, DJ Wu, A. Coates, và AY Ng. Nhận dạng văn bản end-to-end
nơ-ron lặp lại sâu. Trong ICASSP, 2013. 3 với mạng nơ-ron phức hợp. Trong ICPR, 2012. 1, 6, 7

[36] C. Yao, X. Bai, B. Shi, và W. Liu. Strokboards: Một đại diện đa


[18] S. Hochreiter và J. Schmidhuber. Trí nhớ ngắn hạn dài hạn. tỷ lệ đã học để nhận dạng văn bản cảnh. Trong CVPR, 2014. 2, 6,
Tính toán thần kinh, 9 (8): 1735–1780, 1997. 3 7 [37] MD Zeiler. ADADELTA: một phương pháp tỷ lệ học tập thích
[19] S. Ioffe và C. Szegedy. Chuẩn hóa hàng loạt: Đẩy nhanh quá trình ứng.
đào tạo mạng sâu bằng cách giảm sự thay đổi hiệp biến nội bộ. CoRR, abs / 1212.5701, 2012. 5
Trong ICML, 2015. 6

You might also like