You are on page 1of 6

Xây dựng hệ thống chuyển hình ảnh công thức toán

sang Latex bằng mô hình Im2Latex Transfomer


Hoàng Minh Thanh Trần Hữu Nghĩa Nguyễn Thiện Dương
Khoa Học Máy Tính Khoa Hệ Thống Thông Tin Khoa Hệ Thống Thông Tin
Trường Đại Học Khoa Học Tự Nhiên Trường Đại Học Khoa Học Tự Nhiên Trường Đại Học Khoa Học Tự Nhiên
TP. Hồ Chí Minh, Việt Nam TP. Hồ Chí Minh, Việt Nam TP. Hồ Chí Minh, Việt Nam
hmthanhgm@gmail.com tranhuunghia120@gmail.com thienduong1711998@gmail.com

Tóm tắt nội dung—Sự thành công của Mô hình Transformer mang tính lặp lại như đự đoán chứng khoán hoặc tóm tắt
[1] không chỉ được áp dụng trong các bài toán xử lý ngôn ngữ văn bản..., thì cấu trúc mạng phải học được mối quan hệ từ
tự nhiên mà còn được áp dụng trong bài toán nhận dạng hình những điểm dữ liệu gần nhất với lịch sử trước đó. Mô hình
ảnh, cụ thể hơn là mô hình ViT [2] (Vision Transfomer). Tuy
nhiên chúng vẫn chưa phù hợp với các bài toán cụ thể trong thực
phổ biến cho phương pháp này là Recurrent neural network
tế mà cần tính chỉnh để đạt kết quả cao hơn theo yêu cầu của (RNN). Tuy nhiên nhược điểm của RNN là dễ bị tiêu biến
từng bài toán cụ thể . Chính vì vậy trong bài báo này chúng tôi hoặc bùng nổ đạo hàm (exploding/vanishing gradient) và chỉ
đề xuất mô hình Im2Latex Transfomer, mô hình bao gồm phần học được các đặc trưng lân cận. Để giải quyết vấn đề này,
encode và decode. Với xương sống của encode là mô hình Resnet một mô hình mạng được đề xuất là mô hình Long short-term
[3] được tùy chỉnh, và decoder là mô hình Transfomer cải tiến. memory(LSTM). Ưu điểm của LSTM là có thể huấn luyện với
Đóng góp của chúng tôi là tùy chỉnh lại mô hình Transfomer
kích thước chuỗi(sequence) lớn hơn mà đạo hàm của chúng
bằng cách thêm các layer chuẩn hóa ở đầu mô hình và bổ sung
thêm kỹ thuật phân tách các đầu ra của mô hình để đạt được vẫn ổn định, với cơ chế chỉ giữ lại một phần đặc trưng đã học
kết quả tốt hơn, ngoài ra mã nguồn thuật toán cũng được công được, và có thể ghi nhớ được các đặc trưng xa hơn. Tuy nhiên
khai. Mô hình Im2Latex Transfomer đạt được kết quả cải thiện LSTM lại bị giới hạn bởi khả năng tính toán song song, bởi
đáng kể không chỉ trên dữ liệu thực nghiệm mà còn trên cả ứng các mô hình học sâu cần một lượng dữ liệu rất lớn để có thể
dụng thực tế. khái quát hóa được hàm xấp xỉ tốt nhất. Chính vì vậy mô hình
Index Terms—image to latex, orc, image recognition, sequence
to sequence, transfomer model
Transfomer [1] được đề xuất năm 2017 bởi các nhóm nghiên
cứu từ Google với ưu điểm là có thể tận dụng được khả năng
I. GIỚI THIỆU tính toán song song của phần cứng, đặc điểm chính của mô
Bài toán nhận dạng hình ảnh từ văn là một bài toán rất phổ hình Transfomer là tính được hệ số chú ý của một phần tử
biến và có ý nghĩa thực tế. Với rất nhiều hướng tiếp cận khác đến tất các cả phần tử khác trong trong chuỗi theo kích thước
nhau, từ các phương pháp cổ điến như SVM, KNN,.. đến các cố định đầu vào, không chỉ vậy nó còn học được thông tin
thuật toán phức tạp cần khối lượng tính toán lớn. Tiêu biểu theo cả hai chiều cùng lúc. Mô hình Transformer không chỉ
như các phương pháp học sâu (deep learning) dự trên cơ chế
chú ý và mạng Transfomer với kết quả tốt nhất hiện nay. Vì
vậy chúng tôi chọn nhóm phương pháp này để sử dụng cho
bài toán nhận dạng hình ảnh toán học chuyển sang ngôn ngữ
LATEX.
Sau thời kỳ ngủ đông của học sâu, ngày nay các hệ thống
học sâu đã được áp dụng rộng rãi trong thực tế. Từ hệ thống
cho xe tự lái của Tesla dựa trên các hình ảnh thu được của
các camera hoặc cảm biến [4], đến công cụ tìm kiếm của
Google đưa ra kết quả tìm kiếm tốt hơn cũng dựa trên hàng
Hình 1: Quá trình chuyển hình ảnh công thức toán học sang LATEX.
tỷ dữ liệu thu thập được [5]... Tất cả các hệ thống trên đều
sử dụng các mô hình học sâu với kiến trúc nền tảng là mạng là một mô hình đạt được kết quả cao mà ưu điểm rất lớn của
neuron (neuron network). Các yêu cầu bài toán khác nhau sẽ chúng chính là khả năng module khóa. Nghĩa là chúng ta có
được giải quyết bởi các cấu trúc mạng khác nhau. Cụ thể thể ghép chồng lên nhau để đạt hiệu quả tốt hơn. Chính vì vậy
như các bài toán nhận dạng hình ảnh thì đầu vào cần phải rất nhiều mô hình được đề xuất như BERT, Megatron, GPT3,..
đưa vào các lớp tích chập để lọc ra các đặc trực cần thiết được đề xuất với bản chất là các mô hình Transfomer được
trước khi đi vào các mạng neuron network, với các bài toán ghép chồng lên nhau.

Mã nguồn công khai : https://github.com/hmthanh/Im2Latex_Transformer Với bài toán chuyển từ hình ảnh công thức toán học sang
các ký tự latex là dạng bài toán seq2seq. Mục tiêu chính trong theo như hình trên thì có 2 layer, F = W2 σ (W1 x) trong đó σ
bài toán này ở các phương pháp học sâu là ánh xạ các đặt có nghĩa là ReLU [7] Kích thước của x và F phải bằng nhau
trưng hình ảnh đầu vào lên không gian có số chiều lớn hơn, ta có thể thực hiện phép chiếu tuyến tính W bằng các kết nối
và từ đó để phân tác các đặc trưng và ánh xạ ngược trở lại phím tắt để phù hợp với các kích thước:
về với không gian của đặc trưng đầu ra mong muốn. Mô hình
y = F (x, {Wi }) + Ws x
Transfomer và các cải tiến của chúng đã được sử dụng rộng
rãi, đạt được kết quả cao ở những nghiên cứu gần nhất đồng Chúng ta cũng có thể sử dụng ma trận vuông Ws trong phương
thời cũng là mô hình phù hợp với bài toán seq2seq, chính vì trình trên nhưng chỉ phủ hợp trong thử nghiệm
vậy chúng tôi sử dụng mô hình này làm cơ sở nghiên cứu xây
dựng hệ thống nhận dạng hình ảnh công thức toán học sang B. Mô hình Transfomer
latex.
1) Cơ chế attention: Cốt lõi của mô hình các Transfomer
Đầu tiên chúng tôi sẽ trình bày về các mô hình cơ bản ở là cơ chế chú ý (attention mechanism). Cơ chế attention bao
phần II, từ đó chúng tôi sẽ trình bày mô hình cơ sở (baseline) gồm 3 thành phần: Query (truy vấn), Key (khóa) và Value (giá
phần III.1 và phần cải tiến của chúng tôi ở phần III.2. Cuối trị). Với cặp khóa key-value được coi như là một từ điển, đầu
cùng chúng tôi sẽ trình bày về kết quả thực nghiệm của mô tiên Query sẽ được nhân tích vô hướng với Key để tính độ lớn
hình mới so với mô hình cơ sở. về sự tương đồng của hai vector và chuẩn hóa lại để có thể so
II. CÁC PHƯƠNG PHÁP LIÊN QUAN sánh. Cuối cùng kết quả sẽ được nhân với Value để lấy ra giá
trị. Kết quả cuối cùng thể hiện hệ số của từng phần tử trong
A. Mô hình ResNet Query với tất cả các phần tử khác trong tập Value. Mô hình
Mạng ResNet (Residual neural network) là một mạng CNN Transfomer là tổng hợp của nhiều lớp Self-attention (tư chú ý)
được thiết kế để làm việc với hàng trăm hoặc hàng nghìn lớp với nhau. Kiến trúc của chúng bao gồm các lớp encoder (mã
tích chập. Một vấn đề xảy ra khi xây dựng mạng CNN với hóa) và các lớp decoder (giả mã), mục tiêu của lớp encoder
nhiều lớp chập sẽ xảy ra hiện tượng Vanishing Gradient [6] là biến đổi các đặc trưng đầu vào lên không gian có số chiều
dẫn tới quá trình học tập không tốt. ResNet đưa ra là sử dụng lơn hơn để có thể dễ dàng phân tách các đặc trưng trên không
kết nối "tắt" đồng nhất để xuyên qua một hay nhiều lớp. Một gian mới và cuối cùng là ánh xạ kết quả ngược trở lại ở các
khối như vậy được gọi là một Residual Block. ResNet gần lớp decoder.

Hình 2: Hình ảnh một Residual Block


như tương tự với các mạng gồm có convolution, pooling,
activation và f ully − connected layer. Ảnh 2 hiển thị khối
dư được sử dụng trong mạng. Xuất hiện một mũi tên cong
xuất phát từ đầu và kết thúc tại cuối khối dư. Hay nói cách
khác là sẽ bổ sung Input x vào đầu ra của layer, hay chính
là phép cộng mà ta thấy trong hình minh họa 2, việc này sẽ
chống lại việc đạo hàm bằng 0, do vẫn còn cộng thêm x. Với
H(x) là giá trị dự đoán, F(x) là giá trị thật (label), chúng ta
muốn H(x) bằng hoặc xấp xỉ F(x). Việc F(x) có được từ x Hình 3: Ví dụ của Q ∗ K và cuối cùng nhân với V
như sau: Scale dot product attention là là một cơ chế self-attention
F(x) := H(x) − x khi mỗi từ có thể điều chỉnh trọng số của nó cho các từ khác
trong câu sao cho từ ở vị trí càng gần nó nhất thì trọng số
Giá trị H(x) có được bằng cách: càng lớn và càng xa thì càng nhỏ dần. Sau bước nhúng từ (đi
H(x) := F(x) + x qua embeding layer) ta có đầu vào của encoder và decoder là
ma trận X kích thước m × n, m, n lần lượt là là độ dài câu và
Chúng ta xem một Residual Block là số chiều của một vector nhúng từ K và V. Ba ma trận chính
Wq , Wk , Wv là những hệ số mà model cần huấn luyện. Sau
y = F (x, {Wi }) + x
khi nhân các ma trận này với ma trận đầu vào X ta thu được
Ở đây ta xem x và y là đầu vào và ra vector của layer.Hàm ma trận Q, K, V, Ma trận Query và Key có tác dụng tính toán
F (x, {Wi }) đại diện cho khối dư ánh với khối dư được học ra phân phối score cho các cặp từ. Ma trận Value sẽ dựa trên
phân phối score để tính ra vector phân phối xác suất output. và tiếng nói. Transformer không xử lý các phần tử trong một
Trong thực tế chúng ta tính toán hàm attention trên toàn bộ chuỗi một cách tuần tự. Nếu dữ liệu đầu vào là một câu ngôn
tập các câu truy vấn một cách đồng thời được đóng gói thông ngữ tự nhiên, Transformer không cần phải xử lý phần đầu câu
qua ma trận Q keys và values cũng được đóng gói cùng nhau trước rồi mới tới phần cuối câu. Do tính năng này, Transformer
thông qua ma trận có thể tận dụng khả năng tính toán song song của GPU và
Công thức Attention được tính như sau: giảm thời gian xử lý đáng kể.
Encoder: là tổng hợp xếp chồng lên nhau của 6 layers xác
QK T
 
Attention(Q, K, V ) = softmax √ V định. Mỗi layer bao gồm 2 layer con (sub-layer) trong nó. Sub-
dk layer đầu tiên là multi-head self-attention mà lát nữa chúng ta
Việc chia cho dk là số dimension của vector key nhằm mục sẽ tìm hiểu. Layer thứ 2 đơn thuần chỉ là các fully-connected
đích tránh tràn luồng nếu số mũ là quá lớn. Như vậy sau quá feed-forward layer. Một lưu ý là chúng ta sẽ sử dụng một kết
trình Scale dot production chúng ta sẽ thu được một ma trận nối residual ở mỗi sub-layer ngay sau layer normalization. Kiến
attention. Các tham số mà model cần tinh chỉnh chính là các trúc này có ý tưởng tương tự như mạng resnet trong CNN. Đầu
ma trận Wq , Wk , Wv . Mỗi quá trình như vậy được gọi là 1 ra của mỗi sub-layer là Layer N orm(x + Sublayer(x)) có số
head của attention. Khi lặp lại quá trình này nhiều lần (3 heads) chiều là 512 [1].
[1] ta sẽ thu được quá trình Multi-head Attention. Sau khi thu 3) Vision Transformer: Sự ra đời của mô hình Transfomer
được 3 matrix attention ở đầu ra chúng ta sẽ concatenate các không chỉ là thành công trong các bài toán xử lý ngôn ngữ
matrix này theo các cột để thu được ma trận tổng hợp multi- tự nhiên mà còn trong các bài toán xử lý ảnh hay nhận dạng
head matrix có chiều cao trùng với chiều cao của ma trận đối tượng. Với tiêu biểu là mô hình ViT (Vision Transformer),
input. cơ chế attention đã được chứng minh là tổng quát hơn so với
phương pháp tính tích chập truyền thống của xử lý ảnh [8].
MultiHead(Q, K, V ) = Concat (head1 , . . . , head h ) W O Vision Transformer [2] là sự kết hợp của 1 phần kiến trúc
 
head = Attention QWiQ , KWiK , V WiV của Transformer và các khối MLP (Multilayer Perceptron).
Mô hình này nhằm giải quyết bài toán phân loại ảnh (Image
Để trả về output có cùng kích thước với ma trận input chúng classification)
ta chỉ cần nhân với ma trận W0 chiều rộng bằng với chiều Kiến trúc của mô hình gồm 3 thành phần chính: Linear
rộng của ma trận input. Projection and Flattend Patches,Transformer encoder, Classi-
fication head. Vision Transformer xử lý bằng cách chia ảnh
ra thành các phần có kích thước bằng nhau(patch) Bước tiếp
theo, đưa các patches này về dạng vector bằng cách flattend
các patches này ra. Linear Projection là một lớp Dense với đầu
vào là flattend vector của các patches, đầu ra sẽ là embeeding
vector tương ứng với từng patch. zi = W ∗ xi + b Trong đó
zi là flattend vector của patch thứ i,zi là output tương ứng
của xi khi qua Linear Projection và W được gọi là ma trận
embeeding .
Classification Head là một khối MLP (Multilayer percep-
tron) nhận đầu vào là context vector c trả về từ Transformer
Encoder và đưa ra kết quả cuối cùng là xác suất tương ứng
với các class.
III. MÔ HÌNH IM2LATEX TRANSFOMER
Mục tiêu chung của các mô hình học sâu là biến đổi các
vector đầu vào lên không gian vector lớn hơn, từ đó phân
tách, tính toán và cuối cùng ánh xạ ngược trở lại kết quả đầu
ra mong muốn. Với bài toán nhận dạng các ký tự latex, đầu
tiên dữ liệu các hình ảnh đầu vào cần được vào các bước tiền
Hình 4: Kiến trúc Transfomer bao gồm encoder và decoder xử lý.
2) Mô hình Transformer: Một mô hình học sâu được thiết
kế để phục vụ giải quyết nhiều bài toán trong xử lý ngôn ngữ
Hình 5: Minh họa về từng thành phần của hình ảnh được nhận dạng dưới dạng Latex

Mô hình WYGIWYS [9] [What you get is what you see]


được là mô hình cơ sở bao gồm hai thành phần chính là mô
hình Encoder và Decoder. Phần encoder mô hình cơ sở áp dụng
mô hình Resnet với đặc điểm là các lớp layer được chồng lên
áp, dụng các kỹ thuật như Dropout và Redisual learning để
đạt được độ chính xác cao hơn để giảm vấn đề triệt tiêu hay
bùng nổ đạo hàm khi đã chồng nhiều lớp layer lên với nhau.
Mục tiêu của lớp encoder là tạo ra các lớp lọc (filter) kết quả
đầu vào và trích xuất các đặc trưng có được từ kết quả đầu
vào. Sau khi có được các đặc trưng đầu vào, mô hình sẽ tiếp
tục đi qua lớp Decoder đầu ra. Mục tiêu của các lớp đầu ra
là chuyển đổi từng thành phần trong kết quả đầu và thành kết
quả đầu ra với mong muốn đạt được kết quả ánh xạ tốt nhất
có thể.
Với đặc trưng các hình ảnh đầu vào là các công thức toán
học, và chúng ta không cận tập trung qúa nhiều vào việc tạo
ra các lớp lọc, mô hình sẽ học được các kết quả lọc của bài
toán nhận dạng đối tượng thông thường. Chính vì vậy ở lớp
đầu vào chúng tôi áp dụng một loạt các lớp với mục tiêu là
chuẩn hóa để giảm ảnh hưởng của các màu sắc, và ảnh hưởng
của mô hình.
Cải tiến của mô hình Im2Latex là thay vì áp dụng các lớp
học dày đặc (dense layers), phần decoder được áp dụng mô
hình Transfomer để tìm được sự quan hệ giữa các đặc trưng
của phần encoder.
Hình 6: Minh họa về thuật toán Im2Latex Transfomer
IV. KẾT QUẢ THỰC NGHIỆM
Test Validation Train
A. Các tập dữ liệu Im2Latex-100k 10355 ảnh 9320 ảnh 83884 ảnh
Để thực hiện việc đánh giá hiệu suất của mô hình , chúng tôi CROHME 10822 ảnh
đã tiến hành việc kiểm nghiêm trên 2 bộ dataset là : im2latex- Bảng I: Thông kê thành phần các tập dữ liệu
100k và CROHME 2013.
1) Tập dữ liệu Image2Latex-100k: 2) Tập dữ liệu CROHME: Bộ dữ liệu cung cấp hơn 10.000
Tập dữ liệu IM2Latex-100k thu thập một lượng lớn các biểu biểu thức được viết tay bởi hàng trăm nhà văn từ các quốc
thức toán học trong thế giới thực được viết bằng LaTeX. Được gia khác nhau, kết hợp các bộ dữ liệu từ cuộc thi CROHME
nhóm OpenAI sử dụng cho tác vụ chuyển hình ảnh sang ngôn [10]. Các nhà văn được yêu cầu sao chép các biểu thức đã in
ngữ latex. từ một kho biểu thức.
Tập dữ liệu bao gồm khoảng 100 ngàn công thức và được
chia các bộ training, test và validation. Mỗi hình ảnh đầu
vào là một hình PNG với kích thước cố định. Công thức đầu
vào là màu đen ngược lại là transparent. Bộ dataset bao gồm
được chia ra các nhóm sau :
Kho ngữ liệu đã được thiết kế để bao gồm sự đa dạng được
đề xuất bởi các nhiệm vụ khác nhau và chọn lọc từ kho ngữ • wi = N −1
liệu Toán học hiện có và từ các biểu thức được nhúng trong • Lref : là số lượng các từ trong bản dịch tham khảo, độ dài
các trang wikipedia. Các thiết bị khác nhau đã được sử dụng của nó thường là gần bằng độ dài của bản dịch bằng máy.
(các công nghệ bút kỹ thuật số khác nhau, thiết bị nhập bảng • Ltra : là số lượng các từ trong bản dịch bằng máy
trắng, máy tính bảng có màn hình nhạy) nên các tỷ lệ và độ Giá trị BLEU đánh giá mức độ tương ứng giữa hai bản
phân giải khác nhau được sử dụng. dịch và nó được thực hiện trên từng phân đoạn, ở đây phân
Dữ liệu này cho phép nghiên cứu về sự kết hợp quyết định đoạn được hiểu là đơn vị tối thiểu trong các bản dịch, thông
hoặc các chỉ số đánh giá. Tập dữ liệu CROHME bao gồm thường mỗi phân đoạn là một câu hoặc một đoạn.BLEU có
phân đoạn, nhãn và bố cục của mỗi phép toán học bằng cách giá trị trong khoảng (0.0; 1.0). 1.0 tức là perfect match, đúng
sử dụng các phiên bản INKML và MATHML [11]. Ngoài ra hoàn toàn, còn 0.0 tức là perfect mismatch, không đúng tí nào
bộ dữ liệu còn ghi nhận thêm các thông tin sau: cả.Việc thống kê đồ trùng khớp của các n-grams dựa trên tập
• Các kênh (the channels) (ở đây, X và Y); hợp các ngrams trên các phân đoạn, trước hết là nó được tính
• Thông tin người viết (the writer information):nhận dạng, trên từng phân đoạn, sau đó tính lại giá trị này trên tất cả các
thuận tay (trái / phải), tuổi, giới tính, v.v.), nếu có; phân đoạn.
• Sự thật nền tảng của LaTeX (the LaTeX ground Theo công thức trên , ta có giá trị cuối cùng là :
truth):không có bất kỳ tham chiếu nào đến mực in và √4
Bleuscore = P 1 ∗ P 2 ∗ P 3 ∗ P 4
do đó, dễ kết xuất;
• Mã nhận dạng duy nhất của mực (UI)(the unique identi- Trong đó:
fication code of the ink); • P1 Khới số lượng câu đầu ra.
Định dạng InkML tạo các tham chiếu giữa mực kỹ thuật • P2 Khới với đầu ra nhưng giá trị trong câu giống nhau.
số của biểu thức, sự phân đoạn của nó thành các ký hiệu và • P3 Khới với đầu ra nhưng không theo thứ tự.
biểu diễn MathML của nó. Do đó, phân đoạn nét của một biểu • P4 Khới với từng đoạn trong đầu ra.
tượng có thể được liên kết với biểu diễn MathML của nó.
Các biểu thức được công nhận là kết quả đầu ra của hệ C. Kết quả thực tế dựa trên tập dữ liệu huấn luyện
thống nhận dạng của các đối thủ cạnh tranh. Nó sử dụng cùng Đầu vào mô hình là các hình ảnh đã được chuẩn hóa trước
một định dạng InkML, nhưng không có thông tin về mực (chỉ khi đưa vào mô hình, kết quả đầu ra sẽ được phân đoạn và
phân đoạn, nhãn và cấu trúc MathML). hiển thị thông qua thư viện KaT ex
B. Các độ do dùng để đánh giá
Base-line model Im2Latex Transformer
1) The Baseline BLEU Metric: BLEU là một phương pháp
BLEU-1-gram 0.92 0.94
dùng để đánh giá chất lượng bản dịch được đề xuất bới IBM
BLEU-2-gram 0.88 0.86
tại hội nghị ACL ở Philadelphie vào tháng 7-2001 [12]. Ý
BLEU-3-gram 0.69 0.76
tưởng chính của phương pháp là so sánh kết quả bản dịch tự
BLEU-4-gram 0.42 0.47
động bằng máy với một bản dịch chuẩn dùng làm bản đối
BLEU-total 0.70 0.73
chiếu. Việc so sánh được thực hiện thông qua việc thống kê
sự trùng khớp của các từ trong hai bản dịch có tính đến thứ Bảng II: Bản kết quả thực nghiệm
tự của chúng trong câu (phương pháp n-grams theo từ) [13].
Chúng tôi huấn luyện mô hình Im2Latex Transfomer trên
Phương pháp này dựa trên hệ số tương quan giữa bản dịch
GPU Tesla T4 trong khoảng hơn 4h. Chúng tôi lưu checkpoint
máy và bản dịch chính xác được thực hiện bởi con người để
được các trong số mô hình và training thêm một lần nữa mô
đánh giá chất lượng của một hệ thống dịch. Việc đánh giá
hình từ trong số đã có thêm 7h để đạt được kết quả tốt nhất.
được thực hiện trên kết quả thống kê mức độ trùng khớp các
n-grams (dãy ký tự gồm n từ hoặc ký tự) từ kho dữ liệu của V. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
kết quả dịch và kho các bản dịch tham khảo có chất lượng Mô hình Transform nói chung và các mô hình cải tiến đạt
cao. Giải thuật của IBM đánh giá chất lượng của hệ thống được kết quả rất tốt trong các bài toán seq2seq [5] [1], việc
dịch qua việc trùng khớp của các n-grams đồng thời nó cũng áp dụng mô hình Transfomer vào bài toán nhận dạng hình
dựa trên cả việc so sánh độ dài của các bản dịch. Công thức ảnh công thức toán học sang latex trong mô hình Im2Latex
để tính điểm đánh giá là như sau: Transfomer đã đạt được kết quả cải thiện rất tốt bằng minh
(N  ) chứng ở kết quả thực nghiệm ở hai bộ Dataset là IM2Latex-
X Lref
BLEU = exp wi log (pi ) − max −1 100k và CROHME. Mô hình Resnet cải tiến trong phần đầu
i=1
Ltra encoder của mô hình giúp tạo ra nhiều lớp lọc hình ảnh đầu
P
N Rj vào, từ đó biến đổi các đặc trưng hình ảnh lên không gian có
Trong đó : Pi = Pj Với:
j N Tj số chiều cao hơn. Phương pháp tính được mối quan hệ của
• NRj : là số lượng các n-grams trong phân đoạn j của bản từng thành phần của bức ảnh so với tất cả những thành phần
dịch dùng để tham khảo. khác là một cơ chế giúp cải thiện kết quả tốt hơn trong phần
• N T j : là số lượng các n-grams trong phân đoạn j của ánh xạ các đặc trưng của đầu vào decoder thành kết quả dự
bản dịch bằng máy. đoán cuối cùng.
Hiện tại mô hình đầu vào cần phải được tiền xử lý để có
thể dự đoán chính xác các trường hợp xoay. Chính vì vậy,
trong tương lai chung tôi sẽ thử nghiệm để kết hợp với mạng
Capsule Network [14] để mô hình có thể đạt được kết quả cao
hơn ở các trường hợp hình ảnh với đầu vào bị xoay.
TÀI LIỆU
[1] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez,
Ł. Kaiser, and I. Polosukhin, “Attention is all you need,” Advances in
neural information processing systems, vol. 30, 2017.
[2] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai,
T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, et al.,
“An image is worth 16x16 words: Transformers for image recognition
at scale,” arXiv preprint arXiv:2010.11929, 2020.
[3] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image
recognition,” in Proceedings of the IEEE conference on computer vision
and pattern recognition, pp. 770–778, 2016.
[4] M. Dikmen and C. Burns, “Trust in autonomous vehicles: The case of
tesla autopilot and summon,” in 2017 IEEE International conference on
systems, man, and cybernetics (SMC), pp. 1093–1098, IEEE, 2017.
[5] S. Ravichandiran, Getting Started with Google BERT: Build and train
state-of-the-art natural language processing models using BERT. Packt
Publishing Ltd, 2021.
[6] R. Pascanu, T. Mikolov, and Y. Bengio, “On the difficulty of training
recurrent neural networks,” in International conference on machine
learning, pp. 1310–1318, PMLR, 2013.
[7] V. Nair and G. E. Hinton, “Rectified linear units improve restricted
boltzmann machines,” in Icml, 2010.
[8] T. A. Chang, Y. Xu, W. Xu, and Z. Tu, “Convolutions and self-attention:
Re-interpreting relative positions in pre-trained language models,” arXiv
preprint arXiv:2106.05505, 2021.
[9] Y. Deng, A. Kanervisto, and A. M. Rush, “What you get is what you see:
A visual markup decompiler,” arXiv preprint arXiv:1609.04938, vol. 10,
pp. 32–37, 2016.
[10] H. Mouchere, C. Viard-Gaudin, D. H. Kim, J. H. Kim, and U. Garain,
“Crohme2011: Competition on recognition of online handwritten math-
ematical expressions,” in 2011 international conference on document
analysis and recognition, pp. 1497–1500, IEEE, 2011.
[11] H. Mouchere, C. Viard-Gaudin, R. Zanibbi, U. Garain, D. H. Kim,
and J. H. Kim, “Icdar 2013 crohme: Third international competition on
recognition of online handwritten mathematical expressions,” in 2013
12th International Conference on Document Analysis and Recognition,
pp. 1428–1432, IEEE, 2013.
[12] A. Popescu-Belis, “An experiment in comparative evaluation: humans vs.
computers,” in Proceedings of Machine Translation Summit IX: Papers,
2003.
[13] G. Doddington, “Automatic evaluation of machine translation quality
using n-gram co-occurrence statistics,” in Proceedings of the second
international conference on Human Language Technology Research,
pp. 138–145, 2002.
[14] S. Sabour, N. Frosst, and G. E. Hinton, “Dynamic routing between
capsules,” Advances in neural information processing systems, vol. 30,
2017.
[15] K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “Bleu: a method
for automatic evaluation of machine translation,” in Proceedings of the
40th annual meeting of the Association for Computational Linguistics,
pp. 311–318, 2002.
[16] E. H. Hovy, “Toward finely differentiated evaluation metrics for machine
translation,” in Proceedings of the EAGLES Workshop on Standards and
Evaluation Pisa, Italy, 1999, 1999.
[17] K.-F. Chan and D.-Y. Yeung, “Mathematical expression recognition: a
survey,” International Journal on Document Analysis and Recognition,
vol. 3, no. 1, pp. 3–15, 2000.
[18] A. Karpathy and L. Fei-Fei, “Deep visual-semantic alignments for
generating image descriptions,” in Proceedings of the IEEE conference
on computer vision and pattern recognition, pp. 3128–3137, 2015.
[19] R. Collobert, K. Kavukcuoglu, and C. Farabet, “Torch7: A matlab-
like environment for machine learning,” in BigLearn, NIPS workshop,
no. CONF, 2011.

You might also like