Professional Documents
Culture Documents
Im2Latex Transfomer
Im2Latex Transfomer
Tóm tắt nội dung—Sự thành công của Mô hình Transformer mang tính lặp lại như đự đoán chứng khoán hoặc tóm tắt
[1] không chỉ được áp dụng trong các bài toán xử lý ngôn ngữ văn bản..., thì cấu trúc mạng phải học được mối quan hệ từ
tự nhiên mà còn được áp dụng trong bài toán nhận dạng hình những điểm dữ liệu gần nhất với lịch sử trước đó. Mô hình
ảnh, cụ thể hơn là mô hình ViT [2] (Vision Transfomer). Tuy
nhiên chúng vẫn chưa phù hợp với các bài toán cụ thể trong thực
phổ biến cho phương pháp này là Recurrent neural network
tế mà cần tính chỉnh để đạt kết quả cao hơn theo yêu cầu của (RNN). Tuy nhiên nhược điểm của RNN là dễ bị tiêu biến
từng bài toán cụ thể . Chính vì vậy trong bài báo này chúng tôi hoặc bùng nổ đạo hàm (exploding/vanishing gradient) và chỉ
đề xuất mô hình Im2Latex Transfomer, mô hình bao gồm phần học được các đặc trưng lân cận. Để giải quyết vấn đề này,
encode và decode. Với xương sống của encode là mô hình Resnet một mô hình mạng được đề xuất là mô hình Long short-term
[3] được tùy chỉnh, và decoder là mô hình Transfomer cải tiến. memory(LSTM). Ưu điểm của LSTM là có thể huấn luyện với
Đóng góp của chúng tôi là tùy chỉnh lại mô hình Transfomer
kích thước chuỗi(sequence) lớn hơn mà đạo hàm của chúng
bằng cách thêm các layer chuẩn hóa ở đầu mô hình và bổ sung
thêm kỹ thuật phân tách các đầu ra của mô hình để đạt được vẫn ổn định, với cơ chế chỉ giữ lại một phần đặc trưng đã học
kết quả tốt hơn, ngoài ra mã nguồn thuật toán cũng được công được, và có thể ghi nhớ được các đặc trưng xa hơn. Tuy nhiên
khai. Mô hình Im2Latex Transfomer đạt được kết quả cải thiện LSTM lại bị giới hạn bởi khả năng tính toán song song, bởi
đáng kể không chỉ trên dữ liệu thực nghiệm mà còn trên cả ứng các mô hình học sâu cần một lượng dữ liệu rất lớn để có thể
dụng thực tế. khái quát hóa được hàm xấp xỉ tốt nhất. Chính vì vậy mô hình
Index Terms—image to latex, orc, image recognition, sequence
to sequence, transfomer model
Transfomer [1] được đề xuất năm 2017 bởi các nhóm nghiên
cứu từ Google với ưu điểm là có thể tận dụng được khả năng
I. GIỚI THIỆU tính toán song song của phần cứng, đặc điểm chính của mô
Bài toán nhận dạng hình ảnh từ văn là một bài toán rất phổ hình Transfomer là tính được hệ số chú ý của một phần tử
biến và có ý nghĩa thực tế. Với rất nhiều hướng tiếp cận khác đến tất các cả phần tử khác trong trong chuỗi theo kích thước
nhau, từ các phương pháp cổ điến như SVM, KNN,.. đến các cố định đầu vào, không chỉ vậy nó còn học được thông tin
thuật toán phức tạp cần khối lượng tính toán lớn. Tiêu biểu theo cả hai chiều cùng lúc. Mô hình Transformer không chỉ
như các phương pháp học sâu (deep learning) dự trên cơ chế
chú ý và mạng Transfomer với kết quả tốt nhất hiện nay. Vì
vậy chúng tôi chọn nhóm phương pháp này để sử dụng cho
bài toán nhận dạng hình ảnh toán học chuyển sang ngôn ngữ
LATEX.
Sau thời kỳ ngủ đông của học sâu, ngày nay các hệ thống
học sâu đã được áp dụng rộng rãi trong thực tế. Từ hệ thống
cho xe tự lái của Tesla dựa trên các hình ảnh thu được của
các camera hoặc cảm biến [4], đến công cụ tìm kiếm của
Google đưa ra kết quả tìm kiếm tốt hơn cũng dựa trên hàng
Hình 1: Quá trình chuyển hình ảnh công thức toán học sang LATEX.
tỷ dữ liệu thu thập được [5]... Tất cả các hệ thống trên đều
sử dụng các mô hình học sâu với kiến trúc nền tảng là mạng là một mô hình đạt được kết quả cao mà ưu điểm rất lớn của
neuron (neuron network). Các yêu cầu bài toán khác nhau sẽ chúng chính là khả năng module khóa. Nghĩa là chúng ta có
được giải quyết bởi các cấu trúc mạng khác nhau. Cụ thể thể ghép chồng lên nhau để đạt hiệu quả tốt hơn. Chính vì vậy
như các bài toán nhận dạng hình ảnh thì đầu vào cần phải rất nhiều mô hình được đề xuất như BERT, Megatron, GPT3,..
đưa vào các lớp tích chập để lọc ra các đặc trực cần thiết được đề xuất với bản chất là các mô hình Transfomer được
trước khi đi vào các mạng neuron network, với các bài toán ghép chồng lên nhau.
Mã nguồn công khai : https://github.com/hmthanh/Im2Latex_Transformer Với bài toán chuyển từ hình ảnh công thức toán học sang
các ký tự latex là dạng bài toán seq2seq. Mục tiêu chính trong theo như hình trên thì có 2 layer, F = W2 σ (W1 x) trong đó σ
bài toán này ở các phương pháp học sâu là ánh xạ các đặt có nghĩa là ReLU [7] Kích thước của x và F phải bằng nhau
trưng hình ảnh đầu vào lên không gian có số chiều lớn hơn, ta có thể thực hiện phép chiếu tuyến tính W bằng các kết nối
và từ đó để phân tác các đặc trưng và ánh xạ ngược trở lại phím tắt để phù hợp với các kích thước:
về với không gian của đặc trưng đầu ra mong muốn. Mô hình
y = F (x, {Wi }) + Ws x
Transfomer và các cải tiến của chúng đã được sử dụng rộng
rãi, đạt được kết quả cao ở những nghiên cứu gần nhất đồng Chúng ta cũng có thể sử dụng ma trận vuông Ws trong phương
thời cũng là mô hình phù hợp với bài toán seq2seq, chính vì trình trên nhưng chỉ phủ hợp trong thử nghiệm
vậy chúng tôi sử dụng mô hình này làm cơ sở nghiên cứu xây
dựng hệ thống nhận dạng hình ảnh công thức toán học sang B. Mô hình Transfomer
latex.
1) Cơ chế attention: Cốt lõi của mô hình các Transfomer
Đầu tiên chúng tôi sẽ trình bày về các mô hình cơ bản ở là cơ chế chú ý (attention mechanism). Cơ chế attention bao
phần II, từ đó chúng tôi sẽ trình bày mô hình cơ sở (baseline) gồm 3 thành phần: Query (truy vấn), Key (khóa) và Value (giá
phần III.1 và phần cải tiến của chúng tôi ở phần III.2. Cuối trị). Với cặp khóa key-value được coi như là một từ điển, đầu
cùng chúng tôi sẽ trình bày về kết quả thực nghiệm của mô tiên Query sẽ được nhân tích vô hướng với Key để tính độ lớn
hình mới so với mô hình cơ sở. về sự tương đồng của hai vector và chuẩn hóa lại để có thể so
II. CÁC PHƯƠNG PHÁP LIÊN QUAN sánh. Cuối cùng kết quả sẽ được nhân với Value để lấy ra giá
trị. Kết quả cuối cùng thể hiện hệ số của từng phần tử trong
A. Mô hình ResNet Query với tất cả các phần tử khác trong tập Value. Mô hình
Mạng ResNet (Residual neural network) là một mạng CNN Transfomer là tổng hợp của nhiều lớp Self-attention (tư chú ý)
được thiết kế để làm việc với hàng trăm hoặc hàng nghìn lớp với nhau. Kiến trúc của chúng bao gồm các lớp encoder (mã
tích chập. Một vấn đề xảy ra khi xây dựng mạng CNN với hóa) và các lớp decoder (giả mã), mục tiêu của lớp encoder
nhiều lớp chập sẽ xảy ra hiện tượng Vanishing Gradient [6] là biến đổi các đặc trưng đầu vào lên không gian có số chiều
dẫn tới quá trình học tập không tốt. ResNet đưa ra là sử dụng lơn hơn để có thể dễ dàng phân tách các đặc trưng trên không
kết nối "tắt" đồng nhất để xuyên qua một hay nhiều lớp. Một gian mới và cuối cùng là ánh xạ kết quả ngược trở lại ở các
khối như vậy được gọi là một Residual Block. ResNet gần lớp decoder.