You are on page 1of 3

Key Information Extraction trong OCR

1.2 Mainstream Deep-learning Solutions


Các phương pháp KIE tổng quát dựa trên Named Entity Recognition (NER), nhưng các
phương pháp này chỉ sử dụng thông tin văn bản và bỏ qua thông tin vị trí và đặc điểm
hình ảnh, dẫn đến độ chính xác hạn chế. Trong những năm gần đây, hầu hết các nhà
nghiên cứu đã bắt đầu kết hợp các đặc điểm đa phương tiện để cải thiện độ chính xác
của mô hình KIE. Các phương pháp chính bao gồm:

(1) Phương pháp dựa trên lưới. Các phương pháp này chủ yếu tập trung vào việc kết
hợp thông tin đa phương tiện ở mức độ hình ảnh. Hầu hết các văn bản đều có độ chi
tiết là ký tự. Phương pháp nhúng thông tin văn bản và cấu trúc đơn giản, như thuật toán
chargrid [1].

(2) Phương pháp dựa trên mã thông báo. Các phương pháp này tham khảo các phương
pháp NLP như Bert, mã hóa thông tin vị trí, hình ảnh và các đặc điểm khác vào mô hình
đa phương tiện và thực hiện việc huấn luyện trước trên các tập dữ liệu quy mô lớn, để
trong các tác vụ hạ lưu, chỉ cần một lượng nhỏ dữ liệu chú thích để đạt được kết quả
xuất sắc. Các thuật toán đại diện là layoutlm [2], layoutlmv2 [3], layoutxlm [4], structext
[5], v.v.

(3) Phương pháp dựa trên GCN. Các phương pháp này cố gắng học thông tin cấu trúc
giữa hình ảnh và ký tự, để giải quyết vấn đề trích xuất thông tin mở (mẫu không xuất
hiện trong tập huấn luyện), như GCN [6], SDMGR [7] và các thuật toán khác.

(4) Phương pháp dựa trên cuối cùng đến cuối cùng: các phương pháp này đưa các tác
vụ nhận dạng ký tự OCR hiện có và trích xuất thông tin KIE vào một mạng thống nhất
để học chung, và củng cố lẫn nhau trong quá trình học. Chẳng hạn như TRIE [8].

Để biết thêm thông tin chi tiết về các thuật toán, vui lòng tham khảo Chương 6 của Sâu
vào OCR.

2. KIE pipeline

Các phương pháp dựa trên mã thông báo như LayoutXLM được triển khai trong
PaddleOCR. Hơn nữa, trong PP-StructureV2, chúng tôi đơn giản hóa mô hình
LayoutXLM và đề xuất VI-LayoutXLM, trong đó, mô-đun trích xuất đặc điểm hình ảnh
được loại bỏ để tăng tốc độ. Chiến lược sắp xếp dòng văn bản phù hợp với thứ tự đọc
của con người và chiến lược truyền đạt kiến thức UDML được sử dụng để đạt được độ
chính xác mô hình cao hơn.
Trong phương pháp KIE không đạt được từ đầu đến cuối, KIE cần ít nhất ** 2 bước**.
Đầu tiên, mô hình OCR được sử dụng để trích xuất văn bản và vị trí của nó. Thứ hai, mô
hình KIE được sử dụng để trích xuất thông tin quan trọng dựa trên hình ảnh, vị trí văn
bản và nội dung văn bản.

2.1 Train OCR models

2.1.1 Text detection

(1) Data

Hầu hết các mô hình được cung cấp trong PaddleOCR là các mô hình tổng quát. Trong
quá trình phát hiện văn bản, việc phát hiện các dòng văn bản kề nhau thường dựa vào
khoảng cách vị trí. Như được thể hiện trong hình ảnh ở trên, khi sử dụng mô hình phát
hiện tiếng Anh tổng quát PP-OCRv3 cho việc phát hiện văn bản, dễ dàng phát hiện hai
trường dữ liệu đại diện cho các thuộc tính khác nhau như một. Do đó, đề xuất tinh chỉnh
một mô hình phát hiện theo kịch bản của bạn trước tiên trong quá trình thực hiện tác
vụ KIE.

Trong quá trình chú thích dữ liệu, các thông tin quan trọng khác nhau cần được phân
tách. Nếu không, điều này sẽ làm tăng độ khó của các tác vụ KIE sau này.

Đối với các tác vụ hạ lưu, nói chung, khoảng 200-300 hình ảnh đầu tiên để huấn luyện
mô hình phát hiện văn bản sau này.

(2) Model

PaddleOCR text detection

1. Data and Weights Preparation


1.1 Data Preparation

Dive into OCR

Practice of a Text Detection Algorithm DBNet


4.2.1 Quick start

Qua quá trình tìm hiểu

Ý tưởng như sau :

các model text detection như kiểu trên paddle ocr là nó kiểu như là text detection với background đa
dạng (model khá phức tạp), nhưng bài toán của ta (ocr_Cam) đang làm với một nhiệm vụ rất cụ thể.

Các trường key chỉ bị lệch một chút nếu đánh box cố định

Bài toán này ảnh đã được rotate

Do vậy, có 2 ý tưởng như sau :

Phương án 1 : vẫn là đánh các box cố định (anh có thể bảo Đức thử lại lần nữa)

Có thể phóng thật to ảnh ra, như vậy các kích thước sẽ lớn hơn, việc chọn kích thước box sẽ dễ hơn, sau
đó chuẩn hóa chúng về khoảng [0, 1]

Phương án 2 : dùng deep learning (nếu phương án 1 không được)

Xây dựng một mô hình hồi quy, hồi quy trực tiếp tọa độ 4 đỉnh của box chứa text

Các tọa độ này được chuẩn hóa về khoảng [0, 1]

Khi có tọa độ rồi, có thể sẽ hơi lệch, nghiêng một chút thì lại dùng homography để xoay về góc chính
diện. (hoặc phương án 1 thay vì chọn box, mình có thể chọn các đỉnh rồi dùng homography để xoay, bởi
vì các box sẽ song song với ảnh, như vậy nếu image không “rất chuẩn” thì khả năng cao sẽ bị “dính” một
chút text của trường khác)

Định nghĩa loss function : tạm thời dùng loss đơn giản MSE loss,

Dự kiến sẽ tạm thời xây dựng một model nhỏ chỉ hồi quy một trường key (giả sử id_number).

Data tạm thời sẽ là 100 ảnh (cần thời gian để đánh nhãn)

You might also like