Professional Documents
Culture Documents
Klcntt62 T
Klcntt62 T
ĐỒ ÁN TỐT NGHIỆP
ĐỀ TÀI:
Lớp : CNTT3-K11
MSV : 1141460204
Hà Nội 2020
2
MỤC LỤC
MỞ ĐẦU ........................................................................................................... 7
2.6 Tesseract............................................................................................. 32
2.6.1 Giới thiệu..................................................................................... 32
2.6.2 Quá trình hình thành ................................................................... 33
2.6.3 Chức năng ................................................................................... 33
Chƣơng 3: ỨNG DỤNG MẠNG HỌC SÂU VÀ THỊ GIÁC MÁY TÍNH
TRONG BÀI TOÁN TRÍCH XUẤT THÔNG TIN TỪ CHỨNG MINH
THƢ VÀ CĂN CƢỚC CÔNG DÂN .............................................................. 35
Hình 3-10: Xác định các vùng ký tự trên chứng minh thứ ............................. 43
Hình 3-11: Xác định các vùng ký tự trên chứng minh thư (Tiếp) .................. 44
Hình 3-12:Xác định vùng ký tự trên căn cước công dân ................................ 45
6
MỞ ĐẦU
Ngày nay với sự phát triển ngày càng mạnh mẽ của trí tuệ nhân tạo. Nó đã
đem lại những ứng dụng to lớn trong nhiều lĩnh vực khác nhau như xử lý
ngôn ngữ tự nhiên, tự động hoá, thị giác máy tính,…. Trí tuệ nhân tạo ngày
càng trờ thành một phần không thể thiếu của cuộc sống. Sự tồn tại và phát
triển của một doanh nghiệp, cơ quan, tổ chức nhà nước,…Không thể thiếu sự
trợ giúp của trí tuệ nhân tạo. Trong việc thu nhận và xử lý thông tin với khối
lượng ngày càng lớn, nhiều lúc với những việc thủ công không đem lại hiệu
quả mong muốn, lại tốn nhiều công sức và thời gian. Nhằm đem lại sự nhanh
chóng và chính xác, giảm thiểu công sức của con người. Em đã chọn đề tài
“ỨNG DỤNG THỊ GIÁC MÁY TÍNH TRONG BÀI TOÁN TRÍCH
XUẤT THÔNG TIN TỪ CHỨNG MINH THƢ VÀ CĂN CƢỚC CÔNG
DÂN” để nghiên cứu và viết báo cáo.
Để mô tả quá tr nh nghiên cứu, t m hiểu, báo cáo được chia thành 3
chương với các nội dung như sau:
Chƣơng 1: Tổng quan về công nghệ sử dụng
Chƣơng 2: Cở sở lý thuyết
Chƣơng 3: Ứng dụng mạng học sâu và thị giác máy tính trong bài toán
trích xuất thông tin từ chứng minh thư và căn cước công dân.
8
Machine learning (ML) là nghiên cứu khoa học về các thuật toán và mô
h nh thống kê mà các hệ thống máy tính sử dụng để thực hiện hiệu quả một
nhiệm vụ cụ thể mà không cần sử dụng các hướng dẫn rõ ràng, thay vào đó
dựa vào các tập mẫu và suy luận. Nó được xem như một tập hợp con của trí
tuệ nhân tạo . Các thuật toán học máy xây dựng một mô h nh toán học của dữ
liệu mẫu, được gọi là " dữ liệu huấn luyện ", để đưa ra dự đoán hoặc quyết
định mà không được lập tr nh rõ ràng để thực hiện nhiệm vụ. Thuật toán học
máy được sử dụng trong rất nhiều ứng dụng, chẳng hạn như lọc email, hỗ trợ
con người đưa ra các quyết định, xử lý thông tin tự động. Học máy có liên
quan chặt chẽ với thống kê tính toán , trong đó tập trung vào việc đưa ra dự
đoán bằng máy tính. Nghiên cứu về tối ưu hóa toán học cung cấp các phương
pháp, lý thuyết và lĩnh vực ứng dụng cho lĩnh vực học máy. Thị giác máy tính
cũng là một lĩnh vực nghiên cứu trong học máy, và tập trung vào các thuật
toán xử lý thông tin từ ảnh, âm thanh. Trong ứng dụng của m nh trong các
vấn đề kinh doanh, học máy cũng được gọi là phân tích dự đoán.
Học máy có liên quan mật thiết đến thống kê, v cả hai lĩnh vực đều
nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập
trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán. Nhiều
bài toán suy luận được xếp vào loại bài toán NP-khó, v thế một phần của học
máy là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lý
được.
Học máy có hiện nay được áp dụng rộng rãi bao gồm máy truy t m dữ
liệu, các hệ thống hỗ trợ quyết định, chẩn đoán y khoa, phát hiện thẻ tín dụng
giả, phân tích thị trường chứng khoán, phân loại các chuỗi DNA, nhận dạng
tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt (robot
locomotion).
Các thuật toán học máy thường được chia ra thành 2 nhóm lớn
10
Trong học có giám sát các thuật toán được xây dựng từ tập mẫu bao gồm
cả dữ liệu đầu vào và đầu ra kỳ vọng. Ví dụ: nếu bài toán là xác định các con
vật có trong ảnh, lúc này dữ liệu cho thuật toán học có giám sát sẽ bao gồm
ảnh đầu vào cũng với đầu ra tương ứng được đánh nhãn là tên các con vật có
trong ảnh. Một nhánh nhỏ khác của học có giám sát là học bán giám sát. Học
bán giám sát là thuật toán được xây dựng trên các tập dữ liệu mà một phần dữ
liệu đầu vào có thể không có nhãn.
Các thuật toán phân loại và thuật toán hồi quy là các kiểu học có giám sát.
Các thuật toán phân loại được sử dụng khi các đầu ra bị giới hạn trong một
tập hợp các giá trị giới hạn . Đối với thuật toán xác định bệnh y khoa, đầu vào
sẽ là hồ sơ bệnh án của bệnh nhân và đầu ra sẽ là tên bệnh hoặc tên nhóm
bệnh của bệnh nhân đó. Đối với thuật toán xác định bệnh ung thư, đầu ra sẽ là
dự đoán của " bị ung thư " hoặc "không bị ung thư", được biểu thị bằng các
giá trị Boolean đúng và sai. Các thuật toán hồi quy được đặt tên cho đầu ra
liên tục của chúng, có nghĩa là chúng có thể có bất kỳ giá trị nào trong một
phạm vi. Ví dụ về giá trị liên tục là nhiệt độ, độ ẩm, kích thước hoặc giá của
một vật thể.
Trong học tập không giám sát , thuật toán xây dựng một mô h nh toán học
từ một tập hợp dữ liệu chỉ chứa các đầu vào và không có nhãn đầu ra mong
muốn. Các thuật toán học tập không giám sát được sử dụng để t m cấu trúc
trong dữ liệu, như phân nhóm hoặc phân cụm các điểm dữ liệu. Học tập
không giám sát có thể khám phá các mẫu trong dữ liệu và có thể nhóm các
đầu vào thành các danh mục, như trong học tập tính năng . Giảm kích thước
là quá tr nh giảm số lượng "tính năng" hoặc đầu vào trong một tập hợp dữ
liệu.