You are on page 1of 10

TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

KHOA CÔNG NGHỆ THÔNG TIN


----------

ĐỒ ÁN TỐT NGHIỆP

ĐỀ TÀI:

ỨNG DỤNG THỊ GIÁC MÁY TÍNH TRONG BÀI


TOÁN TRÍCH XUẤT THÔNG TIN TỪ CHỨNG
MINH THƢ VÀ CĂN CƢỚC CÔNG DÂN

Giảng viên HD : Ths Nguyễn Văn Thắng

Lớp : CNTT3-K11

MSV : 1141460204

SV thực hiện : Nguyễn Văn Lƣơng

Hà Nội 2020
2

MỤC LỤC

MỤC LỤC ......................................................................................................... 2

MỞ ĐẦU ........................................................................................................... 7

Chƣơng 1: TỔNG QUAN VỀ CÔNG NGHỆ SỬ DỤNG ............................. 8

1.1 Machine learning ................................................................................. 8

1.2 Mạng nơ-ron (Neural network) ....................................................... 13


1.2.1 Khái niệm .................................................................................... 13
1.2.2 Cấu tạo ........................................................................................ 14
1.2.3 Phân loại ...................................................................................... 14
1.2.4 Mục đích...................................................................................... 15

1.3 Deep learning ..................................................................................... 15


1.3.1 Định nghĩa ................................................................................... 15
1.3.2 Cơ sở của deep learning .............................................................. 16
1.3.3 Điểm mạnh của học sâu .............................................................. 17

Chƣơng 2: CƠ SỞ LÝ THUYẾT .................................................................. 19

2.1 Thị giác máy tính (Computer vision) .............................................. 19


2.1.1 Phân loại ảnh (Image classification) ........................................... 19
2.1.2 Khoanh vùng đối tượng (Object detection) ................................ 19
2.1.3 Phân vùng đối tượng (Image segmentation) ............................... 21

2.2 Mạng nơ-ron tích chập (CNN) ......................................................... 23


2.2.1 Giới thiệu..................................................................................... 23
2.2.2 Mô hình ....................................................................................... 25

2.3 Mạng Unet.......................................................................................... 26


2.3.1 Giới thiệu..................................................................................... 26

2.4 Mạng CRAFT(Character Region Awareness for Text Detection-


nhận diện vùng ký tự cho nhận diện ký tự) ............................................ 27
3

2.4.1 Giới thiệu..................................................................................... 27


2.4.2 Kiến trúc mạng ............................................................................ 28

2.5 Tensorflow ......................................................................................... 29


2.5.1 Giới thiệu..................................................................................... 29
2.5.2 Lịch sử ra đời và hoạt động......................................................... 30
2.5.3 Cấu trúc Tensorflow.................................................................... 31

2.6 Tesseract............................................................................................. 32
2.6.1 Giới thiệu..................................................................................... 32
2.6.2 Quá trình hình thành ................................................................... 33
2.6.3 Chức năng ................................................................................... 33

Chƣơng 3: ỨNG DỤNG MẠNG HỌC SÂU VÀ THỊ GIÁC MÁY TÍNH
TRONG BÀI TOÁN TRÍCH XUẤT THÔNG TIN TỪ CHỨNG MINH
THƢ VÀ CĂN CƢỚC CÔNG DÂN .............................................................. 35

3.1 Mô hình sử dụng................................................................................ 35

3.2 Tiền xử lý dữ liệu............................................................................... 36

3.3 Huấn luyện mô hình .......................................................................... 38

3.4 Một số kết quả thu đƣợc ................................................................... 41

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ...................................................... 46

1 Những kết quả chính của báo cáo...................................................... 46

2 Những điều cần cải thiện .................................................................... 46

3 Hƣớng phát triển của báo cáo .......................................................... 46

TÀI LIỆU THAM KHẢO .............................................................................. 47


4

DANH MỤC HÌNH ẢNH


H nh 1-1: Trợ lý ảo Alexa của Amazon ............................................................ 8
H nh 1-2: Minh hoạ mạng nơ ron ................................................................... 14
H nh 1-3: deep learning, machine learning và AI ........................................... 16
H nh 2-1:Phân nhóm ảnh ................................................................................ 19
H nh 2-2: Khoanh vùng đối tượng .................................................................. 20
H nh 2-3: Khoanh vùng đối tượng và phân vùng đối tượng ........................... 21
H nh 2-4: Khoanh vùng đối tượng, semantic segmentation và instance
segment............................................................................................................ 22
H nh 2-5: Phân vùng đối tượng trong ô tô tự hành ......................................... 22
H nh 2-6: Phân vùng đối tượng trong y học ................................................... 23
H nh 2-7: 3 bước cơ bản của nhận dạng ......................................................... 24
H nh 2-8: Mô h nh mạng nơ-ron tích chập ..................................................... 25
H nh 2-9: Mô h nh mạng Unet ........................................................................ 26
Hình 2-10: Mô h nh mạng của CRAFT .......................................................... 28
Hình 2-11: Region Score và Affinity Score .................................................... 29
H nh 2-12: Mức độ phổ biến của thư viện tensorflow .................................... 30
H nh 2-13: Tensorflow .................................................................................... 31
H nh 2-14: Hệ thống phân cấp của tensorflow ............................................... 31
H nh 2-15: Thư viện tesseract ......................................................................... 32
H nh 3-1: Mô h nh ứng dụng trong bài toán ................................................... 35
H nh 3-2: Chi tiết mô h nh mạng unet sử dụng trong bài toán. ...................... 36
H nh 3-3: Dữ liệu khi đánh nhãn và kỳ vọng thu được .................................. 37
Hình 3-4: Lớp encoder VGG-16 ..................................................................... 38
Hình 3-5: Lớp encoder VGG-16 tiếp .............................................................. 39
Hình 3-6:Flatten .............................................................................................. 40
Hình 3-7: Xác định vùng chứng minh thư ...................................................... 41
Hình 3-8: Xác định vùng chứng minh thư (Tiếp) ........................................... 41
Hình 3-9: Xác định vùng chứng minh thư (Tiếp) ........................................... 42
5

Hình 3-10: Xác định các vùng ký tự trên chứng minh thứ ............................. 43
Hình 3-11: Xác định các vùng ký tự trên chứng minh thư (Tiếp) .................. 44
Hình 3-12:Xác định vùng ký tự trên căn cước công dân ................................ 45
6

CÁC TỪ VIẾT TẮT


STT Ký hiệu Ý nghĩa
1 API Application Programming Interface
2 ML Machine learning
3 DNN Deep neural network
4 CNN Convolutional neural network
5 KWS Keyword spotting
6 RNN Return neural network
7 ReLU Rectifier Linear Unit
7

MỞ ĐẦU

Ngày nay với sự phát triển ngày càng mạnh mẽ của trí tuệ nhân tạo. Nó đã
đem lại những ứng dụng to lớn trong nhiều lĩnh vực khác nhau như xử lý
ngôn ngữ tự nhiên, tự động hoá, thị giác máy tính,…. Trí tuệ nhân tạo ngày
càng trờ thành một phần không thể thiếu của cuộc sống. Sự tồn tại và phát
triển của một doanh nghiệp, cơ quan, tổ chức nhà nước,…Không thể thiếu sự
trợ giúp của trí tuệ nhân tạo. Trong việc thu nhận và xử lý thông tin với khối
lượng ngày càng lớn, nhiều lúc với những việc thủ công không đem lại hiệu
quả mong muốn, lại tốn nhiều công sức và thời gian. Nhằm đem lại sự nhanh
chóng và chính xác, giảm thiểu công sức của con người. Em đã chọn đề tài
“ỨNG DỤNG THỊ GIÁC MÁY TÍNH TRONG BÀI TOÁN TRÍCH
XUẤT THÔNG TIN TỪ CHỨNG MINH THƢ VÀ CĂN CƢỚC CÔNG
DÂN” để nghiên cứu và viết báo cáo.
Để mô tả quá tr nh nghiên cứu, t m hiểu, báo cáo được chia thành 3
chương với các nội dung như sau:
Chƣơng 1: Tổng quan về công nghệ sử dụng
Chƣơng 2: Cở sở lý thuyết
Chƣơng 3: Ứng dụng mạng học sâu và thị giác máy tính trong bài toán
trích xuất thông tin từ chứng minh thư và căn cước công dân.
8

Chương 1: TỔNG QUAN VỀ CÔNG NGHỆ SỬ DỤNG

1.1 Machine learning


Những năm gần đây, AI - Artificial Intelligence (Trí Tuệ Nhân Tạo), và
cụ thể hơn là Machine Learning (Học Máy hoặc Máy Học) nổi lên như một
bằng chứng của cuộc cách mạng công nghiệp lần thứ tư (1 - động cơ hơi
nước, 2 - năng lượng điện, 3 - công nghệ thông tin). Trí Tuệ Nhân Tạo đang
len lỏi vào mọi lĩnh vực trong đời sống mà có thể chúng ta không nhận ra. Xe
tự hành của Google và Tesla, hệ thống gợi ý nhạc của Spotify, hệ thống tự
tag khuôn mặt trong ảnh của Facebook, trợ lý ảo Siri và Alexa của Apple và
Amazon, hệ thống cửa hàng không nhân viên của Amazon, hệ thống gợi ý
phim của Netflix, máy chơi cờ vây AlphaGo của Google DeepMind, …, chỉ
là một vài trong vô vàn những ứng dụng của AI/Machine Learning.

H nh 1-1: Trợ lý ảo Alexa của Amazon


9

Machine learning (ML) là nghiên cứu khoa học về các thuật toán và mô
h nh thống kê mà các hệ thống máy tính sử dụng để thực hiện hiệu quả một
nhiệm vụ cụ thể mà không cần sử dụng các hướng dẫn rõ ràng, thay vào đó
dựa vào các tập mẫu và suy luận. Nó được xem như một tập hợp con của trí
tuệ nhân tạo . Các thuật toán học máy xây dựng một mô h nh toán học của dữ
liệu mẫu, được gọi là " dữ liệu huấn luyện ", để đưa ra dự đoán hoặc quyết
định mà không được lập tr nh rõ ràng để thực hiện nhiệm vụ. Thuật toán học
máy được sử dụng trong rất nhiều ứng dụng, chẳng hạn như lọc email, hỗ trợ
con người đưa ra các quyết định, xử lý thông tin tự động. Học máy có liên
quan chặt chẽ với thống kê tính toán , trong đó tập trung vào việc đưa ra dự
đoán bằng máy tính. Nghiên cứu về tối ưu hóa toán học cung cấp các phương
pháp, lý thuyết và lĩnh vực ứng dụng cho lĩnh vực học máy. Thị giác máy tính
cũng là một lĩnh vực nghiên cứu trong học máy, và tập trung vào các thuật
toán xử lý thông tin từ ảnh, âm thanh. Trong ứng dụng của m nh trong các
vấn đề kinh doanh, học máy cũng được gọi là phân tích dự đoán.

Học máy có liên quan mật thiết đến thống kê, v cả hai lĩnh vực đều
nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập
trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán. Nhiều
bài toán suy luận được xếp vào loại bài toán NP-khó, v thế một phần của học
máy là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lý
được.

Học máy có hiện nay được áp dụng rộng rãi bao gồm máy truy t m dữ
liệu, các hệ thống hỗ trợ quyết định, chẩn đoán y khoa, phát hiện thẻ tín dụng
giả, phân tích thị trường chứng khoán, phân loại các chuỗi DNA, nhận dạng
tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt (robot
locomotion).

Các thuật toán học máy thường được chia ra thành 2 nhóm lớn
10

 Học có giám sát (supervise learning)


 Học không giám sát (unsupervise learning)

Trong học có giám sát các thuật toán được xây dựng từ tập mẫu bao gồm
cả dữ liệu đầu vào và đầu ra kỳ vọng. Ví dụ: nếu bài toán là xác định các con
vật có trong ảnh, lúc này dữ liệu cho thuật toán học có giám sát sẽ bao gồm
ảnh đầu vào cũng với đầu ra tương ứng được đánh nhãn là tên các con vật có
trong ảnh. Một nhánh nhỏ khác của học có giám sát là học bán giám sát. Học
bán giám sát là thuật toán được xây dựng trên các tập dữ liệu mà một phần dữ
liệu đầu vào có thể không có nhãn.

Các thuật toán phân loại và thuật toán hồi quy là các kiểu học có giám sát.
Các thuật toán phân loại được sử dụng khi các đầu ra bị giới hạn trong một
tập hợp các giá trị giới hạn . Đối với thuật toán xác định bệnh y khoa, đầu vào
sẽ là hồ sơ bệnh án của bệnh nhân và đầu ra sẽ là tên bệnh hoặc tên nhóm
bệnh của bệnh nhân đó. Đối với thuật toán xác định bệnh ung thư, đầu ra sẽ là
dự đoán của " bị ung thư " hoặc "không bị ung thư", được biểu thị bằng các
giá trị Boolean đúng và sai. Các thuật toán hồi quy được đặt tên cho đầu ra
liên tục của chúng, có nghĩa là chúng có thể có bất kỳ giá trị nào trong một
phạm vi. Ví dụ về giá trị liên tục là nhiệt độ, độ ẩm, kích thước hoặc giá của
một vật thể.

Trong học tập không giám sát , thuật toán xây dựng một mô h nh toán học
từ một tập hợp dữ liệu chỉ chứa các đầu vào và không có nhãn đầu ra mong
muốn. Các thuật toán học tập không giám sát được sử dụng để t m cấu trúc
trong dữ liệu, như phân nhóm hoặc phân cụm các điểm dữ liệu. Học tập
không giám sát có thể khám phá các mẫu trong dữ liệu và có thể nhóm các
đầu vào thành các danh mục, như trong học tập tính năng . Giảm kích thước
là quá tr nh giảm số lượng "tính năng" hoặc đầu vào trong một tập hợp dữ
liệu.

You might also like