You are on page 1of 21

ĐẠI HỌC QUỐC GIA TP.

HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN


KHOA KHOA HỌC & KỸ THUẬT THÔNG TIN

BÁO CÁO MÔN HỌC

ĐỒ ÁN: CƠ SỞ HẠ TẦNG CNTT

Lớp: IE101.N23.CNCL

Đề tài: Phân tích và nâng cấp hệ thống camera anh ninh của tòa nhà Zalo

Giảng viên hướng dẫn: Ths. Nguyễn Thị Anh Thư

Nhóm thực hiện: Nhóm 1

21522884 Nguyễn Bích Phượng

21521140 Nguyễn Tuệ Minh

21521486 Bùi Thị Anh Thư

21520701 Nguyễn Đức Đạt

TP. HỒ CHÍ MINH, 17/4/2023


NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN

TPHCM, ngày 17 tháng 04 năm 2023


Người nhận xét
(Ký và ghi rõ họ tên)

Trang 1 | 21
I. MỞ ĐẦU : Trình bày lý do chọn đề tài, mục đích, đối tượng và phạm vi
nghiên cứu.(THƯ)

1. Lý do chọn đề tài

Ngày nay, sự bùng nổ của cuộc cách mạng công nghiệp lần thứ tư, trí tuệ nhân tạo
(Artificial Intelligence), máy học (Machine learning) đang được nghiên cứu và áp
dụng trong nhiều lĩnh vực của đời sống xã hội. Chúng có thể kể đến các ứng dụng như
xe tự hành của Google, hệ thống tự gợi ý gắn thẻ khuôn mặt của Facebook, các ứng
dụng trợ lý ảo của Apple, Amazon, Google, Samsung …

Thị giác máy tính (Computer vision) là một trong những lĩnh vực đang được quan tâm
và ứng dụng nhiều nhất hiện nay. Các hệ thống nhận dạng thông qua hình ảnh là một
minh chứng cụ thể cho lĩnh vực này. Quá trình nhận dạng dựa trên hình ảnh bao gồm
các thao tác như phát hiện đối tượng, thu nhận, xử lý, phân tích, lưu trữ và nhận dạng,
v.v. Trong đó, phát hiện đối tượng (Object Detection) là một bài toán quan trọng trong
thị giác máy tính. Object detection đề cập đến khả năng phát hiện đối tượng của hệ
thống máy tính và phần mềm để định vị các đối tượng có trong ảnh và xác định từng
đối tượng.

Object detection đã được sử dụng rộng rãi để phát hiện khuôn mặt, phát hiện xe, đếm
số người đi bộ, hệ thống bảo mật và xe không người lái và qua đó nó đã giúp tạo ra
các ứng dụng hữu ích, phục vụ tốt cho cuộc sống của con người. Trong đó, thuật toán
YOLO là một trong những thuật toán phát hiện đối tượng được đánh giá tốt nhất và
nhanh nhất hiện nay.

Bên cạnh đó, với sự phát triển của khoa học và công nghệ, các hệ thống Camera quan
sát đang được sử dụng nhiều trong cuộc sống của chúng ta, đặc biệt là lĩnh vực an
ninh. Vậy các dữ liệu video được thu nhận từ các hệ thống camera quan sát lại càng
trở nên quan trọng và được quan tâm trong bảo vệ an ninh của một tòa nhà. Chính vì
thế, thông qua khảo sát cơ sở hạ tầng công nghệ thông tin của Công ty Zalo Pay chúng
em nhận ra rằng để có thể đảm bảo an ninh tòa nhà một cách tuyệt đối nhất thì công ty
đã lắp hơn 100 camera ở khắp nơi. Tuy nhiên để có thể quan sát và phát hiện ra những
Trang 2 | 21
điều bất thường từ những camera đó thì công ty đã phải tốn chi phí rất lớn để thuê một
đội ngũ nhân viên an ninh cho việc tuần tra cũng như quan sát tình hình của tòa nhà
thông qua những camera đó. Do vậy, chúng em rất muốn áp dụng những thành tựu của
công nghệ thông tin để dễ dàng phát hiện ra những điều bất thường trong tòa nhà,
nâng cao hiệu quả trong việc bảo vệ an ninh tòa nhà. Đồng thời cũng giúp công ty
giảm thiểu được chi phí khổng lồ trong việc thuê quá nhiều nhân viên an ninh.

2. Mục tiêu đề tài

Tìm hiểu về thuật toán phát hiện đối tượng YOLO

Ứng dụng thuật toán phát hiện đối tượng YOLO trong xây dựng hệ thống hỗ trợ phân
tích hình ảnh tự động.

3. Đối tượng nghiên cứu

Tìm hiểu một số thuật toán Object detection.

Thuật toán phát hiện đối tượng YOLO.

Thuật toán trích xuất khuôn mặt Viola-Jones

4. Phạm vi nghiên cứu

Dữ liệu video trong các hệ thống Camera quan sát.

5. Phương pháp nghiên cứu

Phương pháp phân tích.

Phương pháp tổng hợp: Nghiên cứu, tổng hợp các tài liệu liên quan.

II. Mô tả đề tài: giới thiệu YOLO,Viola-Jones; ứng dụng, tổng quan các
dự án liên quan trong cùng lĩnh vực, nêu những vấn đề còn tồn tại,
nghiên cứu hướng giải quyết, nội dung thực hiện chính.(ĐẠT)

1. Giới thiệu

Trang 3 | 21
a) YOLO

YOLO (You only look once) là một mô hình mạng CNN cho việc phát hiện, nhận
dạng, phân loại đối tượng. YOLO được tạo ra từ việc kết hợp giữa các convolutional
layers và connected layers. Trong đó các convolutional layers sẽ trích xuất ra các
feature của ảnh, còn full-connected layers sẽ dự đoán ra xác suất đó và tọa độ của đối
tượng

YOLO có thể không phải là thuật toán tốt nhất nhưng nó là thuật toán nhanh nhất
trong các lớp mô hình object detection. Nó có thể đạt được tốc độ gần như real time
mà độ chính xác không quá giảm so với các model thuộc top đầu.

YOLO là thuật toán object detection nên mục tiêu của mô hình không chỉ là dự báo
nhãn cho vật thể như các bài toán classification mà nó còn xác định location của vật
thể. Do đó YOLO có thể phát hiện được nhiều vật thể có nhãn khác nhau trong một
bức ảnh thay vì chỉ phân loại duy nhất một nhãn cho một bức ånh.

Một trong những ưu điểm mà YOLO đem lại đó là chỉ sử dụng thông tin toàn bộ bức
ảnh một lần và dự đoán toàn bộ object box chứa các đối tượng, mô hình được xây
dựng theo kiểu end-to-end nên được huấn luyện hoàn toàn bằng gradient descent.

Tính đến thời điểm hiện tại YOLO đã có tổng cộng 8 phiên bản (v1, v2, v3, v4, v5,
v6, v7, v8). Trong đó bản v8 là bản mới nhất, khắc phục được các nhược điểm của các
phiên bản trước như: lỗi về việc xác định vị trí của vật thể, các ràng buộc về không
gian trên những bounding box, mỗi grid cell chỉ có thể predict rất ít bounding box, ...

b) Viola-Jones

Viola-Jones là một kỹ thuật máy học để phát hiện đối tượng được đề xuất vào năm
2001 bởi Paul Viola và Michael Jones trong bài báo của họ “Phát hiện đối tượng
nhanh chóng bằng cách sử dụng một loạt các tính năng đơn giản được tăng cường” .
Thuật toán chủ yếu được hình thành để phát hiện khuôn mặt.

Thuật toán này hiệu quả vào thời điểm đó, có thể phát hiện khuôn mặt trong hình ảnh

Trang 4 | 21
384 x 288 pixel ở 15 khung hình mỗi giây trên Intel Pentium III 700 MHz thông
thường. Nó cũng mạnh mẽ, đạt được độ chính xác và thu hồi cao.

Mặc dù có độ chính xác thấp hơn so với các phương pháp nhận diện khuôn mặt hiện
đại dựa trên Mạng thần kinh chuyển đổi (CNN), thuật toán Viola-Jones vẫn là một giải
pháp hiệu quả cho các thiết bị hạn chế về tài nguyên.

Đưa ra một hình ảnh thang độ xám, thuật toán sẽ phân tích nhiều cửa sổ có kích thước
và vị trí khác nhau, đồng thời cố gắng phát hiện đối tượng mục tiêu bằng cách tìm
kiếm các đặc điểm hình ảnh cụ thể trong mỗi cửa sổ.

Thuật toán Viola-Jones dựa trên bốn ý tưởng chính sau đây:

❖ Các tính năng haar-like

Thuật toán Viola-Jones sử dụng một tập hợp các tính năng tương tự như Haar
wavelets, là một tập hợp các hàm hình vuông. Cụ thể hơn, thuật toán sử dụng ba loại
tính năng giống như Haar được biểu diễn trong hình sau:

Mỗi tính năng chỉ định một tập hợp các hình chữ nhật trong cửa sổ hình ảnh. Một hình
chữ nhật có thể được đánh dấu là màu trắng hoặc đen. Giá trị tính năng được tính là sự
khác biệt giữa tổng giá trị pixel trong vùng màu trắng và tổng giá trị pixel trong vùng
màu đen.

Giá trị tính năng sẽ ở khoảng 0 đối với “vùng phẳng”, tức là nơi tất cả các pixel có
cùng giá trị. Giá trị đặc trưng lớn sẽ thu được ở những vùng có các điểm ảnh trong
hình chữ nhật đen và trắng rất khác nhau.
Trang 5 | 21
Như được hiển thị bên dưới, các tính năng A và B có tầm quan trọng lớn trong việc
phát hiện khuôn mặt vì:

● vùng mắt tối hơn má

● vùng mắt đậm hơn vùng mũi

❖ Hình ảnh tích hợp để tăng tốc tính toán tính năng

Hình ảnh tích hợp là một cấu trúc dữ liệu để tính toán hiệu quả tổng các giá trị pixel
trong cửa sổ hình ảnh hình chữ nhật. Do đó, các đặc trưng Haar-like có thể được tính
toán rất nhanh bằng cách sử dụng biểu diễn ảnh tích phân.

Cho một hình ảnh thang độ xám I, giá trị hình ảnh tích phân ii(x, y) tại điểm (x, y) là
tổng của tất cả các pixel ở trên và ở bên trái của (x, y), bao gồm:

(1)

Hình ảnh tích phân có thể được tính toán trong một lần lướt qua hình ảnh I với

Trang 6 | 21
phương trình sau:

(2)

Cho trước một hình ảnh có n pixel, độ phức tạp về thời gian của phép tính tích phân
hình ảnh là O(n).

Có thể chứng minh rằng tổng trong bất kỳ diện tích hình chữ nhật nào yêu cầu bốn giá
trị của ảnh tích phân, bất kể kích thước cửa sổ:

Cụ thể hơn, tổng các giá trị pixel trong hình chữ nhật ABCD được hiển thị ở trên có
thể được tính như sau:

(3)

Do đó, sử dụng công thức này, độ phức tạp về thời gian của phép tính đặc trưng giống
Haar là O(1).

❖ Học AdaBoost để lựa chọn tính năng

Số lượng các tính năng là khoảng 16000 nếu độ phân giải cơ bản của máy dò là 24 ×
24. Tuy nhiên, một số ít các tính năng này hữu ích để phát hiện khuôn mặt. Thuật toán
Viola-Jones sử dụng AdaBoost để tìm các tính năng tốt nhất và huấn luyện bộ phân
loại. Mỗi tính năng giống như Haar đại diện cho một bộ phân loại yếu. Bộ phân loại

Trang 7 | 21
cuối cùng được đưa ra bởi sự kết hợp tuyến tính của các bộ phân loại yếu. Trọng số
lớn hơn được liên kết với bộ phân loại tốt hơn bằng cách sử dụng thuật toán học
AdaBoost.

❖ Dòng phân loại để từ chối nhanh các cửa sổ không có khuôn mặt

Đây là một thủ thuật khác của thuật toán Viola-Jones cho phép tăng tốc độ phát hiện.

Tính năng tốt nhất được chọn bởi AdaBoost từ chối nhiều cửa sổ tiêu cực trong khi
phát hiện hầu hết tất cả các cửa sổ tích cực. Do đó, bộ phân loại tương ứng với tính
năng tốt nhất được đánh giá đầu tiên trên một cửa sổ nhất định. Một phản hồi tích cực
sẽ kích hoạt việc đánh giá bộ phân loại thứ hai (phức tạp hơn), v.v. Phản hồi tiêu cực ở
bất kỳ cấp độ nào đều dẫn đến việc từ chối cửa sổ.

Chiến lược này từ chối càng nhiều cửa sổ tiêu cực càng tốt ở giai đoạn sớm nhất. Chỉ
các trường hợp tích cực mới kích hoạt tất cả các trình phân loại trong tầng.

Hình ảnh sau đây biểu thị sơ đồ tầng phát hiện:

2. Ứng dụng

a) YOLO

Phát hiện người và khuôn mặt sử dụng YOLOv3

Trang 8 | 21
b) Viola-Jones

Phát hiện và theo dõi đối tượng

3. Tổng quan các dự án liên quan

Xây dựng hệ thống hỗ trợ phân tích hình ảnh tự động tại phòng kỹ thuật hình sự công
an tỉnh Khánh Hòa.

Nhận diện động vật bằng YOLOv5.

4. Những vấn đề còn tồn tại

Một số camera còn tồn tại nhiều bất cập như không rõ nét, độ phân giải chưa cao, …
do nhiều nguyên nhân (đường truyền wifi không ổn định, vị trí lắp đặt gây khó khăn
cho việc theo dõi, …).

Hệ thống camera an ninh của toà nhà vẫn còn được giám sát thủ công, gây lãng phí tài
nguyên, nhân lực và kinh phí.

5. Hướng giải quyết

Kiểm tra hệ thống camera thường xuyên để phát hiện vấn đề và sửa chữa kịp thời.

Ứng dụng công nghệ thông tin vào việc giám sát hệ thống camera an ninh để tiết kiệm
tài nguyên.

6. Nội dung thực hiện chính

Nghiên cứu và áp dụng các công nghệ tiên tiến nhất hiện nay vào hệ thống camera an
ninh như các thuật toán phát hiện và nhận diện đối tượng, phân loại đối tượng, …

III. Tổng quan: Ý tưởng, tính cấp thiết, tính mới (MINH)

1. Ý tưởng

Hiện tại hệ thống camera anh ninh giám sát của công ty cần nhiều lực
lượng nhân viên vận hành, giám sát thủ công gây lãng phí tài nguyên,
Trang 9 | 21
nhân lực và kinh phí. Từ đó nhóm muốn đề xuất giải pháp ứng dụng
CNTT tân tiến hiện nay như Yolo , Viola-Jones, Ứng dụng trí tuệ nhân
tạo (Artificial Intelligence), máy học (Machine learning) để phân tích xử
lý hình ảnh, dễ dàng phát hiện ra những điều bất thường trong tòa nhà,
đưa ra những cảnh báo kịp thời đến nhân viên an ninh.

2. Tính cấp thiết

Nguồn nhân lực con người hạn chế việc giám sát thủ công phát hiện
điều bất thường đối với nhân viên an ninh còn khá khó khăn. Lợi dụng
lỗ hổng đó kẻ gian có thể đột nhập vào công ty. Do đó tận dụng triệt để
công cụ camera giám sát ứng dụng mô hình Yolo và Viola-Jones nhằm
giám sát có hệ thống đưa ra cảnh báo kịp thời nhằm ngăn chặn, giảm xác
suất kẻ gian đột nhập gây thiệt hại cho công ty.

3. Tính mới

Thuật toán Yolo(You only look one) sử dụng mô hình mạng nơron tích
chập(CNN). Convolutional Neural Network (CNN – Mạng nơ ron tích
chập) là một trong những mô hình Deep Learning tiên tiến giúp cho
chúng ta xây dựng được những hệ thống thông minh với độ chính xác
cao hiện nay. Yolo được tạo ra từ việc tích hợp giữa các lớp tích chập và
các lớp kết nối. các lớp tích chập sẽ trích xuất ra các đặc trưng của ảnh,
còn các lớp kết nối đầy đủ sẽ dự đoán ra xác suất đó và toạ độ của đối
tượng. Yolo V8 là lựa chọn tối ưu với tốc độ nhận dạng và độ chính xác
cao.

Thuật toán Viola Jones phân tích hình ảnh dựa trên hướng tiếp cận diện
mạo dùng SVM (Support Vector Machine) và các phương thức kernel
nhằm phân loại các mẫu khuôn mặt và không phải khuôn mặt. Từ đó
Viola Jones có những ưu điểm vượt trội như phát hiện chính xác nhanh,
làm việc thời gian thực.

Trang 10 | 21
Ứng dụng 2 thuật toán Yolo và Viola Jones vào hệ thống an ninh camera
giám sát công ty ZaLo Pay sẽ đem lại hiệu quả giám sát tối ưu, nhận
diện hình ảnh nhanh chóng và đưa ra cảnh báo kịp thời.

IV. Nội dung và phương pháp thực hiện

ND1: Tìm hiểu thuật toán Yolo(mục tiêu), sau khi sử dụng YOLo ta thu đc
j(sản phẩm), Cách thức hoạt động của yolo(Phương pháp) minh

Mục tiêu:

Kiến trúc YOLO bao gồm base network là các mạng convolution làm
nhiệm vụ trích xuất đặc trưng. Phần phía sau là những Extra Layers được áp
dụng để phát hiện vật thể trên feature map của base network. Base network
của YOLO sử dụng chủ yếu là các convolutional layer và các fully
connected layer. Các kiến trúc YOLO cũng khá đa dạng và có thể tùy biến
thành các version cho nhiều input shape khác nhau. Thành phần Darknet
Architecture được gọi là base network có tác dụng trích xuất đặc trưng.
Output của Laser network là một feature map có kích thước 7x7x1024 sẽ
được sử dụng làm input cho các Extra layers có tác dụng dự đoán nhãn và
tọa độ bounding box của vật thể.

Sản phẩm:

Các bức ảnh khi được đưa vào mơ hình sẽ được scale để về chung một kích
thước phù hợp với input shape của mô hình và sau đó được gom lại thành
batch đưa vào huấn luyện.

Hiện tại YOLO dùng hỗ trợ 2 đầu vào chính là 416x416 và 608x608. Mỗi
một đầu vào sẽ có một thiết kế các layers riêng phù hợp với shape của
input. Sau khi đi qua các layer convolutional thì shape giảm dần theo cấp số
nhân là 2. Cuối cùng ta thu được một feature map có kích thước tương đối
nhỏ để dự báo vật thể trên từng ô của feature map.Kích thước của feature
map sẽ phụ thuộc vào đầu vào. Đối với input 416x416 thì feature map có
Trang 11 | 21
các kích thước là 13x13, 26×26 và 52x52. Và khi là 608×608 sẽ tạo ra
feature map 19x19, 38x38, 72x72.

Phương pháp:

Đầu vào của mô hình là một ảnh, mô hình sẽ nhận dạng ảnh đó có đối tượng
nào hay không, sau đó sẽ xác định tọa độ của đối tượng trong bức ảnh. Anh
đầu vào được chia thành SxS ô thường thì sẽ là 3x3,7x7,9x9,.... Việc chia ô
có ảnh hưởng đến viện 6 phát hiện đối tượng của mô hình.[1]

Hình 2.3: Cách hoạt động của mạng YOLO

Với Input là 1 ảnh, đầu ra mô hình là một ma trận 3 chiều có kích thước
SxSx(5 x N + M) với số lượng tham số mỗi ô là (5 x N + M) với N và M
lần lượt là số lượng Box và Class mà mỗi ở cần dự đoán. Xét ví dụ ở hình
trên chia thành 7x7 ô, mỗi ô cần dự đoán 2 bounding box và 3 object: con
Trang 12 | 21
chó, ô tô, xe đạp thì output sẽ là 7x7x13, mỗi ô sẽ có 13 tham số, cho kết
quả trả về (7x7x2 =98) bounding box.

ND2: Tìm hiểu thuật toán Viola jones(mục tiêu), sau khi sử dụng Viola
jones ta thu đc j(sản phẩm), Cách thức hoạt động của Viola
jones(Phương pháp) Phượng

- Thuật toán Viola-Jones lần đầu tiên được xuất bản vào năm 2001 bởi Paul
Viola và Michael Jones trong bài báo năm 2001
- Viola và Jones đề xuất một thuật toán có khả năng phát hiện các vật thể trong
hình ảnh, bất kể vị trí và tỷ lệ của chúng trong một hình ảnh. Hơn nữa, thuật
toán này có thể chạy trong thời gian thực, giúp phát hiện các đối tượng trong
video stream.

Mục tiêu:

- Viola và Jones tập trung vào việc phát hiện khuôn mặt trong ảnh, nhưng thuật
toán này cũng có thể được sử dụng để huấn luyện máy dò tìm các vật thể tùy
ý, như xe hơi, tòa nhà, dụng cụ nhà bếp và thậm chí là một trái chuối.Thuật
toán này có thể phát hiện khuôn mặt trong hình ảnh 384 x 288 pixel ở 15
khung hình mỗi giây trên Intel Pentium III 700 MHz thông thường. Nó cũng
đạt được độ chính xác và thu hồi cao.

Sản phẩm:

Trang 13 | 21
Quy trình tổng thể của thuật toán như sau:

- Đầu tiên input hình ảnh mong muốn vào hệ thống.


- Lựa chọn tính năng Haar được sử dụng để phát hiện tính năng đặc điểm
của khuôn mặt.
- Một hình ảnh tích hợp được tính toán để tăng tốc quá trình xử lý.
- Sau đó, Adaboost training được thực hiện để xác định vị trí và tạo các
tính năng một cách chính xác. Đồng thời tăng tính năng xử lý.
- Cuối cùng phân tầng được sử dụng để phân biệt trực tiếp xem một cửa
sổ có chứa face hay không.

=> mục tiêu của thuật toán là phát hiện ra khuôn mặt chứ không phải
nhận diện chúng.

Phương pháp:

- Haar features: ý tưởng : độ sáng tối của các vùng trên gương mặt là khác
nhau. Ví dụ: vùng mắt tối hơn vùng má, vùng mũi sáng hơn vùng hai
bên

Trang 14 | 21
- - Kết quả của mỗi đặc trưng được tính bằng hiệu của tổng các pixel
trong miền ô trắng trừ đi tổng các pixel trong miền ô đen.

- Thuật toán viola jones sử dụng cửa sổ 24x24 để đánh giá các đặc trưng của
ảnh. Nếu xem xét tất cả các tham số của các đặc trưng, ta tính được khoảng
180.000+ đặc trưng cho mỗi cửa sổ.

Trang 15 | 21
- Integral Image: giá trị ở pixel (x, y) là tổng của các pixel ở trên và bên trái
(x,y). Cho phép tính tổng của các pixel trong bất kì hình chữ nhật chỉ với 4 giá
trị ở 4 góc.

-
- Trong các pixels: D=1 + 4 – (2+3) = A + (A + B +C + D)- (A+C + B) = D
- Có rất nhiều đặc trưng được lấy ra từ 1 cửa sổ nhưng chỉ có 1 số ít là hữu dụng
trong việc nhận diện khuôn mặt.
- Sử dụng thuật toán adaboost để tìm những đặc trưng tốt nhất. Sau đó các đặc
trưng này được gán cho các trọng số để tạo nên hàm đánh giá quyết định xem
một cửa sổ có là khuôn mặt hay không. Mỗi đặc trưng chọn nếu chúng ít nhất
thể hiện tốt hơn đoán ngẫu nhiên (phát hiện nhiều hơn một nửa).
- Các đặc trưng được gọi là các bộ phân lớp yếu. Chúng được tổ hợp tuyến tính
để tạo ra một bộ phân lớp mạnh.

- Mặc dù một ảnh có thể chứa một hoặc nhiều khuôn mặt nhưng số lượng vật
không phải khuôn mặt vẫn lớn hơn rất nhiều => thuật toán nên tập trung vào
việc bỏ những vật không phải khuôn mặt một cách nhanh chóng.

Trang 16 | 21
- Một bộ phân lớp cascade (cascade classifier) được sử dụng tất cả các đặc trưng
được nhóm vào vài stage. Mỗi stage gồm một số các đặc trưng.
- Mỗi stage được sử dụng để xác định một cửa số có phải là khuôn mặt hay
không

● Không phải tất cả các tính năng của haar đều được sử dụng, chúng cần
được loại bỏ các tính năng không mong muốn để đẩy nhanh quá trình và
có được kết quả chính xác

ND3:

V. Kết quả dự kiến(THƯ)

Như đã nêu ở phần lý do chọn đề tài thì hiện tại công ty gắn rất nhiều
camera ở khắp mọi nơi để đảm bảo an toàn cho tòa nhà tránh một số kẻ xấu
xâm nhập vào gây rối và đánh cắp bí mật thương nghiệp. Vì thế công ty cần
Trang 17 | 21
rất nhiều nguồn nhân lực để quan sát các camera đó để phát hiện bất thường
kịp thời. Để giải quyết vấn đề quá cần quá nhiều nhân lực này thì khi chúng
ta tích hợp công nghệ YOLO vào hệ thống camera an ninh của công ty. Khi
đó, sau khi nhận dữ liệu từ camera máy tính sẽ xử lý từng khung ảnh để
phát hiện đối tượng là người trong khung hình, hệ thống tiếp tục sử dụng sử
dụng thuật toán Viola-Jones để trích xuất khuôn mặt đối tượng. Nếu đối
tượng được trích xuất mà không có trong cơ sở dữ liệu của nhân viên hoặc
nằm ngoài khung giờ hành chính hệ thống sẽ cảnh báo qua tin nhắn(SMS,
Zalo,...) cho người chịu trách nhiệm xử lý, đồng thời lưu lại danh sách
khuôn mặt được trích xuất

VI. TỔNG KẾT (THƯ)

Nhóm chúng em xin trân trọng cảm ơn sự hướng dẫn, đóng góp, nhận xét tận tình của
Ths.Nguyễn Thị Anh Thư trong quá trình thực hiện đồ án. Tuy nhiên, do kinh nghiệm
và trình độ kiến thức còn hạn chế, nên sẽ không tránh khỏi những thiếu sót trong quá
trình thực hiện đồ án. Chúng em rất mong nhận được sự đánh giá, góp ý từ phía Giảng
viên và các bạn sinh viên để đồ án này có thể hoàn thiện hơn, và nhôm chúng em sẽ
rút ra được nhiều bài học, kinh nghiệm quý báu trong công việc tương lai.

Liệt kê và mô tả chi tiết những nội dung nghiên cứu khoa học và triển khai thực
nghiệm phù hợp cần thực hiện để giải quyết vấn đề đặt ra kèm theo các nhu cầu
về nhân lực, tài chính và nguyên vật liệu trong đó chỉ rõ những nội dung mới ,
những nội dung kế thừa kết quả nghiên cứu của các đề tài trước đó; những hoạt
động để chuyển giao kết quả nghiên cứu đến người sử dụng, dự kiến những nội
dung có tính rủi ro và giải pháp khắc phục – nếu có

Nội dung 1: Thay mới, bảo trì, sửa chữa các camera và thiết bị giám sát của công
ty.

Trang 18 | 21
1. Mục tiêu: Nâng cấp chất lượng camera của công ty để quay được
các video rõ nét, không bị ngược sáng

2. Phương pháp thực hiện:

Bước 1: Trên cơ sở kinh phí được cấp thì cần lên kế hoạch sửa chữa, cải
tạo, nâng cấp các camera của công ty. Đặc biệt là các camera ở cửa ra vào
của công ty, cửa các phòng ban.

Bước 2: Sau đó lập hồ sơ trình lên trên để xét duyệt. Sau hồ sơ được xét
duyệt thì mời nhà thầu đến để khảo sát và làm dự toán, đưa ra phương án
thực hiện của việc sửa chữa, cải tạo, nâng cấp các camera. Sau khi có bản
dự toán và phương án thực hiện thì trình đưa cho bộ phận kế toán và ban
giám đốc để xét duyệt, kiểm tra.

Bước 3: Sau khi được xét duyệt, nhà thầu sẽ bắt tay vào công việc sửa
chữa, bảo trì hệ thống camera của công ty. Trong quá trình thực hiện,
công ty cử nhân viên có chuyên môn để tư vấn thiết kế vị trí đặt camera và
giám sát quá trình thi công.

3. Sản phẩm: Các camera ở các lối ra vào được thay mới hoàn toàn và
bảo trì, sửa chữa một số camera khác. Tổng chi phí cho công việc này
khoảng 600 triệu đồng. (Chi phí cho 1 cái camera khoảng 35 triệu đồng.)
Thời gian thực hiện 10 ngày.

Nội dung 2: Tích hợp thuật toán YOLO và Viola - Jones vào thiết bị giám sát
trong phòng quản lý an ninh của công ty

Mục tiêu: Sau khi nhận được dữ liệu từ camera, sử dụng thuật toán YOLO để
máy tính xử lý từng khung ảnh phát hiện các vật thể là người. Trong trường hợp
phát hiện các đối tượng là người trong khung hình máy tính sẽ sử dụng thuật
toán Viola – Jones để trích xuất khuôn mặt đối tượng.

Phương pháp thực hiện:

Trang 19 | 21
Bước 1: Đưa video đầu vào( video quay được từ camera của công ty)

Bước 2: Lấy khung hình từ video (frame)

VII. DANH MỤC TÀI LIỆU THAM KHẢO

Trang 20 | 21

You might also like