Professional Documents
Culture Documents
ID38 +Truong+Quang+Phuc
ID38 +Truong+Quang+Phuc
Ngày toà soạn nhận bài 19/8/2020, ngày phản biện đánh giá 3/9/2020, ngày chấp nhận đăng 29/9/2020
TÓM TẮT
Trong bài báo này, tác giả sử dụng mạng nơ-ron tích chập, một trong những kiến trúc
phổ biến của học sâu để nhận diện và phân loại cảm xúc khuôn mặt. Một cách tổng quát, các
mạng nơ-ron được chọn có cấu trúc phức tạp và có tham số lớn, tác giả tập trung vào việc
xây dựng một mạng nơ-ron đơn giản hơn và phù hợp với bộ dữ liệu thông qua phương pháp
so sánh và đánh giá. Ngoài ra, tác giả cũng tập trung vào việc thu thập một tập dữ liệu đủ lớn
để đạt kết quả cao. Cụ thể, tác giả lựa chọn sử dụng nền tảng phần cứng nhúng Jetson TX2
của NVIDIA để tận dụng khả năng tính toán của GPU nhằm tối ưu thời gian tính toán và
huấn luyện dữ liệu. Trong đó, dữ liệu được sử dụng là FER2013 và RAF để huấn luyện và
kiểm tra. Phương pháp sử dụng đã đạt được độ chính xác 72% trên tập dự liệu kiểm tra.
Từ khóa: Nhận diện; cảm xúc khuôn mặt; mạng nơ-ron; CNN; Jetson TX2.
ABSTRACT
In this paper, a convolutional neural network (CNN), one of the most popular deep
learning architectures used for facial extraction research, has been implemented on NVIDIA
Jetson TX2 hardware. Different from many existing approaches investigating CNN with
complex structure and large parameters, we have focused on building a robust neural network
through extensive performance comparison and evaluation. In addition, we have collected a
dataset using a built-in camera on a laptop computer. Specifically, we have applied our model
on Jetson TX2 hardware to take advantage of the computational power of the embedded GPU
to optimize computation time and data training. In particular, both FER2013 and RAF
datasets with seven basic emotions have been used for training and testing purposes. Finally,
the evaluation results show that the proposed method achieves an accuracy of up to 72% on
the testing dataset.
Keywords: recognition; facial emotion; neural network; CNN; Jetson TX2.
Doi: https://doi.org/10.54644/jte.63.2021.38
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 63 (04/2021)
12 Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh
hình ảnh khuôn mặt với nhiều loại biểu cảm tiêu thụ chỉ 7,5W năng lượng. Đây là phần
khác nhau được thu thập từ internet. Hình cứng tốt để thực hiện các giải thuật học sâu
ảnh trong tập dữ liệu có sự thay đổi lớn về trên nền tảng hệ thống nhúng [7].
tuổi tác, dân tộc, tư thế đầu và điều kiện ánh
sáng và đa dạng về phong cách (mang kính,
đội nón) [5].
Trong bảng 1, chúng tôi so sánh kết quả optimizer Adam adam adam adam adam Adam
Model Accuracy Param Acc 0.25 0.69 0.69 0.68 0.68 0.68
Simple CNN 0.6291 0.64 Loss 1.8 0.91 0.91 0.93 0.92 0.92
Với sự hội tụ của độ chính xác, hình 8 Bảng 4. Kết quả nhận diện trên nhiều điều
trình bày sai số của model trên tập test kiện khác nhau
validation và tập train cũng đã hội tụ sau Khoảng
Khoảng
Ánh
Ánh
khoảng 90 epoch. Cảm cách sáng Thiếu
cách sáng
xúc dưới bình sáng
trên 1m chói.
1m thường
Bình
57/60 60/60 57/60 33/60 19/60
thường
Vui 53/60 31/60 53/60 34/60 14/60
Buồn 47/60 7/60 47/60 22/60 13/60
Giận 23/60 6/60 23/60 16/60 12/60
Khó
37/60 3/60 37/60 13/60 12/60
Chịu
Lo sợ 31/60 2/60 31/60 12/60 11/60
Ngạc
50/60 4/60 50/60 10/60 13/60
nhiên
angry 510 35 57 72 157 104 13 Hình 9 và hình 10 tương ứng cho thấy
disgust 9 81 2 3 2 11 2 kết quả nhận diện đúng và kết quả nhận diện
fear 60 16 504 74 132 173 109 sai trên tập dữ liệu test của FER2013 với
happy 4 0 9 1658 82 19 23
khoảng hơn 7000 chiếm khoảng 20% tập dữ
sad 22 2 53 83 978 98 36
liệu của FER.
suprise 62 6 99 70 308 614 17
neutral 5 1 70 46 21 11 655
[2] Imane Lasri , Anouar Riad Solh , Mourad El Belkacemi, "Facial Emotion Recognition of
Students using Convolutional Neural Network," 2019 Third International Conference on
Intelligent Computing in Data Sciences (ICDS), Marrakech, Morocco, pp. 1-6, 2019.
[3] D. V. Sang, N. Van Dat and D. P. Thuan, "Facial expression recognition using deep
convolutional neural networks," 2017 9th International Conference on Knowledge and
Systems Engineering (KSE), Hue, 2017, pp. 130-135.
[4] S. Turabzadeh, H. Meng, R. Swash, M. Pleva, and J. Juhar, “Facial Expression Emotion
Detection for Real-Time Embedded Systems,” Technologies, vol. 6, no. 1, p. 17, Jan. 2018.
[5] "Nvidia. Autonomous Machines," NVIDIA, [Online]. Available:
https://developer.nvidia.com/embedded/develop/hardware?fbclid=IwAR2SmS-iYoKC
WGrc6fysbbbd7t07Ly8dw-g9lfldJT-ilbP9aT28vSrFs8I.
[6] Artiom Basulto-Lantsova , Jose A. Padilla-Medina , Francisco J. Perez-Pinal , Alejandro
I. Barranco-Gutierrez, "Performance comparative of OpenCV Template Matching
method on Jetson TX2 and Jetson Nano developer kits," 2020 10th Annual Computing
and Communication Workshop and Conference (CCWC), Las Vegas, NV, USA, pp.
0812-0816, 2020.
[7] "Technical Specifications," NDIVIA, [Online]. Available:
https://developer.nvidia.com/embedded/develop/hardware.
[8] "Nvidia. Autonomous Machines," NVIDIA, [Online]. Available:
https://developer.nvidia.com/embedded/develop/hardware?fbclid=IwAR2SmS-iYoKC
WGrc6fysbbbd7t07Ly8dw-g9lfldJT-ilbP9aT28vSrFs8I.
[9] J. Flores, "Training a TensorFlow model to recognize emotions," 24 May 2018. [Online].
Available:
https://medium.com/@jsflo.dev/training-a-tensorflow-model-to-recognize-emotions-a20
c3bcd6468.
[10] Z. Zhang, "Improved Adam Optimizer for Deep Neural Networks," 2018 IEEE/ACM
26th International Symposium on Quality of Service (IWQoS), Banff, AB, Canada, 2018,
pp. 1-2.
[11] Tee Connie , Mundher Al-Shabi , Wooi Ping Cheah, Michael Goh, " Facial Expression
Recognition Using a Hybrid CNN–SIFT Aggregator," Multi-disciplinary Trends in
Artificial Intelligence (MIWAI), Lecture Notes in Computer Science, vol 10607, 2017.