HTCĐTTM

Hệ Thống Cơ Điện Tử Thông Minh GVHD: TS.
Nguyễn Trọng Doanh
MỤC LỤC
MỤC LỤC................................................................................................................1
CHƯƠNG 1: CÁC KHÁI NIỆM...........................................................................2
1.1. Khái niệm Deep Learning...............................................................................2
1.2. Khái niệm mạng RNN.....................................................................................3
1.3. Ứng dụng của mạng RNN...............................................................................4
1.4. Khái niệm mạng LSTM..................................................................................4
CHƯƠNG 2: VỀ MẠNG LSTM VÀ CÁCH THỨC TRIỂN KHAI..................5
2.1. Ý tưởng của LSTM (Long Short-term memory)..........................................5
2.2. Các bước triển khai.........................................................................................6
2.3. Các biến thể của LSTM..................................................................................8
CHƯƠNG 3: DEMO XÂY DỰNG MÔ HÌNH NHẬN DIỆN HÀNH ĐỘNG
SỬ DỤNG MẠNG LSTM.......................................................................................9
3.1. Giới thiệu dự án...............................................................................................9
3.2. Các bước triển khai.......................................................................................12
3.3. Kết quả đạt được...........................................................................................21
3.4. Kết luận..........................................................................................................24
Ngô Văn Vũ - 20195235 LSTM Network

1
Hệ Thống Cơ Điện Tử Thông Minh GVHD: TS. Nguyễn Trọng Doanh
CHƯƠNG 1: CÁC KHÁI NIỆM

1.1. Khái niệm Deep Learning
- Deep Learning là một lĩnh vực con của Machine Learning liên quan đến các thuật
toán lấy cảm hứng từ cấu trúc và chức năng của bộ não được gọi là mạng lưới thần
kinh nhân tạo.
- Có nhiều loại mô hình DL khác nhau:
+ Mạng thần kinh chuyển đổi(Convolutional Neural Network(CNN)).
+ Mạng thần kinh hồi quy (Recurrent Neural Networks(RNN)).
+ Bộ nhớ ngắn hạn dài (Long Short Term Memory(LSTM)).
+ Máy Boltzmann bị hạn chế (Restricted Boltzmann Machine(RBM)).
+ Mạng niềm tin sâu sắc(Deep Belief Networks(DBN)).
=> Báo cáo này tập trung vào các mạng tái phát , đặc biệt là LSTM. Cấu trúc RNN
cơ bản, cấu trúc LSTM cơ bản và Stock.

2
1.2. Khái niệm mạng RNN

- Hình bên biểu diễn kiến trúc của một mạng nơ ron truy hồi. Trong kiến trúc
này mạng nơ ron sử dụng một đầu vào là một véc tơ x t và trả ra đầu ra là một giá trị
ẩn ht . Đầu vào được đấu với một thân mạng nơ ron A có tính chất truy hồi và thân
này được đấu tới đầu ra ht .
- Vòng lặp A ở thân mạng nơ ron là điểm mấu chốt trong nguyên lý hoạt động
của mạng nơ ron truy hồi. Đây là chuỗi sao chép nhiều lần của cùng một kiến trúc
nhằm cho phép các thành phần có thể kết nối liền mạch với nhau theo mô hình
chuỗi. Đầu ra của vòng lặp trước chính là đầu vào của vòng lặp sau.
- Nếu trải phẳng thân mạng nơ ron A ta sẽ thu được một mô hình dạng:

3
1.3. Ứng dụng của mạng RNN

- Machine Translation: Đầu vào là tiếng Anh, đầu ra là tiếng Pháp.
- Mô hình hóa ngôn ngữ và sinh văn bản: RNN cho phépdự đoán xác suất của một
từ mới nhờ vào các từ đã biết liền trước nó.
- Nhận dạng giọng nói.
- Mô tả hình ảnh: RNN kết hợp cùng CNN để sinh ra mô tả cho hình ảnh chưa
được gán nhãn.
1.4. Khái niệm mạng LSTM

- Mạng trí nhớ ngắn hạn định hướng dài hạn còn được viết tắt là LSTM làm
một kiến trúc đặc biệt của RNN có khả năng học được sự phục thuộc trong dài hạn
(long-term dependencies) được giới thiệu bởi Hochreiter & Schmidhuber (1997).
Kiến trúc này đã được phổ biến và sử dụng rộng rãi cho tới ngày nay.
- LSTM đã tỏ ra khắc phục được rất nhiều những hạn chế của RNN trước đây
về triệt tiêu đạo hàm. Tuy nhiên cấu trúc của chúng có phần phức tạp hơn mặc dù
vẫn dữ được tư tưởng chính của RNN là sự sao chép các kiến trúc theo dạng chuỗi.
- Một mạng RNN tiêu chuẩn sẽ có kiến trúc rất đơn giản chẳng hạn như đối
với kiến trúc gồm một tầng ẩn là hàm tanh.
- LSTM cũng có một chuỗi dạng như thế nhưng phần kiến trúc lặp lại có cấu
trúc khác biệt hơn. Thay vì chỉ có một tầng đơn, chúng có tới 4 tầng ẩn (3 sigmoid
và 1 tanh) tương tác với nhau theo một cấu trúc đặc biệt.

4
CHƯƠNG 2: VỀ MẠNG LSTM VÀ CÁCH THỨC TRIỂN KHAI

2.1. Ý tưởng của LSTM (Long Short-term memory)
- Ý tưởng chính của LSTM là thành phần ô trạng thái (cell state) được thể hiện
qua đường chạy ngang qua đỉnh đồ thị như hình vẽ.
- Ô trạng thái là một dạng băng chuyền chạy thẳng xuyên suốt toàn bộ chuỗi
với chỉ một vài tương tác tuyến tính nhỏ giúp cho thông tin có thể truyền dọc
theo đồ thị mạng nơ ron ổn định.
- LSTM có khả năng xóa và thêm thông tin vào ô trạng thái và điều chỉnh các
luồng thông tin này thông qua các cấu trúc gọi là cổng.
- Cổng là cơ chế đặc biệt để điều chỉnh luồng thông tin đi qua.Chúng được
tổng hợp bởi một tầng ẩn của hàm activation sigmoid và với một toán tử nhân
như hình bên.
- Hàm sigmoid sẽ cho đầu ra là một giá trị xác xuất nằm trong khoảng từ 0 đến
1, thể hiện rằng có bao nhiêu phần thông tin sẽ đi qua cổng. Giá trị bằng 0 ngụ
ý rằng không cho phép thông tin nào đi qua, giá trị bằng 1 sẽ cho toàn bộ
thông tin đi qua.
- Một mạng LSTM sẽ có 3 cổng có kiến trúc dạng này để bảo vệ và kiểm soát
các ô trạng thái.

5
2.2. Các bước triển khai

- Bước 1: Quyết định xem thông tin nào chúng ta sẽ cho phép đi qua ô trạng thái
(cell state).
Nó được kiểm soát bởi hàm sigmoid trong một tầng gọi là tầng quên (forget
gate layer).
Đầu tiên nó nhận đầu vào là 2 giá trị ℎ_(𝑡−1) và 𝑥_𝑡 và trả về một giá trị
nằm trong khoảng 0 và 1 cho mỗi giá trị của ô trạng thái 𝐶_(𝑡−1).
Nếu giá trị bằng 1 thể hiện ‘giữ toàn bộ thông tin’ và bằng 0 thể hiện ‘bỏ qua
toàn bộ chúng’.
Ví dụ về ngôn ngữ, chúng ta đang cố gắng dự báo từ tiếp theo dựa trên toàn bộ
những từ trước đó. Trong những bài toán như vậy, ô trạng thái có thể bao gồm loại
của chủ ngữ hiện tại, để cho đại từ ở câu tiếp theo được sử dụng chính xác. Chẳng
hạn như chúng ta đang mô tả về một người bạn là con trai thì các đại từ nhân xưng
ở tiếp theo phải là anh, thằng, hắn thay vì cô ấy. Tuy nhiên chủ ngữ không phải khi
nào cũng cố định. Khi chúng ta nhìn thấy một chủ ngữ mới, chúng ta muốn quên đi
loại của một chủ ngữ cũ. Do đó tầng quên cho phép cập nhật thông tin mới và lưu
giữ giá trị của nó khi có thay đổi theo thời gian.

6
- Bước 2: Quyết định loại thông tin nào sẽ được lưu trữ trong ô trạng thái.
Bước này bao gồm 2 phần:
• Phần đầu tiên là một tầng ẩn của hàm sigmoid được gọi là tầng cổng vào
(input gate layer) quyết định giá trị bao nhiêu sẽ được cập nhật.
• Tiếp theo, tầng ẩn hàm tanh sẽ tạo ra một véc tơ của một giá trị trạng thái
mới C t mà có thể được thêm vào trạng thái. Tiếp theo kết hợp kết quả của 2
tầng này để tạo thành một cập nhật cho trạng thái.
Trong ví dụ của mô hình ngôn ngữ, chúng ta muốn thêm loại của một chủ ngữ
mới vào ô trạng thái để thay thế phần trạng thái cũ muốn quên đi.
Đây là thời điểm để cập nhật một ô trạng thái cũ C t−1 sang một trạng thái mới C t
. Những bước trước đó đã quyết định làm cái gì, và tại bước này chỉ cần thực hiện
nó.
Nhân trạng thái cũ với f t tương ứng với việc quên những thứ quyết định được
phép quên sớm. Phần tử đề cử it∗Ct là một giá trị mới được tính toán tương ứng
với bao nhiêu được cập nhật vào mỗi giá trị trạng thái.

7
2.3. Các biến thể của LSTM

- Những mô tả ở trên là một mạng LSTM rất thông thường. Nhưng không phải
toàn bộ LSTM đều tương tự như vậy. Trên thực tế, có vẻ như hầu hết mọi bài báo
liên quan đến LSTM đều sử dụng những version khác nhau đôi chút.
- Sự khác biệt là rất nhỏ nhưng rất đáng để đề cập một ít trong số nhứng kiến
trúc này.
- Một trong những biến thể nối tiếng nhất của LSTM được giới thiệu bởi Gers
& Schmidhuber (2000) thêm một kết nối ống tiểu (peehole connection) để các cổng
có thể kết nối trực tiếp đến các ô trạng thái.
- Một biến thể khác là sử dụng cặp đôi cổng vào và cổng ra.
- Thay vì quyết định riêng rẽ bỏ qua thông tin nào và thêm mới thông tin nào,
chúng ta sẽ quyết định chúng đồng thời.
- Các thông tin chỉ bị quên khi chúng ta muốn cập nhập vào một vài thông tin
mới.

8
- Một dạng biến thể khá mạnh khác của LSTM là cổng truy hồi đơn vị (Gated
Recurrent Unit - GRU) được giới thiệu bởi Cho, et al. (2014).
- Nó kết hợp cổng quên và cổng vào thành một cổng đơn gọi là cập nhật (update
gate).
- Nó cũng nhập các ô trạng thái và trạng thái ẩn và thực hiện một số thay đổi
khác.
- Kết quả của mô hình đơn giản hơn nhiều so với mô hình LSTM chuẩn, và đã
trở nên khá phổ biến.
CHƯƠNG 3: DEMO XÂY DỰNG MÔ HÌNH NHẬN DIỆN HÀNH
ĐỘNG SỬ DỤNG MẠNG LSTM
3.1. Giới thiệu dự án
Trong thời đại công nghệ 4.0 hiện nay, công nghệ được áp dụng vào hầu hết
các lĩnh vực trong đời sống. Một trong những công nghệ đang được ứng dụng rộng
rãi trong nhiều lĩnh vực khác nhau đó là công nghệ Xử lý ảnh.
Nhóm em chọn đề tài “Nhận diện và phát hiện hành vi của con người sử
dụng mô hình học sâu LSTM”. Ứng dụng xử lý ảnh để mô hình dự đoán tư thế của
con người từ hình ảnh, video bằng cách dự đoán các điểm trên cơ thể người, từ đó
sẽ nhận diện được hành vi tương ứng.

9
Các ứng dụng của đề tài này rất đa dạng và có tính ứng dụng cao. Ví dụ, một
trong những ứng dụng quan trọng là nhận dạng hành vi bất thường. Đây là khả
năng phát hiện các hành vi không phù hợp hoặc tiềm ẩn nguy hiểm như ngã, đột
quỵ, hay các hành vi gây hại khác. Khi phát hiện được hành vi bất thường, mô hình
có thể đưa ra cảnh báo kịp thời để giúp đảm bảo an toàn và sức khỏe cho con
người. Ngoài ra, đề tài còn có thể áp dụng trong lĩnh vực giám sát an ninh. Sử dụng
mô hình LSTM, hệ thống giám sát an ninh có thể phát hiện và cảnh báo khi có các
hành vi gây nguy hiểm như đánh nhau, đập phá đồ, hay xâm nhập vào vùng cấm.
Điều này giúp nâng cao hiệu quả trong công tác giám sát và đảm bảo an toàn và an
ninh tại các vị trí quan trọng như sân bay, nhà ga, trung tâm thương mại, hay bất kỳ
khu vực đòi hỏi sự an ninh cao nào. Một ứng dụng khác của đề tài là điều khiển các
thiết bị thông minh bằng cử chỉ tay hoặc khuôn mặt.
- Công cụ sử dụng
+ Ngôn ngữ lập trình python, IDE Pycharm
PyCharm được phát triển bởi Jet Brains và đây là
môi trường phát triển tích hợp đa nền tảng (IDE) được
thiết kế đặc biệt cho Python.
Trong đề tài này, nhóm sử dụng Pycharm để thu
thập dữ liệu và lập trình các chức năng liên quan.

10
+ Google Colab
Colaboratory hay còn gọi là Google Colab, là một sản phẩm từ Google
Research, nó cho phép chạy các dòng code python thông qua trình duyệt, đặc biệt
phù hợp với Data analysis, machine learning và giáo dục. Colab không cần yêu cầu
cài đặt hay cấu hình máy tính, mọi thứ có thể chạy thông qua trình duyệt, bạn có
thể sử dụng tài nguyên máy tính từ CPU tốc độ cao và cả GPUs và cả TPUs đều
được cung cấp cho bạn.
Để tận dụng được tốc độ GPU của
máy chủ Google ta sẽ sử dụng Google
Colab để train model nhằm cải thiện tốc độ và
tiết kiệm thời gian.
+ Framework Mediapipe
Về tổng quan, MediaPipe là tập hợp
của một loạt các giải pháp Machine
Learning đa nền tảng, có thể can thiệp được
và cực kỳ lightweight.
Ở đây, nhóm Sử dụng Framework mediapipe để trích xuất các điểm trên cơ
thể người trong quá trình lấy dữ liệu.
+ Mạng LSTM
Mạng trí nhớ ngắn hạn định
hướng dài hạn còn được viết tắt là
LSTM làm một kiến trúc đặc biệt của
RNN có khả năng học được sự phục
thuộc trong dài hạn (long-term
dependencies) được giới thiệu
bởi Hochreiter & Schmidhuber (1997). Kiến trúc này đã được phổ biến và sử dụng
rộng rãi cho tới ngày nay. Trong đề tài này, nhóm sẽ sử dụng mạng LSTM để nhận
dạng hành động của con người.
3.2. Các bước triển khai

- Các bước chính
11
- Xây dựng các hàm chức năng

- Tạo dữ liệu
- Train Model
- Chạy trong thời gian thực
Bước 1: Xây dựng các hàm chức năng
Nhóm sử dụng Framework mediapipe để trích xuất các điểm trên cơ thể
người trong quá trình lấy dữ liệu. Cụ thể, đối với cơ thể người dẽ trích xuất 33
điểm.
*Chương trình:
- Ở hình trên, trước tiên ta khai báo các thư viện cần thiết
- Xây dựng hàm gọi và sử dụng framework mediapipe
12
- Vẽ các điểm trên cơ thể
- Trích xuất các skeleton

Bước 2: Tạo dữ liệu
- Mục đích của nhóm là thực hiện nhận dạng 5 hành động: 'Hand_Clapping',
'Boxing', 'Kick', 'Sitting', 'Bow'. Đối với hành động không nhận diện sẽ được chỉ
đến lớp thứ 6 là “Unknown”
- Công việc lấy dữ liệu được thực hiện qua các bước sau:
+ Tạo các folder đề lưu dữ liệu các hành động
-Khai báo đường dẫn thư mục để lưu dữ liệu và thư mục có tên “Train_Data_v1”
13
-Sau đoạn code này các thư mục con sẽ được tạo ra trong folder “Train_Data_v1”
tương ứng với mỗi video ta lấy cho mỗi hành động
- Mỗi hành động nhóm sẽ lấy dữ liệu bao gồm 100 video và mỗi video có độ dài là
30 khung hình.
+ Thu thập dữ liệu
-Khi chạy đoạn code trên đối với mỗi hành động ta sẽ thay chỉ số trong cụm
“actions[x]” ở dòng 39,43,46 với x là chỉ số của các phần tử trong:
actions=np.array(['Hand_Clapping','Boxing','Kick','Sitting','Bow','Unknown'])

14
-Ta đi thu thập dữ liệu cho lần lượt từng hành động. Thời gian chờ trước khi bắt
đầu thu thập dữ liệu là 15s để cho người dùng có đủ thời gian để chuẩn bị các tư
thế.
- Đối với mỗi hành động ta sẽ thu thập dữ liệu cho lần lượt các video và mỗi video
ta sẽ chỉ xét 30 khung hình, tại mỗi khung hình ta sẽ trích xuất các skeleton của cơ
thể người thành các mảng 1 chiều có 132 phần tử và lưu thành các file có đuôi
“.npy” trong thư mục tương ứng.( Sở dĩ có 132 phần tử vì mỗi skeleton có 4 thông
số (x,y,z,visibility) và ta trích xuất 33 điểm vì vậy mảng sẽ có 33*4=132 giá trị)
Bước 3: Train Model

Phần này chúng ta sẽ thực hiện trên Google Colab
+ Gán nhãn dữ liệu
- Ta tải bộ dữ liệu đã lấy ở phần trước lên Drive và liên kết với Google Colab

15
- Sau đó ta chạy đoạn code sau để thực hiện gán nhãn dữ liệu:
Ở đây đầu ra y có 6 lớp hành động sẽ được vector hóa tương ứng như sau:
[1 0 0 0 0 0], [0 1 0 0 0 0], [0 0 1 0 0 0], [0 0 0 1 0 0], [0 0 0 0 1 0], [0 0 0 0 0 1]
Ta chia tập train và test tương ứng là 0.8 và 0.2
+Train Model
Ta sử dụng thư viện Tensorflow để train model
Xây dựng cấu trúc mạng và thông số

16
Ta sẽ sử dụng 3 lớp LSTM và 4 lớp đầy đủ Dense: Lớp LSTM đầu tiên có 128
noron, hàm kích hoạt là “relu”, đầu vào có kích thức là (30,132). Lưu ý 30 ở đây
tương ứng với 30 frame lấy cho mỗi video và 132 là số giá trị ta có được từ việc
trích xuất skeleton ở mỗi frame.
Lớp Dense cuối cùng có số noron bằng số lớp hành động đầu ra và hàm kích hoạt
là hàm softmax
Thông số mạng:
Ta chạy lệnh sau để train model:
Ta dự kiến train với 2000 epochs, batch_size = 512, hiển thị đồ thị độ chính xác
của quá trình train lên tensorboard và quá trình train sẽ dừng lại khi độ chính xác
này lớn hơn 0.97

17
Đồ thị quá trình train:

18
Lưu model với tên “hanhvi7” và Google Drive và lưu về máy để sử dụng
Bước 4: Chạy trong thời gian thực

- Load model để sử dụng:
- Trong quá trình chạy realtime, ta sẽ trích xuất skeleton của các khung hình và
lấy dữ liệu của 30 khung hình gần nhất để cho đi vào model dự đoán (Lí do chọn
30 khung hình ở đây là vì trong cấu trúc mạng ta xây dựng kích thước đầu vào là
(30,132) hay nói cách khác dữ liệu train ta cũng dùng 30 khung hình liên tiếp để dự
đoán

19
-Kết quả dự đoán với độ tự tin lớn hơn một ngưỡng nào đó sẽ được hiển thị trên
màn hình

20
3.3. Kết quả đạt được

Hệ thống đã nhận diện được 5 hành động đã được lấy dữ liệu tương đối chính xác
-Hành động vỗ tay

21
-Hành động đá
-Hành động ngồi

22
-Hành động cúi người
-Hành động đấm

23
-Không xác định
3.4. Kết luận

Ưu điểm:
 Đã nhận diện được 5 hành động lấy dữ liệu
 Tốc độ nhận diện tương đối
Nhược điểm:
 Độ chính xác còn phải phụ thuộc vào góc quay so với góc lấy dữ liệu hành
động ban đầu
 Tốc độ nhận diện hành động phụ thuộc vào tốc độ lấy khung hình của thiết bị
=> do đó cần chọn camera và máy tính có tốc độ khung hình(FPS cao)
Video mô phỏng em để ở link sau:
https://drive.google.com/file/d/1yGyh4Osc9qa5vvz9hx4aYBtPq3zmONp5/
view?usp=sharing

24

25

HTCĐTTM

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

HTCĐTTM

Uploaded by

Copyright:

Available Formats

Hệ Thống Cơ Điện Tử Thông Minh GVHD: TS.

Nguyễn Trọng Doanh

Ngô Văn Vũ - 20195235 LSTM Network

CHƯƠNG 1: CÁC KHÁI NIỆM

Ngô Văn Vũ - 20195235 LSTM Network

1.2. Khái niệm mạng RNN

Ngô Văn Vũ - 20195235 LSTM Network

1.3. Ứng dụng của mạng RNN

1.4. Khái niệm mạng LSTM

Ngô Văn Vũ - 20195235 LSTM Network

CHƯƠNG 2: VỀ MẠNG LSTM VÀ CÁCH THỨC TRIỂN KHAI

Ngô Văn Vũ - 20195235 LSTM Network

2.2. Các bước triển khai

Ngô Văn Vũ - 20195235 LSTM Network

Ngô Văn Vũ - 20195235 LSTM Network

2.3. Các biến thể của LSTM

Ngô Văn Vũ - 20195235 LSTM Network

Ngô Văn Vũ - 20195235 LSTM Network

Ngô Văn Vũ - 20195235 LSTM Network

3.2. Các bước triển khai

- Xây dựng các hàm chức năng

- Vẽ các điểm trên cơ thể

- Trích xuất các skeleton

Ngô Văn Vũ - 20195235 LSTM Network

Bước 3: Train Model

Ngô Văn Vũ - 20195235 LSTM Network

Xây dựng cấu trúc mạng và thông số

Ngô Văn Vũ - 20195235 LSTM Network

Ta chạy lệnh sau để train model:

Ngô Văn Vũ - 20195235 LSTM Network

Đồ thị quá trình train:

Ngô Văn Vũ - 20195235 LSTM Network

Bước 4: Chạy trong thời gian thực

Ngô Văn Vũ - 20195235 LSTM Network

Ngô Văn Vũ - 20195235 LSTM Network

3.3. Kết quả đạt được

Ngô Văn Vũ - 20195235 LSTM Network

-Hành động ngồi

Ngô Văn Vũ - 20195235 LSTM Network

-Hành động cúi người

-Hành động đấm

Ngô Văn Vũ - 20195235 LSTM Network

-Không xác định

3.4. Kết luận

Ngô Văn Vũ - 20195235 LSTM Network

Ngô Văn Vũ - 20195235 LSTM Network

You might also like