You are on page 1of 15

TÌM HIỂU KIẾN TRÚC

MẠNG LENET-5
I. Giới thiệu kiến trúc mạng Lenet-5
II. Cấu trúc Lenet-5
III. Ứng dụng Lenet-5
IV. Kết luận
I. Giới thiệu kiến trúc mạng Lenet-5
L
o Là một mạng nơ-ron tích chập nhiều lớp dùng để phân loại hình ảnh
E
N o Được tạo ra bởi Yann LeCun và các cộng sự vào năm 1998
E o Dùng để nhận diện kí tự viết tay (chữ số) và in bằng máy
T o Là 1 trong những mạng tích chập (CNN) đầu tiên và là cơ sở thiết kế
5 cho các mạng sau này
II. Cấu trúc Lenet-5

Gồm 5 lớp chính: 2 lớp tích chập và 2 lớp kết nối đầy đủ và 1 ngõ ra
Ngoài ra còn 2 lấy mẫu xuông (lớp gộp trung bình)
1. Lớp 1 (lớp tích chập) Lớp tích chập
(convolutional layers)
Input 32x32x1 C1: feature maps

- Ảnh đầu vào là ảnh xám 𝒏 + 𝟐𝒑 − 𝒇 𝒏 + 𝟐𝒑 − 𝒇


- n = 32 x32 +𝟏 × +𝟏
𝒔 𝒔
- Kích thước 32x32 - Filter size = f = 5 x 5
𝟑𝟐 + 𝟐. 𝟎 − 𝟓 𝟑𝟐 + 𝟐. 𝟎 − 𝟓
- Strides = s = 1 +𝟏 × +𝟏
𝟏 𝟏
- Padding = p = 0
- Số bộ lọc: 6 28 x 28 x 6
- Kích thước hình ảnh thay đổi từ 32x32x1 thành 28x28x6
- Số nơ ron = 28 x 28 x 6 = 4704
- Thông số học: (5 x 5 + 1) x 6 = 156 (parameter)
- Số kết nối = 28 x 28 x (5 x 5 + 1) x 6 = 122304
2. Lớp 2 (lớp gộp trung bình) Lớp gộp trung bình
S2: feature maps
(average pooling layer)
Filter size=f = 2x2
Số filters = 6
Strides = s = 2
Padding = p = 0 𝒏 + 𝟐𝒑 − 𝒇 𝒏 + 𝟐𝒑 − 𝒇
n = 28 +𝟏 × +𝟏
𝒔 𝒔
𝟐𝟖 + 𝟐. 𝟎 − 𝟐 𝟐𝟖 + 𝟐. 𝟎 − 𝟐
+𝟏 × +𝟏
𝟐 𝟐

14 x 14 x 6

- Kích thước hình ảnh thay đổi từ 28x28x6 thành 14x14x6 (kích thước feature maps giảm ½)
- Số noron = 14 x 14 x 6 = 1176
- Thông số học = (1 + 1) x 6 = 12
- Số kết nối = 14 x 14 x 30 = 5880
3. Lớp 3 (lớp tích chập) Lớp tích chập C3: feature maps
(convolutional layers)

- n = 14 x 14 𝒏 + 𝟐𝒑 − 𝒇 𝒏 + 𝟐𝒑 − 𝒇
+𝟏 × +𝟏
- Filter size = f = 5 x 5 𝒔 𝒔
- Strides = s = 1 𝟏𝟒 + 𝟐. 𝟎 − 𝟓 𝟏𝟒 + 𝟐. 𝟎 − 𝟓
+𝟏 × +𝟏
- Padding = p = 0 𝟏 𝟏
- Số bộ lọc: 16
10 x 10 x 16
- Kích thước hình ảnh thay đổi từ 14x14x6 thành 10x10x16
- Số noron = 14 x 14 x 6 = 1176
- Thông số học = [6 * (5*5*3 + 1)] + [6 * (5*5*4 + 1)] + [3 * (5*5*4 + 1)] + [1 * (5*5*6 + 1)]
= 1516
- Số kết nối = 10 x 10 x 1516 = 151600
3. Lớp 3 (lớp tích chập)
1. Lấy đầu vào từ 3 feature maps từ S2:
- 6 lớp tích chập đầu tiên của C3 được thực hiện với sự kết hợp này.
2. Lấy đầu vào từ 4 feature maps từ S2:
- 6 lớp tích chập tiếp theo của C3 được thực hiện với sự kết hợp này.
3. Lấy đầu vào từ 4 feature maps từ S2:
- 3 lớp tích chập C3 tiếp theo được thực hiện với sự kết hợp này.
4. Lấy tất cả các feature maps S2:
- Lớp cuối cùng của C3 được thực hiện với sự kết hợp này.

Bảng kết hợp giữa S2 và C3


4. Lớp 4 (lớp gộp trung bình) S4: feature maps
Lớp gộp trung bình
(average pooling layer)

Filter size = f = 2 x 2
Số filters = 16
Strides = s = 2
Padding = p = 0
n = 10 𝒏 + 𝟐𝒑 − 𝒇 𝒏 + 𝟐𝒑 − 𝒇
+𝟏 × +𝟏
𝒔 𝒔
𝟏𝟎 + 𝟐. 𝟎 − 𝟐 𝟏𝟎 + 𝟐. 𝟎 − 𝟐
+𝟏 × +𝟏
𝟐 𝟐

5 x 5 x 16

Thay đổi kích thước từ 10x10x16 thành 5x5x16


Số noron = 5x5x16 = 400
Thông số học = (2x2+1)x16 = 80
Số kết nối = 5x5x80 = 2000
5. Lớp 5 (Lớp tích chập có kết nối đầy đủ)
C5: layer
Lớp tích chập có kết nối đầy đủ
(Fully connected Convolution Layer) 𝒏 + 𝟐𝒑 − 𝒇 𝒏 + 𝟐𝒑 − 𝒇
+𝟏 × +𝟏
𝒔 𝒔
Filter size = f = 5 x 5 𝟓 + 𝟐. 𝟎 − 𝟓 𝟓 + 𝟐. 𝟎 − 𝟓
Số filters = 120 𝟏
+𝟏 ×
𝟏
+𝟏

Strides = s = 1
Padding = p = 0 1 x 1 x 120
n=5

Mỗi đơn vị trong số 120 đơn vị trong C5 được kết nối với tất cả 400 nút (5x5x16) trong lớp thứ
tư S4
Số noron = 1 x 1 x 120 = 120
Thông số học = (5 x 5 x 16 + 1) x 120 = 48120
Số kết nối = 48120 x 1 x 1 = 48120
6. Lớp 6 (kết nối đầy đủ) - Lớp F6 bao gồm 84 noron kết nối
F6: layer
hoàn toàn với lớp C5.
- Ở đây điểm sản phẩm giữa vector
đầu vào và vector trọng số được thực
hiện và sau đó cộng thêm bias.
- Kết quả sau đó được truyền hàm
kích hoạt

Input: C5 với 120 noron


Output: F6 với 84 noron
Thông số học = (120 x 84) + 84 = 10164
7. Lớp 7 (ngõ ra output)
Một lớp đầu ra softmax được kết nối đầy đủ với 10 giá
trị có thể tương ứng với các chữ số từ 0 đến 9
Số lượng noron trong lớp F6 được chọn là 84, tương ứng
một bitmap 7 x 12
-1: màu trắng, 1: màu đen
vì vậy màu đen và trắng của bitmap của mỗi biểu tượng
tương ứng với một mã

Kiến trúc của mô hình mạng Lenet-5


III. Ứng dụng Lenet-5

- Ứng dụng chính và chủ yếu của mạng


Lenet-5 là nhận diện chữ số viết tay.
- Là nền tảng cơ bản để phát triển các
mô hình mạng học sâu CNN khác như
AlexNet, VGG-16, GoogleLeNet,….
IV. Kết luận
Lớp Số bộ lọc Kích thước bộ lọc Mức trượt Kích thước feature map Hàm kích hoạt
(Layer) ( filters) (filter size) (Stride) (Size of feature map) (Activation
function)
Input - - - 32 x 32 x 1
Conv 1 6 5x5 1 28 x 28 x 6 tanh
Average pooling layer 2x2 2 14 x 14 x 16
Conv 2 16 5x5 1 10 x 10 x 16 tanh
Average pooling layer 2x2 2 5 x 5 x 16
Conv 3 120 5x5 1 120 tanh
Fully connected 1 - - - 84 tanh
Fully connected 1 - - - 10 softmax
• 5 lớp với các thông số có thể học.
• Đầu vào cho mô hình là một hình ảnh màu xám.
• Có 3 lớp tích chập, 2 lớp gộp trung bình và 2 lớp được kết nối đầy đủ với bộ phân loại
Softmax.
• Số lượng thông số có thể đào tạo được là 60000. (Tập MNIST)
XIN CHÂN THÀNH CÁM ƠN THẦY

VÀ CÁC BẠN ĐÃ THEO DÕI!

You might also like