(CNN) Lenet5

TÌM HIỂU KIẾN TRÚC
MẠNG LENET-5
I. Giới thiệu kiến trúc mạng Lenet-5
II. Cấu trúc Lenet-5
III. Ứng dụng Lenet-5
IV. Kết luận
I. Giới thiệu kiến trúc mạng Lenet-5
L
o Là một mạng nơ-ron tích chập nhiều lớp dùng để phân loại hình ảnh
E
N o Được tạo ra bởi Yann LeCun và các cộng sự vào năm 1998
E o Dùng để nhận diện kí tự viết tay (chữ số) và in bằng máy
T o Là 1 trong những mạng tích chập (CNN) đầu tiên và là cơ sở thiết kế
5 cho các mạng sau này
II. Cấu trúc Lenet-5
Gồm 5 lớp chính: 2 lớp tích chập và 2 lớp kết nối đầy đủ và 1 ngõ ra
Ngoài ra còn 2 lấy mẫu xuông (lớp gộp trung bình)
1. Lớp 1 (lớp tích chập) Lớp tích chập
(convolutional layers)
Input 32x32x1 C1: feature maps
- Ảnh đầu vào là ảnh xám 𝒏 + 𝟐𝒑 − 𝒇 𝒏 + 𝟐𝒑 − 𝒇

- n = 32 x32 +𝟏 × +𝟏
𝒔 𝒔
- Kích thước 32x32 - Filter size = f = 5 x 5
𝟑𝟐 + 𝟐. 𝟎 − 𝟓 𝟑𝟐 + 𝟐. 𝟎 − 𝟓
- Strides = s = 1 +𝟏 × +𝟏
𝟏 𝟏
- Padding = p = 0
- Số bộ lọc: 6 28 x 28 x 6
- Kích thước hình ảnh thay đổi từ 32x32x1 thành 28x28x6
- Số nơ ron = 28 x 28 x 6 = 4704
- Thông số học: (5 x 5 + 1) x 6 = 156 (parameter)
- Số kết nối = 28 x 28 x (5 x 5 + 1) x 6 = 122304
2. Lớp 2 (lớp gộp trung bình) Lớp gộp trung bình
S2: feature maps
(average pooling layer)
Filter size=f = 2x2
Số filters = 6
Strides = s = 2
Padding = p = 0 𝒏 + 𝟐𝒑 − 𝒇 𝒏 + 𝟐𝒑 − 𝒇
n = 28 +𝟏 × +𝟏
𝒔 𝒔
𝟐𝟖 + 𝟐. 𝟎 − 𝟐 𝟐𝟖 + 𝟐. 𝟎 − 𝟐
+𝟏 × +𝟏
𝟐 𝟐
14 x 14 x 6
- Kích thước hình ảnh thay đổi từ 28x28x6 thành 14x14x6 (kích thước feature maps giảm ½)
- Số noron = 14 x 14 x 6 = 1176
- Thông số học = (1 + 1) x 6 = 12
- Số kết nối = 14 x 14 x 30 = 5880
3. Lớp 3 (lớp tích chập) Lớp tích chập C3: feature maps
(convolutional layers)
- n = 14 x 14 𝒏 + 𝟐𝒑 − 𝒇 𝒏 + 𝟐𝒑 − 𝒇
+𝟏 × +𝟏
- Filter size = f = 5 x 5 𝒔 𝒔
- Strides = s = 1 𝟏𝟒 + 𝟐. 𝟎 − 𝟓 𝟏𝟒 + 𝟐. 𝟎 − 𝟓
+𝟏 × +𝟏
- Padding = p = 0 𝟏 𝟏
- Số bộ lọc: 16
10 x 10 x 16
- Kích thước hình ảnh thay đổi từ 14x14x6 thành 10x10x16
- Số noron = 14 x 14 x 6 = 1176
- Thông số học = [6 * (5*5*3 + 1)] + [6 * (5*5*4 + 1)] + [3 * (5*5*4 + 1)] + [1 * (5*5*6 + 1)]
= 1516
- Số kết nối = 10 x 10 x 1516 = 151600
3. Lớp 3 (lớp tích chập)
1. Lấy đầu vào từ 3 feature maps từ S2:
- 6 lớp tích chập đầu tiên của C3 được thực hiện với sự kết hợp này.
- 6 lớp tích chập tiếp theo của C3 được thực hiện với sự kết hợp này.
- 3 lớp tích chập C3 tiếp theo được thực hiện với sự kết hợp này.
4. Lấy tất cả các feature maps S2:
- Lớp cuối cùng của C3 được thực hiện với sự kết hợp này.
Bảng kết hợp giữa S2 và C3

4. Lớp 4 (lớp gộp trung bình) S4: feature maps
Lớp gộp trung bình
(average pooling layer)
Filter size = f = 2 x 2
Số filters = 16
Strides = s = 2
Padding = p = 0
n = 10 𝒏 + 𝟐𝒑 − 𝒇 𝒏 + 𝟐𝒑 − 𝒇
+𝟏 × +𝟏
𝒔 𝒔
𝟏𝟎 + 𝟐. 𝟎 − 𝟐 𝟏𝟎 + 𝟐. 𝟎 − 𝟐
+𝟏 × +𝟏
𝟐 𝟐
5 x 5 x 16
Thay đổi kích thước từ 10x10x16 thành 5x5x16

Số noron = 5x5x16 = 400
Thông số học = (2x2+1)x16 = 80
Số kết nối = 5x5x80 = 2000
5. Lớp 5 (Lớp tích chập có kết nối đầy đủ)
C5: layer
Lớp tích chập có kết nối đầy đủ
(Fully connected Convolution Layer) 𝒏 + 𝟐𝒑 − 𝒇 𝒏 + 𝟐𝒑 − 𝒇
+𝟏 × +𝟏
𝒔 𝒔
Filter size = f = 5 x 5 𝟓 + 𝟐. 𝟎 − 𝟓 𝟓 + 𝟐. 𝟎 − 𝟓
Số filters = 120 𝟏
+𝟏 ×
𝟏
+𝟏
Strides = s = 1
Padding = p = 0 1 x 1 x 120
n=5
Mỗi đơn vị trong số 120 đơn vị trong C5 được kết nối với tất cả 400 nút (5x5x16) trong lớp thứ
tư S4
Số noron = 1 x 1 x 120 = 120
Thông số học = (5 x 5 x 16 + 1) x 120 = 48120
Số kết nối = 48120 x 1 x 1 = 48120
6. Lớp 6 (kết nối đầy đủ) - Lớp F6 bao gồm 84 noron kết nối
F6: layer
hoàn toàn với lớp C5.
- Ở đây điểm sản phẩm giữa vector
đầu vào và vector trọng số được thực
hiện và sau đó cộng thêm bias.
- Kết quả sau đó được truyền hàm
kích hoạt
Input: C5 với 120 noron

Output: F6 với 84 noron
Thông số học = (120 x 84) + 84 = 10164
7. Lớp 7 (ngõ ra output)
Một lớp đầu ra softmax được kết nối đầy đủ với 10 giá
trị có thể tương ứng với các chữ số từ 0 đến 9
Số lượng noron trong lớp F6 được chọn là 84, tương ứng
một bitmap 7 x 12
-1: màu trắng, 1: màu đen
vì vậy màu đen và trắng của bitmap của mỗi biểu tượng
tương ứng với một mã
Kiến trúc của mô hình mạng Lenet-5

III. Ứng dụng Lenet-5
- Ứng dụng chính và chủ yếu của mạng

Lenet-5 là nhận diện chữ số viết tay.
- Là nền tảng cơ bản để phát triển các
mô hình mạng học sâu CNN khác như
AlexNet, VGG-16, GoogleLeNet,….
IV. Kết luận
Lớp Số bộ lọc Kích thước bộ lọc Mức trượt Kích thước feature map Hàm kích hoạt
(Layer) ( filters) (filter size) (Stride) (Size of feature map) (Activation
function)
Input - - - 32 x 32 x 1
Conv 1 6 5x5 1 28 x 28 x 6 tanh
Average pooling layer 2x2 2 14 x 14 x 16
Conv 2 16 5x5 1 10 x 10 x 16 tanh
Average pooling layer 2x2 2 5 x 5 x 16
Conv 3 120 5x5 1 120 tanh
Fully connected 1 - - - 84 tanh
Fully connected 1 - - - 10 softmax
• 5 lớp với các thông số có thể học.
• Đầu vào cho mô hình là một hình ảnh màu xám.
• Có 3 lớp tích chập, 2 lớp gộp trung bình và 2 lớp được kết nối đầy đủ với bộ phân loại
Softmax.
• Số lượng thông số có thể đào tạo được là 60000. (Tập MNIST)
XIN CHÂN THÀNH CÁM ƠN THẦY
VÀ CÁC BẠN ĐÃ THEO DÕI!

(CNN) Lenet5

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

(CNN) Lenet5

Uploaded by

Copyright:

Available Formats

TÌM HIỂU KIẾN TRÚC

- Ảnh đầu vào là ảnh xám 𝒏 + 𝟐𝒑 − 𝒇 𝒏 + 𝟐𝒑 − 𝒇

Bảng kết hợp giữa S2 và C3

Thay đổi kích thước từ 10x10x16 thành 5x5x16

Input: C5 với 120 noron

Kiến trúc của mô hình mạng Lenet-5

- Ứng dụng chính và chủ yếu của mạng

VÀ CÁC BẠN ĐÃ THEO DÕI!

You might also like