Nhóm 08 - Transformer

BÁO CÁO NHÓM
MÔ HÌNH
TRANSFORMER
Nhóm 08 - Trí tuệ nhân tạo
NỘI DUNG CHÍNH
01 TỔNG QUAN
02 MÔ HÌNH
03 KẾT QUẢ VÀ THỰC NGHIỆM
04 ỨNG DỤNG
05 KẾT LUẬN VÀ DEMO

1. TỔNG QUAN
• Transformer:
Được giới thiệu vào năm 2017, dùng chủ yếu ở lĩnh vực xử lý ngôn ngữ tự nhiên
(NLP)
Recurrent Neural Networks (RNNs)
Định nghĩa
• Là một mô hình học sâu được đào tạo để
xử lý và chuyển đổi đầu vào dữ liệu tuần
tự thành đầu ra dữ liệu tuần tự cụ thể.
Điểm yếu:
• Thời gian và tốc độ train rất chậm, không
tận dụng được tính toán song song trên
GPU.
• Xử lý không tốt với những câu dài do hiện
tượng Gradient Vanishing/Exploding.
Long-short Term Memory (LSTM)
Định nghĩa
• LSTM được phát triển để giải quyết vấn đề
Gradient Vanishing của RNNs. LSTM cell có
thêm một nhánh C cho phép toàn bộ thông
tin đi qua cell, giúp duy trì thông tin cho
những câu dài.
Điểm yếu:
• Thời gian và tốc độ train rất chậm, không tận
dụng được tính toán song song trên GPU.
• Xử lý không tốt với những câu dài do hiện
tượng Gradient Vanishing/Exploding.
Transformer
• Ra đời giải quyết triệt để vấn đề của

RNN và LSTM
• Sử dụng 2 phần Encoder và Decoder
khá giống RNN nhưng input được đẩy
vào cùng một lúc.
• Sử dụng cơ chế Self-Attention
2. MÔ HÌNH
• Mô hình Transformer gồm 2 phần chính là

encoder(bộ mã hóa) và decoder(bộ giải mã)
• Bộ mã hóa và bộ giải mã bao gồm N = 6 lớp
giống hệt chồng lên nhau.
Làm thế nào để biểu diễn một từ cho
máy hiểu được?
“Groot” #1960
one-hot
vecto
Word Embedding
là một phương pháp biểu diễn các từ bằng vecto theo
cách mà các từ tương tự có vecto tương tự.
Positional Encoding
Positional Encoding
Self Attention tính toán mối quan hệ của các từ với nhau
Self Attention
• Query: vector dùng để chứa thông tin

của từ được tìm kiếm, so sánh.
• Key : vector dùng để biểu diễn thông tin
các từ được so sánh với từ cần tìm kiếm
ở trên.
• Value : vector biểu diễn nội dung, ý
nghĩa của các từ
Self Attention
Multi Head Attention
Khối Feed-Forward
• Sau khi thực hiện tính toán ở khối

attention ở mỗi lớp
• FFN là khối xử lý những thông tin đó.
DECODER
Masked Multi Head Attention
3. KẾT QUẢ THỰC NGHIỆM
Transformer base Transformer big

3.1. DỊCH MÁY
Hình 2: Hiệu suất của mô hình máy biến áp trong quá trình dịch thuật so với các mô hình khác
3.2. CÁC BIẾN THỂ CỦA MÔ HÌNH
Các thử
nghiệm với
biến thể của
mô hình cơ
bản cho thấy
sự thay đổi về
hiệu suất và
hiệu quả tính
toán.
Hình 3: Các biến thể của kiến trúc Transformer

3.3.
PHÂN
TÍCH CÚ
PHÁP
TIẾNG
ANH
3.3. PHÂN TÍCH CÚ PHÁP TIẾNG ANH
Hình 4: Hiệu suất của mô hình máy biến áp trong nhiệm vụ phân tích cú pháp bằng Tiếng Anh
4. ỨNG DỤNG
01. Mô hình Transformer đã đạt được thành công lớn trong việc dịch ngôn ngữ, nhận
dạng giọng nói, dịch giọng nói và dự đoán chuỗi thời gian.
VÍ DỤ
• Mô hình GPT của OpenAI

• GPT-2 có thể được điều
chỉnh để chơi cờ vua
4. ỨNG DỤNG
02. Hiểu sâu hơn

về mối quan hệ
giữa gen và axit
amin trong DNA
và protein
Một nhóm các nhà nghiên cứu Google DeepMind đã phát triển AlphaFold
•
4. ỨNG DỤNG
03. Trong tài chính, mô hình Transformer được sử dụng để phân tích dữ liệu chuỗi
thời gian
5. KẾT LUẬN
HIỆU SUẤT MÔ HÌNH TÍNH LINH HOẠT VÀ TỔNG QUÁT

Mô hình Transformer cho thấy hiệu suất Mô hình có khả năng tổng quát hóa tốt
xuất sắc trong nhiệm vụ dịch máy cho thấy đối với các nhiệm vụ khác như phân tích
sự vượt trội so với các mô hình trước đó. cú pháp tiếng Anh
CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN TỐI ƯU HÓA VÀ HUẤN LUYỆN

HIỆU SUẤT Thông qua việc sử dụng bộ tối ưu hóa
Số lượng và kích thước của đầu chú ý, kích Adam và điều chỉnh tốc độ học, áp dụng
thước mô hình, việc áp dụng các kỹ thuật các phương pháp chuẩn hóa như dropout
như dropout và label smoothing, và label smoothing.
nhóm 08 - Trí tuệ nhân tạo
TRANSFORMER
THANK YOU
FOR
LISTENING!

Nhóm 08 - Transformer

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Nhóm 08 - Transformer

Uploaded by

Copyright:

Available Formats

BÁO CÁO NHÓM

03 KẾT QUẢ VÀ THỰC NGHIỆM

05 KẾT LUẬN VÀ DEMO

• Ra đời giải quyết triệt để vấn đề của

• Mô hình Transformer gồm 2 phần chính là

• Query: vector dùng để chứa thông tin

• Sau khi thực hiện tính toán ở khối

Transformer base Transformer big

Hình 3: Các biến thể của kiến trúc Transformer

• Mô hình GPT của OpenAI

02. Hiểu sâu hơn

HIỆU SUẤT MÔ HÌNH TÍNH LINH HOẠT VÀ TỔNG QUÁT

CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN TỐI ƯU HÓA VÀ HUẤN LUYỆN

You might also like