You are on page 1of 31

BÁO CÁO NHÓM

MÔ HÌNH
TRANSFORMER
Nhóm 08 - Trí tuệ nhân tạo
NỘI DUNG CHÍNH

01 TỔNG QUAN

02 MÔ HÌNH

03 KẾT QUẢ VÀ THỰC NGHIỆM

04 ỨNG DỤNG

05 KẾT LUẬN VÀ DEMO


1. TỔNG QUAN
• Transformer:
Được giới thiệu vào năm 2017, dùng chủ yếu ở lĩnh vực xử lý ngôn ngữ tự nhiên
(NLP)
Recurrent Neural Networks (RNNs)

Định nghĩa
• Là một mô hình học sâu được đào tạo để
xử lý và chuyển đổi đầu vào dữ liệu tuần
tự thành đầu ra dữ liệu tuần tự cụ thể.
Điểm yếu:
• Thời gian và tốc độ train rất chậm, không
tận dụng được tính toán song song trên
GPU.
• Xử lý không tốt với những câu dài do hiện
tượng Gradient Vanishing/Exploding.
Long-short Term Memory (LSTM)

Định nghĩa
• LSTM được phát triển để giải quyết vấn đề
Gradient Vanishing của RNNs. LSTM cell có
thêm một nhánh C cho phép toàn bộ thông
tin đi qua cell, giúp duy trì thông tin cho
những câu dài.
Điểm yếu:
• Thời gian và tốc độ train rất chậm, không tận
dụng được tính toán song song trên GPU.
• Xử lý không tốt với những câu dài do hiện
tượng Gradient Vanishing/Exploding.
Transformer

• Ra đời giải quyết triệt để vấn đề của


RNN và LSTM
• Sử dụng 2 phần Encoder và Decoder
khá giống RNN nhưng input được đẩy
vào cùng một lúc.
• Sử dụng cơ chế Self-Attention
2. MÔ HÌNH

• Mô hình Transformer gồm 2 phần chính là


encoder(bộ mã hóa) và decoder(bộ giải mã)
• Bộ mã hóa và bộ giải mã bao gồm N = 6 lớp
giống hệt chồng lên nhau.
Làm thế nào để biểu diễn một từ cho
máy hiểu được?

“Groot” #1960

one-hot
vecto
Word Embedding
là một phương pháp biểu diễn các từ bằng vecto theo
cách mà các từ tương tự có vecto tương tự.
Positional Encoding
Positional Encoding
Self Attention tính toán mối quan hệ của các từ với nhau
Self Attention

• Query: vector dùng để chứa thông tin


của từ được tìm kiếm, so sánh.
• Key : vector dùng để biểu diễn thông tin
các từ được so sánh với từ cần tìm kiếm
ở trên.
• Value : vector biểu diễn nội dung, ý
nghĩa của các từ
Self Attention
Multi Head Attention
Khối Feed-Forward

• Sau khi thực hiện tính toán ở khối


attention ở mỗi lớp
• FFN là khối xử lý những thông tin đó.
DECODER
Masked Multi Head Attention
3. KẾT QUẢ THỰC NGHIỆM

Transformer base Transformer big


3.1. DỊCH MÁY

Hình 2: Hiệu suất của mô hình máy biến áp trong quá trình dịch thuật so với các mô hình khác
3.2. CÁC BIẾN THỂ CỦA MÔ HÌNH

Các thử
nghiệm với
biến thể của
mô hình cơ
bản cho thấy
sự thay đổi về
hiệu suất và
hiệu quả tính
toán.

Hình 3: Các biến thể của kiến trúc Transformer


3.3.
PHÂN
TÍCH CÚ
PHÁP
TIẾNG
ANH
3.3. PHÂN TÍCH CÚ PHÁP TIẾNG ANH

Hình 4: Hiệu suất của mô hình máy biến áp trong nhiệm vụ phân tích cú pháp bằng Tiếng Anh
4. ỨNG DỤNG

01. Mô hình Transformer đã đạt được thành công lớn trong việc dịch ngôn ngữ, nhận
dạng giọng nói, dịch giọng nói và dự đoán chuỗi thời gian.
VÍ DỤ

• Mô hình GPT của OpenAI


• GPT-2 có thể được điều
chỉnh để chơi cờ vua
4. ỨNG DỤNG

02. Hiểu sâu hơn


về mối quan hệ
giữa gen và axit
amin trong DNA
và protein

Một nhóm các nhà nghiên cứu Google DeepMind đã phát triển AlphaFold

4. ỨNG DỤNG
03. Trong tài chính, mô hình Transformer được sử dụng để phân tích dữ liệu chuỗi
thời gian
5. KẾT LUẬN

HIỆU SUẤT MÔ HÌNH TÍNH LINH HOẠT VÀ TỔNG QUÁT


Mô hình Transformer cho thấy hiệu suất Mô hình có khả năng tổng quát hóa tốt
xuất sắc trong nhiệm vụ dịch máy cho thấy đối với các nhiệm vụ khác như phân tích
sự vượt trội so với các mô hình trước đó. cú pháp tiếng Anh

CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN TỐI ƯU HÓA VÀ HUẤN LUYỆN


HIỆU SUẤT Thông qua việc sử dụng bộ tối ưu hóa
Số lượng và kích thước của đầu chú ý, kích Adam và điều chỉnh tốc độ học, áp dụng
thước mô hình, việc áp dụng các kỹ thuật các phương pháp chuẩn hóa như dropout
như dropout và label smoothing, và label smoothing.
nhóm 08 - Trí tuệ nhân tạo

TRANSFORMER

THANK YOU
FOR
LISTENING!

You might also like