You are on page 1of 14

Neural Machine Translation

NMT
Seq2Seq

I really love eating sticky rice <END>

Tôi rất thích ăn cơm nếp <START> I really love eating sticky rice

Encoder Hoạt động như Decoder


một Language Model
Deep RNN
I really love eating sticky rice <END>

Concat
Decoder

<START> I really love eating sticky rice


Tôi rất thích ăn cơm nếp

Encoder
Input sequence in reverse

I really love eating sticky rice <END>

nếp cơm ăn thích rất Tôi <START> I really love eating sticky rice

Từ cuối cùng encoder xử lý sẽ là từ đầu


tiên mà decoder sinh ra.

Điều này giúp decoder sinh ra từ đúng hơn.


https://arxiv.org/abs/1409.3215
Attention is efficient

1 Cho phép Decoder tập trung vào những phần cụ thể tại câu đầu vào. Hoàn toàn tự động
alignment giữa các từ đầu ra và đầu vào

2 Giải quyết vấn đề information bottleneck

3 Giúp flow gradient tốt hơn Cải thiện vấn đề Gradient Vanishing
Dot Product Attention

Phân phối softmax


Attention

Nhân vô hướng
Điểm
Attention

Tôi rất thích ăn cơm nếp <START>


Dot Product Attention
concat

Phân phối
Attention

Điểm
Attention

Tôi rất thích ăn cơm nếp <START>


Dot Product Attention I Bước t ở decoder

concat

Phân phối
Attention
State ẩn của Encoder

Điểm
Attention Tại bước t, state ẩn
của decoder

Tôi rất thích ăn cơm nếp <START> Chiều dài câu đầu vào
Attention I Bước t ở decoder

concat
weighted sum

Sự liên kết giữa


Cho một chuỗi những


vector keys và values (K
Sự liên kết này và V) và vector query (Q).
xác định value
nào query nên Attention truy xuất sự liên
nhấn mạnh hơn. kết giữa Q và K và dựa
vào độ tương đồng này để
tính toán weighted sum
của values

Tôi rất thích ăn cơm nếp <START>


Attention Variants
Encoder Hidden State Decoder Hidden State

Basic Dot-Product Attention

Yêu cầu: Tăng khả năng học sự


Multiplicative Attention liên kết

Additive Attention
Neural Network

[1409.0473] Neural Machine Translation by Jointly Learning to Align and Translate (arxiv.org)
1508.04025.pdf (arxiv.org)
BLEU Score

https://www.aclweb.org/anthology/P02-1040.pdf
Google Neural Machine Translation 2016

Google chuyển từ SMT (Statistical machine translation) sang NMT từ năm 2016.
https://arxiv.org/pdf/1609.08144v2.pdf
NMT Advantages

1 End-to-end models, giải quyết được vấn đề với câu đầu vào có độ dài lớn.

2 Tiết kiệm nguồn lực con người trong quá trình xây dựng, bỏ qua feature engineering

3 Một công thức cho tất cả các cặp ngôn ngữ khác nhau
NMT Problems

1 Tốn kém trong việc training: thời gian + sức mạnh máy tính

2 Gặp vấn đề trong việc dịch các từ hiếm (rare words)

3 Đôi khi NMT dịch chỉ một phần đầu vào, và có những kết quả không như mong muốn,
khó debug.

You might also like