Professional Documents
Culture Documents
6 Machinetranslation
6 Machinetranslation
1 2
3 4
1
Hiểu ngôn ngữ
1. Nhập nhằng từ vựng:
Các phương pháp dịch máy
English: book - Spanish libro, reservar cao
siêu ngôn ngữ siêu ngôn ngữ
⇒ Sử dụng thông tin cú pháp
mức trừu ngữ nghĩa
2. Nhập nhằng cú pháp:
tượng dịch chuyển đổi
I saw the guy on the hill with the telescope a g
cú p
pháp
áp
7 8
9 10
Sơ đồ chuyển đổi
Cách tiếp cận siêu ngôn ngữ: sử dụng
nghĩa
Chuyển đổi: các luật chuyển đổi từ ngôn ngữ này
sang ngôn ngữ khác
ĐỐi tượng/sự kiện (ontology)
11 12
2
Các kiểu dịch máy
cao
mức độ siêu ngôn ngữ
Dịch máy thống kê trừu tượng ngữ nghĩa } chuyển đổi
cú pháp
a g
thấp s t từ-từ
13 14
15 16
3
Gióng hàng câu Gióng hàng câu
The old man is El viejo está feliz 1. The old man is 1. El viejo está feliz
happy. He has happy. porque ha pescado
porque ha pescado 2. He has fished many muchos veces.
fished many muchos veces
veces. Su times
times.
times. His wife 2. Su mujer habla
mujer habla con él. 3. His wife talks to him.
con él.
talks to him. The Los tiburones 4. The fish are jumping.
5. The sharks await. 3. Los tiburones
fish are jumping. esperan. esperan.
The sharks await.
19 20
21 22
23 24
4
Gióng hàng từ - Mã hóa
Gióng hàng từ - Khó
0 1 2 3 4 5 6
e0 And the program has been implemented
Học việc gióng hàng từ sử dụng Học việc gióng hàng từ sử dụng EM
EM
27 28
29 30
5
Các thành phần của mô hình dịch
Giả thiết
Individual translations are independance
Ví dụ
1 từ tiếng Anh – n từ tiếng Pháp
P(Jean aime Marie| John loves Mary)
1 từ tiếng Pháp - (0-1) từ tiếng Anh
1 l l m Gióng hàng(Jean, John), (aime, loves), (Marie,
P ( f | e) =
Z
∑
a1
L∑
am=0
∏ P( f
j =1
j | ea j ) Mary),
Mary) ta có 3 xác suất
P(Jean|John) x P(aime|loves) xP(Marie|Mary)
fj - từ j trong f;
aj - vị trí trong e được gióng hàng với fj
eaj - từ trong e được gióng hàng với fj
Z là hằng số chuẩn hóa
aj = 0: từ j trong câu tiếng Pháp được gióng hàng với một
từ rỗng (không dịch sang)
m – độ dài của f
31 32
Đánh giá
Đánh giá dựa trên tập ngữ liệu Hansard: Lý do
48% câu tiếng Pháp được dịch đúng Hiện tượng méo: từ tiếng Anh ở đầu câu được
2 loại lỗi: gióng hàng với từ tiếng Pháp ở cuối câu – hiện
Dịch sai nghĩa: tượng này giảm xác suất gióng hàng
• Permettez que je donne un example à chambre
• Let me give an example in the House (incorrect decoding) Hiện tượng sinh (fertility): sự tương ứng giữa từ
• (Let me give the House an example)
tiếng Anh và tiếng Pháp (1-to-1, 1-to-2, 1-to-0,
…),
Dịch sai ngữ pháp:
• Vous avez besoin de toute l’aide disponsible Vd, fertility(farmers) trong tập ngữ liệu = 2,
• You need all of the benefits available (ungrammatical vì từ này khi dịch sang tiếng Anh thường gồm
decoding) 2 từ : les argiculteurs
• (You need all the help you can get)
To go → aller
35 36
6
Lý do Thiếu tri thức ngôn ngữ
Các giả thiết độc lập: các câu ngắn được ưu tiên hơn
vì có ít xác suất hơn (khi nhân) Không lưu thông tin về các ngữ: ví dụ không
⇒ nhân kết quả với 1 hằng số tỉ lệ thuận với độ dài gióng hàng được “to go” và “aller”
câu Không có ràng buộc cục bộ:
Phụ thuộc dữ liệu luyện: 1 thay đổi nhỏ trong dữ liệu Eg, is she a mathematician
luyện gây ra thay đổi lớn trong các giá trị ước lượng
Âm vị. Các từ tạo bởi các âm vị khác nhau được
tham số
coi là các ký hiệu riêng biệt
Vd, P(le|the) thay đổi từ 0.610 xuống 0.497
Dữ liệu thưa. Các đánh giá cho các từ ít gặp
TÍnh hiệu quả. Bỏ các câu > 30 từ, vì làm không gian
tìm kiếm tăng theo cấp số mũ
không chính xác
Thiếu tri thức ngôn ngữ
37 38
Các hệ thống gióng hàng khác Phát hiện biên của câu
Các tập ngữ liệu sử dụng giả thiết: Sử dụng luật, danh sách liệt kê:
• Dữ liệu song song (dịch E ↔ F) Dấu kết thúc câu:
• Dấu ngắt đoạn (nếu được đánh dấu)
Gióng hàng câu • 1 số kýý tự:
ự ?,, !,, ;
• Phát hiện câu • Vấn đề: dấu chấm ‘.’
– Kết thúc câu (... left yesterday. He was heading to...)
• Gióng hàng câu
– Dấu chấm thập phân : 3.6 (three-point-six)
– Dấu chấm hàng nghìn: 3.200
Gióng hàng từ – Viết tắt: cf., e.g., Calif., Mt., Mr.
• Tách từ – Vân vân: ...
• Gióng hàng từ (với 1 số ràng buộc) – 1 số ngôn ngữ: 2nd ~ 2.
– Ký hiệu đầu: A. B. Smith
Phương pháp thống kê: vd Maximum Entropy
39 40
7
Gióng hàng dựa trên độ dài Nhiệm vụ gióng hàng
Định nghĩa bài toán như việc tính xác suất: Định nghĩa:
argmaxA P(A|E,F) = argmaxA P(A,E,F) (E,F cố định) Cho P(A,E,F) ≅ Πi=1..nP(Bi),
tìm cách chia (E,F) thành n bead Bi=1..n
i 1 n, sao cho
Định
Đị h nghĩa
hĩ 1 “bead”:
“b d” “bead”
bead (2:2)
tối đa xác suất P(A,E,F) trên tập luyện.
E:
Bi = p:qαi, với p:q ∈ {0:1,1:0,1:1,1:2,2:1,2:2}
F:
mô tả phép gióng hàng
Lấy xấp xỉ:
Pref(i,j) – xác suất của cách gióng hàng tốt nhất từ
P(A,E,F) ≅ Πi=1..nP(Bi),
điểm đầu cho đến (i,j)
Trong đó Bi là 1 bead; P(Bi) không phụ thuộc vào phần còn
lại của E,F.
43 44
8
Cách gióng hàng tốt nhất
Với mỗi cặp (E,F), tìm
A = argmaxA P(A|F,E) = argmaxA P(F,A|E)/P(F) = Dịch máy sử dụng cú pháp
argmaxA P(F,A|E) = argmaxA (ε / (l+1)m Πj=1..m
p(fj|eaj)) = argmaxA Πj=1..mp(fj|eaj)
Sử sụng thuật toán lập trình động theo
kiểuViterbi.
Tính lại p(f|e)
49 50
51 52
53 54
9
1. Sắp lại trật tự
Bảng tham số: sắp lại
Trật tự gôc Sắp lại P(Sắp lại| Trật tự gốc)
Đặc trưng điều kiện = nhãn cha & nhãn nút (vị trí) & none (là từ)
57 58
Đặc trưng điều kiện = từ (tiếng Anh) Ghi chú: Dịch thành NULL Æ xóa
59 60
10
Thử nghiệm Kết quả
Dữ liệu luyện: 2000 cặp câu J-E Điểm trung bình #câu
Y/K model 0.582 10
J: tách từ sử dụng Chasen
IBM model 5 0.431
0 431 0
E: PTCP sử dụng bộ PTCP Collins
Luyện trên 40000 câu từ Treebank, độ cx
Điểm trung bình được tính trên 3 người với 50 câu
~90%
ok(1.0), không chắc (0.5), sai (0.0)
E: từ cây cú pháp, xác định trật tự từ chỉ tính độ chính xác
và chuyển đổi (SVO <-> SOV)
Luyện sử dụng EM: 20 vòng lặp
61 62
63 64
65 66
11
67
69 70
12