Professional Documents
Culture Documents
Đề Tài
Đề Tài
ĐỀ TÀI
PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
Giảng viên hướng dẫn: TS. Nguyễn Thị Thu Hương
Nhóm sinh viên thực hiện: Nhóm 6
Nguyễn Văn Tuyển 20145016
Lê Bảo Chi 20140413
Nguyễn Khắc Tư 20145161
Trần Sơn Tùng 20145145
Nguyễn Đình Thắng 20144208
Phạm Hữu Bảo Chung 20140479
PHẦN I.
TỔNG QUAN PHÂN TÍCH
CÚ PHÁP NGÔN NGỮ TỰ NHIÊN
12/9/2018 2
1. BIỂU DIỄN CÚ PHÁP
N VP N N
V NP
D N PP D P
P NP N
D N D
They killed the man with a gun They killed the man with a gun
12/9/2018 3
2. HAI KHÁI NIỆM PHÂN TÍCH CÚ PHÁP
GRAMMAR PARSING
Cho một văn phạm 𝐺 và một xâu đầu vào 𝑥 ∈ Σ ∗ . Tìm
một số hoặc tất cả các phân tích được gán cho 𝑥 bởi 𝐺.
Bài toán well-defined abstract; không dựa trên thực
nghiệm.
TEXT PARSING
Cho một đoạn văn bản 𝑇 = (𝑥1 , … , 𝑥𝑛 ) trong ngôn ngữ
𝐿, xác định phép phân tích đúng cho mỗi câu 𝑥𝑖 ∈ 𝑇.
Bài toán xấp xỉ dựa trên thực nghiệm; không rõ tính
well-defined abstract.
12/9/2018 4
3. CÁC TIÊU CHÍ ĐÁNH GIÁ
Xét một hệ thống 𝑃 được sử dụng để phân tích các đoạn
văn bản thuộc ngôn ngữ 𝐿.
Robustness
Với mỗi 𝑇 = (𝑥1 , 𝑥2 , … 𝑥𝑛 ) trong 𝐿, 𝑃 gán ít nhất một phân tích
cho tất cả các câu 𝑥𝑖 ∈ 𝑇.
Disambiguation
Với mỗi 𝑇 = (𝑥1 , 𝑥2 , … 𝑥𝑛 ) trong 𝐿, 𝑃 gán nhiều nhất một phân
tích cho tất cả các câu 𝑥𝑖 ∈ 𝑇.
Accuracy
Với mỗi 𝑇 = (𝑥1 , 𝑥2 , … 𝑥𝑛 ) trong 𝐿, 𝑃 gán một phân tích đúng
cho tất cả các câu 𝑥𝑖 ∈ 𝑇.
Efficiency
Với mỗi 𝑇 = (𝑥1 , 𝑥2 , … 𝑥𝑛 ) trong 𝐿, 𝑃 xử lý một xâu 𝑥𝑖 ∈ 𝑇 trong
thời gian và không gian là tuyến tính với độ dài 𝑥𝑖 .
12/9/2018 5
4. HAI PHƯƠNG PHÁP PHÂN TÍCH CÚ
PHÁP ĐOẠN VĂN BẢN (1)
HƯỚNG VĂN PHẠM
Xấp xỉ dựa vào văn phạm: 𝐿(𝐺) ≈ 𝐿
Một số vấn đề trọng tâm: Robustness, disambiguation
và efficiency.
HƯỚNG DỮ LIỆU
Xấp xỉ quy nạp: 𝐼(𝑇𝑡 ) ≈ 𝐿
Mô hình hình thức 𝑀 định nghĩa các phân tích hợp lệ.
Một đọan văn bản mẫu 𝑇𝑡 = (𝑥1 , … , 𝑥𝑛 ) ∈ 𝐿.
Sơ đồ suy luận quy nạp 𝐼.
Một số vấn đề trọng tâm: Accuracy và efficiency.
12/9/2018 6
4. HAI PHƯƠNG PHÁP PHÂN TÍCH CÚ
PHÁP ĐOẠN VĂN BẢN (2)
SO SÁNH HAI PHƯƠNG PHÁP
Hướng Hướng
văn phạm dữ liệu
Robustness
Disambiguation
Accuracy
Eficiency
12/9/2018 7
PHẦN II.
PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
12/9/2018 8
1. VĂN PHẠM PHỤ THUỘC
Head Dependent
12/9/2018 9
1. VĂN PHẠM PHỤ THUỘC
Head-complement Head-modifier
PU
PRED PC
OBJ
ATT SBJ ATT ATT ATT
12/9/2018 10
1. VĂN PHẠM PHỤ THUỘC
Ví dụ:
12/9/2018 11
2. PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
HƯỚNG VĂN PHẠM
Mô hình của Gaifman
Một hệ phụ thuộc bao gồm ba tập luật:
𝐿𝐼 : Các luật có dạng 𝑋(𝑌1 … 𝑌𝑖 ∗ 𝑌𝑖+1 … 𝑌𝑛 ), dùng để chỉ từ loại 𝑋 có
thể xuất hiện với các từ loại 𝑌1 , … , 𝑌𝑛 như các dependents.
𝐿𝐼𝐼 : Các luật gán cho mỗi từ loại X một dãy các từ thuộc về nó.
𝐿𝐼𝐼𝐼 : Một luật gán danh sách tất cả các từ loại một sự kiện có thể
dẫn đến việc hình thành một câu.
Một câu chứa các từ 𝑤1 , … , 𝑤𝑛 được phân tích bằng cách gán
cho nó một dãy các từ loại 𝑋1 , … , 𝑋𝑛 và một quan hệ phụ thuộc
𝑑 giữa các từ sao cho 6 điều kiện xác định được giữ.
12/9/2018 12
2. PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
HƯỚNG VĂN PHẠM
Văn phạm phụ thuộc và văn phạm phi ngữ cảnh
Văn phạm phụ thuộc (Gaifman) và văn phạm phi ngữ cảnh là
tương đương yếu. Chúng đều mô tả lớp ngôn ngữ phi ngữ cảnh.
Bất kỳ hệ phụ thuộc nào đều có thể chuyển thành văn phạm phi
ngữ cảnh tương đương mạnh. Chiều ngược lại chỉ đúng với một
tập con chặt của văn phạm phi ngữ cảnh.
Kết luận văn phạm phụ thuộc chỉ là một biến thể chặt của văn
phạm phi ngữ cảnh là chưa đầy đủ (chưa xét đến non-projective
dependency structure).
Sự tương đồng của hai loại văn phạm cho phép sử dụng cùng
các phương pháp phân tích cú pháp.
12/9/2018 13
2. PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
HƯỚNG VĂN PHẠM
Mô hình bilexcical grammar của Eisner (2000)
Văn phạm bao gồm hai thành phần:
1. Một tập Σ các kí hiệu kết thúc (từ), chứa ký hiệu đặc biệt ROOT.
2. Với mỗi từ 𝑤 ∈ Σ, một cặp automata hữu hạn đơn định 𝑙𝑤 và 𝑟𝑤 .
Mỗi automata chấp nhận một tập con chính quy nào đấy của Σ ∗ .
Ngôn ngữ 𝐿(𝐺) được định nghĩa như sau:
1. Một cây phụ thuộc là một cây có gốc mà trong đó, mỗi node là
một từ từ Σ, nút gốc là ROOT. Có xét thứ tự các node con.
2. Cây phụ thuộc có tính văn phạm nếu với mọi từ 𝑤, 𝑙𝑤 chấp nhận
dãy con trái của 𝑤 và 𝑟𝑤 chấp nhận dãy con phải của 𝑤.
3. Một xâu 𝑥 được sinh bởi 𝐺 với phân tích 𝑦 nếu 𝑦 là một cây phụ
thuộc có tính văn phạm và liệt kê nhãn của 𝑦 theo thứ tự trung tố
tạo ra 𝑥 theo sau bởi ROOT.
4. Ngôn ngữ 𝐿(𝐺) là tập các xâu đợc sinh bởi 𝐺.
12/9/2018 14
2. PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
HƯỚNG DỮ LIỆU
Mô hình của Eisner (1996)
Đưa ra khái niệm Weighted Bilexical Grammar (WBG).
Đề xuất 3 mô hình xác suất khác nhau để thực hiện phân tích cú
pháp phụ thuộc, hay nói cách khác, 3 chiến lược đánh trọng số
khác nhau bên trong framework của WBG.
Nghiên cứu này có hai ảnh hưởng quan trọng:
Chỉ ra rằng mô hình xác suất sinh mẫu và phương pháp học có
giám sát có thể được áp dụng đối với các biểu diễn phụ thuộc để
thu được tính chính xác tương đối.
Chỉ ra rằng các mô hình này có thể được kết hợp với các kỹ thuật
phân tích cú pháp hiệu quả để tận dụng các thuộc tính đặc biệt của
cấu trúc cú pháp.
12/9/2018 15
2. PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
12/9/2018 16
2. PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
12/9/2018 17
3. FRAMEWORK
12/9/2018 18
3. FRAMEWORK
ĐỒ THỊ PHỤ THUỘC
Định nghĩa 4. Cho một tập 𝑅 các kiểu phụ thuộc, một đồ
thị phụ thuộc ứng với một câu 𝑥 = (𝑤1 , 𝑤2 , … , 𝑤𝑛 ) là một
đồ thị có hướng được gán nhãn 𝐺 = 𝑉, 𝐸, 𝐿 , trong đó:
𝑉 = 𝑍𝑛+1 = {0, 1, … , 𝑛}
𝐸 ⊆𝑉×𝑉
𝐿: 𝐸 → 𝑅
Định nghĩa 5. Một đồ thị phụ thuộc 𝐺 là đúng đắn khi và
chỉ khi
1. Node 0 là node gốc.
2. 𝐺 liên thông.
12/9/2018 19
3. FRAMEWORK
12/9/2018 20
3. FRAMEWORK
12/9/2018 21
4. THUẬT TOÁN PHÂN TÍCH CÚ PHÁP
CẤU HÌNH
Định nghĩa 7. Cho tập 𝑅 = {𝑟0 , 𝑟1 , … , 𝑟𝑚 } các kiểu phụ thuộc và
một câu 𝑥 = (𝑤1 , 𝑤2 , … , 𝑤𝑛 ), một cấu hình của bộ phân tích cú
pháp đối với 𝑥 là một bộ bốn 𝑐 = 𝜎, 𝜏, ℎ, 𝑑 , trong đó:
1. 𝜎 là một stack các token node 𝑖 (1 ≤ 𝑖 ≤ 𝑗 với 𝑗 ≤ 𝑛).
2. 𝜏 là một dãy đã được sắp xếp các token node 𝑖 (𝑗 < 𝑖 ≤ 𝑛).
3. ℎ: 𝑉𝑥+ → 𝑉𝑥 là một hàm từ các token node đến các node.
4. 𝑑: 𝑉𝑥+ → 𝑅 là một hàm từ các token node đến các kiểu phụ thuộc.
5. Đối với mọi token node 𝑖 ∈ 𝑉𝑥+ , ℎ 𝑖 = 0 ⇔ 𝑑 𝑖 = 𝑟0 .
Định nghĩa 8. Một cấu hình 𝑐 = 𝜎, 𝜏, ℎ, 𝑑 đối với 𝑥 sẽ định
nghĩa một đồ thị phụ thuộc 𝐺𝑐 = (𝑉𝑥 , 𝐸𝑐 , 𝐿𝑐 )
1. 𝐸𝑐 = 𝑖, 𝑗 ℎ 𝑗 = 𝑖}
2. 𝐿𝑐 = 𝑖, 𝑗 , 𝑟 ℎ 𝑗 = 𝑖, 𝑑 𝑗 = 𝑟}
12/9/2018 22
4. THUẬT TOÁN PHÂN TÍCH CÚ PHÁP
12/9/2018 23
4. THUẬT TOÁN PHÂN TÍCH CÚ PHÁP
CÁC PHÉP BIẾN ĐỔI
Định nghĩa 11. Một phép biến đổi là một hàm bộ phận
𝑡: 𝐶 𝑛 → 𝐶.
Định nghĩa 12. Cho một tập các kiểu phụ thuộc 𝑅, các
phép biến đổi sau là có thể đối với mọi 𝑟 ∈ 𝑅.
1. LEFT-ARC(𝑟): 𝜎|𝑖, 𝑗|𝜏, ℎ, 𝑑 → (𝜎, 𝑗|𝜏, ℎ[𝑖 → 𝑗], 𝑑[𝑖 → 𝑗])
nếu ℎ 𝑖 = 0.
2. RIGHT-ARC(𝑟): 𝜎 𝑖 𝑗, 𝜏, ℎ, 𝑑 → (𝜎, 𝑗|𝜏, ℎ[𝑗 → 𝑖], 𝑑[𝑗 → 𝑖])
nếu ℎ 𝑗 = 0.
3. REDUCE: 𝜎|𝑖, 𝜏, ℎ, 𝑑 → (𝜎, 𝜏, ℎ, 𝑑) nếu ℎ 𝑖 ≠ 0.
4. SHIFT: 𝜎, 𝑖|𝜏, ℎ, 𝑑 → (𝜎|𝑖, 𝜏, ℎ, 𝑑).
12/9/2018 24
4. THUẬT TOÁN PHÂN TÍCH CÚ PHÁP
DÃY CÁC PHÉP BIẾN ĐỔI
Định nghĩa 13. Một dãy các phép biến đổi là một dãy các cấu
hình 𝐶0,𝑚 = 𝑐0 , … , 𝑐𝑚 , trong đó:
1. Cấu hình đầu tiên 𝑐0 là cấu hình khởi tạo (𝑐0 ∈ 𝐶 0 ).
2. Với mọi 𝑖 > 0, tồn tại phép biến đổi 𝑡 ∈ 𝑇𝑅 sao cho 𝑐𝑖 = 𝑡 𝑐𝑖−1 .
Định nghĩa 14. Một dãy các phép biến đổi 𝐶0,𝑚 là dừng khi và
chỉ khi nó kết thúc ở trạng thái dừng.
Định nghĩa 15. Một dãy các phép biến đổi 𝐶0,𝑚 = 𝑐0 , … , 𝑐𝑚
tương ứng với một xâu 𝑥 khi và chỉ khi nếu 𝑐0 ∈ 𝐶0𝑥 , hay 𝑐0 =
(𝜖, 1 … 𝑛 , ℎ0 , 𝑑0 ).
Định nghĩa 14. Một dãy các phép biến đổi dừng 𝐶0,𝑚 tương ứng
với một xâu 𝑥 sẽ gán cho 𝑥 một đồ thị phụ thuộc 𝐺𝑚 = định
nghĩa bởi 𝑐𝑚 .
12/9/2018 25
4. THUẬT TOÁN PHÂN TÍCH CÚ PHÁP
THUẬT TOÁN QUYẾT ĐỊNH
Định nghĩa 17. Một guide là một hàm 𝑔: 𝐶 𝑛 × 2𝐴𝑓 → 𝑇𝑅 thỏa
mãn điều kiện 𝑔(𝑐, 𝐴𝑥 ) là một phép biến đổi có thể áp dụng lên
𝑐 (với mọi 𝑐 ∈ C𝑥𝑛 ), sao cho:
1. Nếu 𝑔 𝑐, 𝐴𝑥 ∈ {𝐿𝐴 𝑟 , 𝑅𝐴 𝑟 , 𝑅𝐸} thì 𝑐 có stack không rỗng 𝜎|𝑖.
2. Nếu 𝑔 𝑐, 𝐴𝑥 = 𝐿𝐴(𝑟) và stack của 𝑐 là 𝜎|𝑖 thì ℎ 𝑖 = 0.
3. Nếu 𝑔 𝑐, 𝐴𝑥 = 𝑅𝐸 và stack của 𝑐 là 𝜎|𝑖 thì ℎ 𝑖 ≠ 0.
4. Nếu 𝑔 𝑐, 𝐴𝑥 = 𝑅𝐴(𝑟) và input của 𝑐 là 𝑗|𝜏 thì ℎ 𝑗 ≠ 0.
Định nghĩa 18. Một article là một guide 𝑜 sao cho, nếu 𝑐 là một
cấu hình của 𝑥, 𝑜 𝑐, 𝐴𝑥 = 𝑡 khi và chỉ khi 𝑡 là một phép biến đổi
từ 𝑐 dẫn đến một phép phân tích đúng của 𝑥.
12/9/2018 26
4. THUẬT TOÁN PHÂN TÍCH CÚ PHÁP
THUẬT TOÁN QUYẾT ĐỊNH
12/9/2018 27
TÀI LIỆU THAM KHẢO
[1] Joakim Nivre. 2006. Inductive Dependency Parsing (Text, Speech
and Language Technology). Springer-Verlag, Berlin, Heidelberg.
12/9/2018 28