You are on page 1of 28

Trường Đại học Bách Khoa Hà Nội

Viện Công nghệ thông tin và truyền thông

ĐỀ TÀI
PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
Giảng viên hướng dẫn: TS. Nguyễn Thị Thu Hương
Nhóm sinh viên thực hiện: Nhóm 6
Nguyễn Văn Tuyển 20145016
Lê Bảo Chi 20140413
Nguyễn Khắc Tư 20145161
Trần Sơn Tùng 20145145
Nguyễn Đình Thắng 20144208
Phạm Hữu Bảo Chung 20140479
PHẦN I.
TỔNG QUAN PHÂN TÍCH
CÚ PHÁP NGÔN NGỮ TỰ NHIÊN

12/9/2018 2
1. BIỂU DIỄN CÚ PHÁP

Biểu diễn thành phần Biểu diễn phụ thuộc


S V

N VP N N

V NP

D N PP D P
P NP N
D N D

They killed the man with a gun They killed the man with a gun

12/9/2018 3
2. HAI KHÁI NIỆM PHÂN TÍCH CÚ PHÁP

GRAMMAR PARSING
 Cho một văn phạm 𝐺 và một xâu đầu vào 𝑥 ∈ Σ ∗ . Tìm
một số hoặc tất cả các phân tích được gán cho 𝑥 bởi 𝐺.
 Bài toán well-defined abstract; không dựa trên thực
nghiệm.

TEXT PARSING
 Cho một đoạn văn bản 𝑇 = (𝑥1 , … , 𝑥𝑛 ) trong ngôn ngữ
𝐿, xác định phép phân tích đúng cho mỗi câu 𝑥𝑖 ∈ 𝑇.
 Bài toán xấp xỉ dựa trên thực nghiệm; không rõ tính
well-defined abstract.

12/9/2018 4
3. CÁC TIÊU CHÍ ĐÁNH GIÁ
Xét một hệ thống 𝑃 được sử dụng để phân tích các đoạn
văn bản thuộc ngôn ngữ 𝐿.
 Robustness
Với mỗi 𝑇 = (𝑥1 , 𝑥2 , … 𝑥𝑛 ) trong 𝐿, 𝑃 gán ít nhất một phân tích
cho tất cả các câu 𝑥𝑖 ∈ 𝑇.
 Disambiguation
Với mỗi 𝑇 = (𝑥1 , 𝑥2 , … 𝑥𝑛 ) trong 𝐿, 𝑃 gán nhiều nhất một phân
tích cho tất cả các câu 𝑥𝑖 ∈ 𝑇.
 Accuracy
Với mỗi 𝑇 = (𝑥1 , 𝑥2 , … 𝑥𝑛 ) trong 𝐿, 𝑃 gán một phân tích đúng
cho tất cả các câu 𝑥𝑖 ∈ 𝑇.
 Efficiency
Với mỗi 𝑇 = (𝑥1 , 𝑥2 , … 𝑥𝑛 ) trong 𝐿, 𝑃 xử lý một xâu 𝑥𝑖 ∈ 𝑇 trong
thời gian và không gian là tuyến tính với độ dài 𝑥𝑖 .

12/9/2018 5
4. HAI PHƯƠNG PHÁP PHÂN TÍCH CÚ
PHÁP ĐOẠN VĂN BẢN (1)
HƯỚNG VĂN PHẠM
 Xấp xỉ dựa vào văn phạm: 𝐿(𝐺) ≈ 𝐿
 Một số vấn đề trọng tâm: Robustness, disambiguation
và efficiency.

HƯỚNG DỮ LIỆU
 Xấp xỉ quy nạp: 𝐼(𝑇𝑡 ) ≈ 𝐿
 Mô hình hình thức 𝑀 định nghĩa các phân tích hợp lệ.
 Một đọan văn bản mẫu 𝑇𝑡 = (𝑥1 , … , 𝑥𝑛 ) ∈ 𝐿.
 Sơ đồ suy luận quy nạp 𝐼.
 Một số vấn đề trọng tâm: Accuracy và efficiency.

12/9/2018 6
4. HAI PHƯƠNG PHÁP PHÂN TÍCH CÚ
PHÁP ĐOẠN VĂN BẢN (2)
SO SÁNH HAI PHƯƠNG PHÁP
Hướng Hướng
văn phạm dữ liệu

Robustness  
Disambiguation  
Accuracy  
Eficiency  
12/9/2018 7
PHẦN II.
PHÂN TÍCH CÚ PHÁP PHỤ THUỘC

12/9/2018 8
1. VĂN PHẠM PHỤ THUỘC

KHÁI NIỆM PHỤ THUỘC


 Ý tưởng cơ bản:
 Cấu trúc cú pháp của một câu bao gồm các phần tử từ vựng
được liên kết với nhau thông qua các mối quan hệ nhị phân bất
đối xứng gọi là các phụ thuộc.
 Mỗi quan hệ phụ thuộc bao gồm một thành phần trung tâm
(head) và một thành phần phụ thuộc (dependent)
PU
PRED PC
OBJ
ATT SBJ ATT ATT ATT

ROOT Economic news had little effect on financial markets .

Head Dependent
12/9/2018 9
1. VĂN PHẠM PHỤ THUỘC

MỘT SỐ DẠNG QUAN HỆ PHỤ THUỘC


 Hai dạng quan hệ phụ thuộc thường được tìm thấy trong
nhiều tài liệu hiện nay là head-complement và head-
modifier.

Head-complement Head-modifier

PU
PRED PC
OBJ
ATT SBJ ATT ATT ATT

ROOT Economic news had little effect on financial markets .

12/9/2018 10
1. VĂN PHẠM PHỤ THUỘC

MỘT SỐ DẠNG QUAN HỆ PHỤ THUỘC


 Tồn tại một số trường hợp không rõ ràng
 Một nhóm các động từ (auxillary verb ↔ main verb)
 Các mệnh đề phụ (complementizer ↔ verb)
 Các mệnh đề tương đương (coordinator ↔ conjuncts)
 Các mệnh đề giới ngữ (preposition ↔ nominal)
 Dấu câu

 Ví dụ:

I can see that they rely on this and that .

12/9/2018 11
2. PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
HƯỚNG VĂN PHẠM
Mô hình của Gaifman
 Một hệ phụ thuộc bao gồm ba tập luật:
 𝐿𝐼 : Các luật có dạng 𝑋(𝑌1 … 𝑌𝑖 ∗ 𝑌𝑖+1 … 𝑌𝑛 ), dùng để chỉ từ loại 𝑋 có
thể xuất hiện với các từ loại 𝑌1 , … , 𝑌𝑛 như các dependents.
 𝐿𝐼𝐼 : Các luật gán cho mỗi từ loại X một dãy các từ thuộc về nó.
 𝐿𝐼𝐼𝐼 : Một luật gán danh sách tất cả các từ loại một sự kiện có thể
dẫn đến việc hình thành một câu.
 Một câu chứa các từ 𝑤1 , … , 𝑤𝑛 được phân tích bằng cách gán
cho nó một dãy các từ loại 𝑋1 , … , 𝑋𝑛 và một quan hệ phụ thuộc
𝑑 giữa các từ sao cho 6 điều kiện xác định được giữ.

12/9/2018 12
2. PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
HƯỚNG VĂN PHẠM
Văn phạm phụ thuộc và văn phạm phi ngữ cảnh
 Văn phạm phụ thuộc (Gaifman) và văn phạm phi ngữ cảnh là
tương đương yếu. Chúng đều mô tả lớp ngôn ngữ phi ngữ cảnh.
 Bất kỳ hệ phụ thuộc nào đều có thể chuyển thành văn phạm phi
ngữ cảnh tương đương mạnh. Chiều ngược lại chỉ đúng với một
tập con chặt của văn phạm phi ngữ cảnh.
 Kết luận văn phạm phụ thuộc chỉ là một biến thể chặt của văn
phạm phi ngữ cảnh là chưa đầy đủ (chưa xét đến non-projective
dependency structure).
 Sự tương đồng của hai loại văn phạm cho phép sử dụng cùng
các phương pháp phân tích cú pháp.
12/9/2018 13
2. PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
HƯỚNG VĂN PHẠM
Mô hình bilexcical grammar của Eisner (2000)
 Văn phạm bao gồm hai thành phần:
1. Một tập Σ các kí hiệu kết thúc (từ), chứa ký hiệu đặc biệt ROOT.
2. Với mỗi từ 𝑤 ∈ Σ, một cặp automata hữu hạn đơn định 𝑙𝑤 và 𝑟𝑤 .
Mỗi automata chấp nhận một tập con chính quy nào đấy của Σ ∗ .
 Ngôn ngữ 𝐿(𝐺) được định nghĩa như sau:
1. Một cây phụ thuộc là một cây có gốc mà trong đó, mỗi node là
một từ từ Σ, nút gốc là ROOT. Có xét thứ tự các node con.
2. Cây phụ thuộc có tính văn phạm nếu với mọi từ 𝑤, 𝑙𝑤 chấp nhận
dãy con trái của 𝑤 và 𝑟𝑤 chấp nhận dãy con phải của 𝑤.
3. Một xâu 𝑥 được sinh bởi 𝐺 với phân tích 𝑦 nếu 𝑦 là một cây phụ
thuộc có tính văn phạm và liệt kê nhãn của 𝑦 theo thứ tự trung tố
tạo ra 𝑥 theo sau bởi ROOT.
4. Ngôn ngữ 𝐿(𝐺) là tập các xâu đợc sinh bởi 𝐺.
12/9/2018 14
2. PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
HƯỚNG DỮ LIỆU
Mô hình của Eisner (1996)
 Đưa ra khái niệm Weighted Bilexical Grammar (WBG).
 Đề xuất 3 mô hình xác suất khác nhau để thực hiện phân tích cú
pháp phụ thuộc, hay nói cách khác, 3 chiến lược đánh trọng số
khác nhau bên trong framework của WBG.
 Nghiên cứu này có hai ảnh hưởng quan trọng:
 Chỉ ra rằng mô hình xác suất sinh mẫu và phương pháp học có
giám sát có thể được áp dụng đối với các biểu diễn phụ thuộc để
thu được tính chính xác tương đối.
 Chỉ ra rằng các mô hình này có thể được kết hợp với các kỹ thuật
phân tích cú pháp hiệu quả để tận dụng các thuộc tính đặc biệt của
cấu trúc cú pháp.

12/9/2018 15
2. PHÂN TÍCH CÚ PHÁP PHỤ THUỘC

PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC


HƯỚNG DỮ LIỆU
 Một số công trình tiêu biểu
 Cách tiếp cận của Collins et al. (1999)
 Cách tiếp cận của Samuelsson (2000)
 Cách tiếp cận của Wang & Harper (2004)
 Cách tiếp cận trong tài liệu này tương tự cách tiếp cận
theo hướng quyết định của Yumada & Masumoto (2003).

12/9/2018 16
2. PHÂN TÍCH CÚ PHÁP PHỤ THUỘC

TIỀM NĂNG CỦA PHÂN TÍCH CÚ PHÁP PHỤ THUỘC


 Các liên kết phụ thuộc sát hơn với các mối quan hệ
ngữ nghĩa.
 Cây phụ thuộc chứa một node/từ
⇒ Chỉ phải liên kết các node có sẵn, không phải sinh
ra các node mới, tiếp cận được trực tiếp hơn
 Phân tích cú pháp phụ thuộc sẽ thao tác, xử lý trên
từng từ một
⇒ Không phải đợi toàn bộ cụm từ.

12/9/2018 17
3. FRAMEWORK

CÁC ĐỊNH NGHĨA CƠ BẢN


 Định nghĩa 1. Một đoạn văn bản là một dãy các câu
𝑇 = (𝑥1 , 𝑥2 , … , 𝑥𝑛 )
 Định nghĩa 2. Một câu là một dãy các tokens
𝑥 = (𝑤1 , 𝑤2 , … , 𝑤𝑛 )
 Định nghĩa 3. Một token là một dãy các ký tự
𝑤 = (𝑐1 , 𝑐2 , … , 𝑐𝑛 )

 Với một câu 𝑥 = (𝑤1 , 𝑤2 , … , 𝑤𝑛 ), ta định nghĩa hàm:


𝑤𝑖 , 1 ≤ 𝑖 ≤ 𝑛
𝑤𝑥 𝑖 = ቊ
undefined otherwise

12/9/2018 18
3. FRAMEWORK
ĐỒ THỊ PHỤ THUỘC
 Định nghĩa 4. Cho một tập 𝑅 các kiểu phụ thuộc, một đồ
thị phụ thuộc ứng với một câu 𝑥 = (𝑤1 , 𝑤2 , … , 𝑤𝑛 ) là một
đồ thị có hướng được gán nhãn 𝐺 = 𝑉, 𝐸, 𝐿 , trong đó:
 𝑉 = 𝑍𝑛+1 = {0, 1, … , 𝑛}
 𝐸 ⊆𝑉×𝑉
 𝐿: 𝐸 → 𝑅
 Định nghĩa 5. Một đồ thị phụ thuộc 𝐺 là đúng đắn khi và
chỉ khi
1. Node 0 là node gốc.
2. 𝐺 liên thông.

12/9/2018 19
3. FRAMEWORK

ĐỒ THỊ PHỤ THUỘC CÓ TÍNH CHIẾU


 Định nghĩa 6. Một đồ thị phụ thuộc có tính chiếu là một
đồ thị phụ thuộc đúng đắn thỏa mãn những điều kiện sau:
3. Tất cả các node có nhiều nhất một head. Nghĩa là, nếu
𝑖 → 𝑗 thì không tồn tại một node 𝑘 sao cho 𝑘 ≠ 𝑖 và
𝑘 → 𝑗.
4. Đồ thị 𝐺 là á chu trình. Nghĩa là, nếu 𝑖 → 𝑗 thì không
có 𝑗 →∗ 𝑖.
5. Đồ thị 𝐺 có tính chiếu. Nghĩa là, nếu 𝑖 → 𝑗 thì 𝑖 →∗ 𝑘
với mọi 𝑘 sao cho 𝑖 < 𝑘 < 𝑗 hoặc 𝑗 < 𝑘 < 𝑖.

12/9/2018 20
3. FRAMEWORK

BÀI TOÁN PHÂN TÍCH CÚ PHÁP PHỤ THUỘC


Cho một đoạn văn bản 𝑇 = (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) trong ngôn
ngữ 𝐿, tìm một đồ thị phụ thuộc 𝐺𝑖 đúng đối với mỗi câu 𝑥𝑖 ∈
𝑇.

12/9/2018 21
4. THUẬT TOÁN PHÂN TÍCH CÚ PHÁP
CẤU HÌNH
 Định nghĩa 7. Cho tập 𝑅 = {𝑟0 , 𝑟1 , … , 𝑟𝑚 } các kiểu phụ thuộc và
một câu 𝑥 = (𝑤1 , 𝑤2 , … , 𝑤𝑛 ), một cấu hình của bộ phân tích cú
pháp đối với 𝑥 là một bộ bốn 𝑐 = 𝜎, 𝜏, ℎ, 𝑑 , trong đó:
1. 𝜎 là một stack các token node 𝑖 (1 ≤ 𝑖 ≤ 𝑗 với 𝑗 ≤ 𝑛).
2. 𝜏 là một dãy đã được sắp xếp các token node 𝑖 (𝑗 < 𝑖 ≤ 𝑛).
3. ℎ: 𝑉𝑥+ → 𝑉𝑥 là một hàm từ các token node đến các node.
4. 𝑑: 𝑉𝑥+ → 𝑅 là một hàm từ các token node đến các kiểu phụ thuộc.
5. Đối với mọi token node 𝑖 ∈ 𝑉𝑥+ , ℎ 𝑖 = 0 ⇔ 𝑑 𝑖 = 𝑟0 .
 Định nghĩa 8. Một cấu hình 𝑐 = 𝜎, 𝜏, ℎ, 𝑑 đối với 𝑥 sẽ định
nghĩa một đồ thị phụ thuộc 𝐺𝑐 = (𝑉𝑥 , 𝐸𝑐 , 𝐿𝑐 )
1. 𝐸𝑐 = 𝑖, 𝑗 ℎ 𝑗 = 𝑖}
2. 𝐿𝑐 = 𝑖, 𝑗 , 𝑟 ℎ 𝑗 = 𝑖, 𝑑 𝑗 = 𝑟}
12/9/2018 22
4. THUẬT TOÁN PHÂN TÍCH CÚ PHÁP

CẤU HÌNH KHỞI TẠO VÀ CẤU HÌNH DỪNG


 Định nghĩa 9. Một cấu hình 𝑐 đối với 𝑥 = {𝑤1 , 𝑤2 , … , 𝑤𝑛 }
là cấu hình khởi tạo khi và chỉ khi nó có dạng 𝑐 =
(𝜖, 1 … 𝑛 , ℎ0 , 𝑑0 ), trong đó:
1. ℎ0 (𝑖) = 0 với mọi 𝑖 ∈ 𝑉𝑥+ .
2. 𝑑0 (𝑖) = 𝑟0 với mọi 𝑖 ∈ 𝑉𝑥+ .
 Định nghĩa 10. Một cấu hình 𝑐 đối với 𝑥 = {𝑤1 , 𝑤2 , … , 𝑤𝑛 }
là cấu hình dừng khi và chỉ khi nó có dạng 𝑐 = (𝜎, 𝜖, ℎ, 𝑑),
trong đó 𝜎, ℎ, 𝑑 tùy ý.

12/9/2018 23
4. THUẬT TOÁN PHÂN TÍCH CÚ PHÁP
CÁC PHÉP BIẾN ĐỔI
 Định nghĩa 11. Một phép biến đổi là một hàm bộ phận
𝑡: 𝐶 𝑛 → 𝐶.
 Định nghĩa 12. Cho một tập các kiểu phụ thuộc 𝑅, các
phép biến đổi sau là có thể đối với mọi 𝑟 ∈ 𝑅.
1. LEFT-ARC(𝑟): 𝜎|𝑖, 𝑗|𝜏, ℎ, 𝑑 → (𝜎, 𝑗|𝜏, ℎ[𝑖 → 𝑗], 𝑑[𝑖 → 𝑗])
nếu ℎ 𝑖 = 0.
2. RIGHT-ARC(𝑟): 𝜎 𝑖 𝑗, 𝜏, ℎ, 𝑑 → (𝜎, 𝑗|𝜏, ℎ[𝑗 → 𝑖], 𝑑[𝑗 → 𝑖])
nếu ℎ 𝑗 = 0.
3. REDUCE: 𝜎|𝑖, 𝜏, ℎ, 𝑑 → (𝜎, 𝜏, ℎ, 𝑑) nếu ℎ 𝑖 ≠ 0.
4. SHIFT: 𝜎, 𝑖|𝜏, ℎ, 𝑑 → (𝜎|𝑖, 𝜏, ℎ, 𝑑).

12/9/2018 24
4. THUẬT TOÁN PHÂN TÍCH CÚ PHÁP
DÃY CÁC PHÉP BIẾN ĐỔI
 Định nghĩa 13. Một dãy các phép biến đổi là một dãy các cấu
hình 𝐶0,𝑚 = 𝑐0 , … , 𝑐𝑚 , trong đó:
1. Cấu hình đầu tiên 𝑐0 là cấu hình khởi tạo (𝑐0 ∈ 𝐶 0 ).
2. Với mọi 𝑖 > 0, tồn tại phép biến đổi 𝑡 ∈ 𝑇𝑅 sao cho 𝑐𝑖 = 𝑡 𝑐𝑖−1 .

 Định nghĩa 14. Một dãy các phép biến đổi 𝐶0,𝑚 là dừng khi và
chỉ khi nó kết thúc ở trạng thái dừng.
 Định nghĩa 15. Một dãy các phép biến đổi 𝐶0,𝑚 = 𝑐0 , … , 𝑐𝑚
tương ứng với một xâu 𝑥 khi và chỉ khi nếu 𝑐0 ∈ 𝐶0𝑥 , hay 𝑐0 =
(𝜖, 1 … 𝑛 , ℎ0 , 𝑑0 ).
 Định nghĩa 14. Một dãy các phép biến đổi dừng 𝐶0,𝑚 tương ứng
với một xâu 𝑥 sẽ gán cho 𝑥 một đồ thị phụ thuộc 𝐺𝑚 = định
nghĩa bởi 𝑐𝑚 .

12/9/2018 25
4. THUẬT TOÁN PHÂN TÍCH CÚ PHÁP
THUẬT TOÁN QUYẾT ĐỊNH
 Định nghĩa 17. Một guide là một hàm 𝑔: 𝐶 𝑛 × 2𝐴𝑓 → 𝑇𝑅 thỏa
mãn điều kiện 𝑔(𝑐, 𝐴𝑥 ) là một phép biến đổi có thể áp dụng lên
𝑐 (với mọi 𝑐 ∈ C𝑥𝑛 ), sao cho:
1. Nếu 𝑔 𝑐, 𝐴𝑥 ∈ {𝐿𝐴 𝑟 , 𝑅𝐴 𝑟 , 𝑅𝐸} thì 𝑐 có stack không rỗng 𝜎|𝑖.
2. Nếu 𝑔 𝑐, 𝐴𝑥 = 𝐿𝐴(𝑟) và stack của 𝑐 là 𝜎|𝑖 thì ℎ 𝑖 = 0.
3. Nếu 𝑔 𝑐, 𝐴𝑥 = 𝑅𝐸 và stack của 𝑐 là 𝜎|𝑖 thì ℎ 𝑖 ≠ 0.
4. Nếu 𝑔 𝑐, 𝐴𝑥 = 𝑅𝐴(𝑟) và input của 𝑐 là 𝑗|𝜏 thì ℎ 𝑗 ≠ 0.
 Định nghĩa 18. Một article là một guide 𝑜 sao cho, nếu 𝑐 là một
cấu hình của 𝑥, 𝑜 𝑐, 𝐴𝑥 = 𝑡 khi và chỉ khi 𝑡 là một phép biến đổi
từ 𝑐 dẫn đến một phép phân tích đúng của 𝑥.

12/9/2018 26
4. THUẬT TOÁN PHÂN TÍCH CÚ PHÁP
THUẬT TOÁN QUYẾT ĐỊNH

12/9/2018 27
TÀI LIỆU THAM KHẢO
[1] Joakim Nivre. 2006. Inductive Dependency Parsing (Text, Speech
and Language Technology). Springer-Verlag, Berlin, Heidelberg.

12/9/2018 28

You might also like