Professional Documents
Culture Documents
Xu-Ly-Ngon-Ngu-Tu-Nhien - Le-Thanh-Huong - 4 - Probabilistic-Parse - Phan-Tich-Cu-Phap-Xac-Suat - (Cuuduongthancong - Com)
Xu-Ly-Ngon-Ngu-Tu-Nhien - Le-Thanh-Huong - 4 - Probabilistic-Parse - Phan-Tich-Cu-Phap-Xac-Suat - (Cuuduongthancong - Com)
1 2
Ví dụ Luật 3 Luật
S
1. NP→DT NN NN
VP 2. NP→DT JJ NN
3. S→NP VBX JJ CC VBX NP
z Nhóm (NNS, NN) thành NX; (NNP, NNPs)=NPX;
VP VP (VBP, VBZ, VBD)
VBD)=VBX;
VBX;
Luật 1 VP ADJ z Chọn các luật theo tần suất của nó
Luật 2
NP NP
DT NN NN VBX JJ CC VBX DT JJ NN
This apple pie looks good and is a real treat
5 6
CuuDuongThanCong.com https://fb.com/tailieudientucntt
S → NP VP; 0.35
Tính Pr NP → DT JJ NN; 0.1532
Tính xác suất VP → VBX NP; 0.302
1 S
X NP 2 NP VP 3
Pr(X →Y)
DT JJ NN VBX NP 4
1470 The big guy ate
DT JJ NN
Y DT JJ NN the apple pie
= = 0.1532
NP Luật áp dụng Chuỗi Pr
9711 1 S →NP VP 0.35
2 NP → DT JJ NN 0.1532 x 0.35 = 0.0536
3 VP → VBX NP 0.302 x 0.0536= 0.0162
4 NP → DT JJ NN 0.1532 x 0.0162=0.0025
Pr = 0.0025
7 8
Văn phạm phi ngữ cảnh xác suất Các giả thiết
z Độc lập vị trí: Xác suất 1 cây con không phụ thuộc vào vị trí
z 1 văn phạm phi ngữ cảnh xác suất (Probabilistic Context
Free Grammar) gồm các phần thông thường của CFG của các từ của cây con đó ở trong câu
z Tập ký hiệu kết thúc {wk}, k = 1, . . . ,V ∀k, P(Njk(k+c) →ζ) là giống nhau
z Tập ký hiệu không kết thúc {Ni}, i = 1, . . . ,n
z Ký hiệu khởi đầu N1 z Độc
ộ lập
ập ngữ
g cảnh: Xác suất 1 câyy con không
gpphụ
ụ thuộc
ộ vào
z Tập luật {Ni → ζj}, ζj là chuỗi các ký hiệu kết thúc và không các từ ngoài cây con đó
kết thúc P(Njkl→ζ| các từ ngoài khoảng k đến l) = P(Njkl→ζ)
z Tập các xác suất của 1 luật là:
∀i ∑j P(Ni → ζj) = 1 z Độc lập tổ tiên: Xác suất 1 cây con không phụ thuộc vào
z Xác suất của 1 cây cú pháp: các nút ngoài cay con đó
P(T) = Πi=1..n p(r(i))
P(Njkl→ζ| các nút ngoài cây con Njkl ) = P(Njkl→ζ)
9 10
11 12
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Tính Pr dựa trên suy diễn
z Trường hợp cơ bản: chỉ có 1 từ đầu vào
Pr(tree) = pr(A→ wi)
z Trường hợp đệ qui: Đầu vào là xâu các từ
A⇒w* ij if ∃k: A→ ΒC, B ⇒w
* ik ,C ⇒w* kj ,i≤k ≤j.
p[i,j] = max(p(A→ ΒC) x p[i,k] x p[k,j]).
A
B C
i k j
13 14
wij
15
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Xác suất trong và ngoài Xác suất trong và ngoài
N1= Start
N1= Start
Outside αj(p,q)
α Outside αj(p,q)
Nj α
Inside βj(p,q) Nj
Inside βj(p,q)
β
w1 wp-1 wp wq wq+1 wm β
w1 wp-1 wp wq wq+1 wm
z Npq = ký hiệu không kết thúc Nj trải từ vị trí p đến q trong
xâu αj(p,q)=P(w1(p-1) , Npqj,w(q+1)m|G)
z αj = xác suất ngoài (outside) βj(p,q)=P(wpq|Npqj, G)
z βj = xác suất trong (inside)
αj(p,q) βj(p,q) = P(N1⇒∗ w1m , Nj ⇒∗ wpq | G)
z Nj phủ các từ wp … wq, nếu Nj ⇒∗ wp … wq 19 = P(N1⇒∗ w1m |G)• P(Nj ⇒∗ wpq | N1⇒∗ w1m, G) 20
21 22
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Làm giàu PCFG Làm giàu PCFG
z PCFG từ vựng hóa : PLCFG (Probabilistic
z PCFG đơn giản hoạt động không tốt do các Lexicalized CFG, Collins 1997; Charniak
giả thiết độc lập 1997)
z Giải quyết: Đưa thêm thông tin z Gán từ vựng với các nút của luật
z Phụ th
Ph thuộc
ộ cấu
ấ ttrúc
ú z Cấu trúc Head
z Việc triển khai 1 nút phụ thuộc vào vị trí của nó z Mỗi phần tử của parsed tree được gắn liền với
trên cây ( độc lập với nội dung về từ vựng của nó) một lexical head
z Để xác định head của một nút trong ta phải xác
z Ví dụ: bổ sung thông tin cho 1 nút bằng cách lưu
định trong các nút con, nút nào là head (xác định
giữ thông tin về cha của nó: SNP khác với VPNP head trong vế phải của một luật).
25 26
27
CuuDuongThanCong.com https://fb.com/tailieudientucntt
A Penn Treebank tree Đánh giá độ chính xác của PTCP
z Độ chính xác của parser được đo qua việc tính xem có bao
nhiêu thành phần ngữ pháp trong cây giống với cây chuẩn, gọi là
gold-standard reference parses.
z Độ chính xác (Precision) =
% trường hợp hệ gán đúng
tổng số trường hợp hệ gán
(%THợp hệ tính đúng).
z Độ phủ (Recall) =
% số trường hợp hệ gán đúng
tổng số trường hợp đúng
(%THợp hệ tính đúng so với con người).
31 32
35 36
CuuDuongThanCong.com https://fb.com/tailieudientucntt