Xu-Ly-Ngon-Ngu-Tu-Nhien - Le-Thanh-Huong - 4 - Probabilistic-Parse - Phan-Tich-Cu-Phap-Xac-Suat - (Cuuduongthancong - Com)

Làm cách nào chọn cây đúng?
Phân tích cú pháp xác z Ví dụ:

suất I saw a man with a telescope.
z Khi số luật tăng, khả năng nhập nhằng tăng
Lê Thanh Hương g z Tậpp luật NYU: bộ PTCP Apple
pp ppie : 20,000-30,000
Bộ môn Hệ thống Thông tin luật cho tiếng Anh
z Lựa chọn luật AD: V DT NN PP
Viện CNTT &TT – Trường ĐHBKHN
(1) VP → V NP PP
Email: huonglt-fit@mail.hut.edu.vn
NP → DT NN
(2) VP → V NP
NP → DT NN PP
1 2
Kết hợp từ (bigrams pr) Kết hợp từ (bigrams pr)

Ví dụ:
z V có một số loại bổ ngữ nhất định
Eat ice-cream (high freq)
⇒ Verb-with-obj, verb-without-obj
Eat John (low, except on Survivor)
z Sự tương thích giữa chủ ngữ và bổ ngữ:
Nhược điểm:
z P(John decided to bake a) có xác suất cao John admires honesty
z Xét: Honesty admires John ???
P(w3) = P(w3|w2w1))=P(w
P(w3|w2)P(w2|w1)P(w1)
Giả thiết này quá mạnh: chủ ngữ có thể quyết định bổ ngữ trong Nhược điểm:
câu • Kích thước tập ngữ pháp tăng
Clinton admires honesty z Các bài báo của tạp chí Wall Street Journal trong 1 năm:
¾ sử dụng cấu trúc ngữ pháp để dừng việc lan truyền 47,219 câu, độ dài trung bình 23 từ, gán nhãn bằng tay: chỉ
z Xét Fred watered his mother’s small garden. Từ garden có có 4.7% hay 2,232 câu có cùng cấu trúc ngữ pháp
ảnh hưởng như thế nào?
¾ Không thể dựa trên việc tìm các cấu trúc cú pháp đúng cho
z Pr(garden|mother’s small) thấp ⇒ mô hình trigram không tốt
cả câu. Phải xây dựng tập các mẫu ngữ pháp nhỏ
z Pr(garden | X là thành phần chính của bổ ngữ cho động từ to
water) cao hơn
¾ sử dụng bigram + quan hệ ngữ pháp 3 4
Ví dụ Luật 3 Luật
S
1. NP→DT NN NN
VP 2. NP→DT JJ NN
3. S→NP VBX JJ CC VBX NP
z Nhóm (NNS, NN) thành NX; (NNP, NNPs)=NPX;
VP VP (VBP, VBZ, VBD)
VBD)=VBX;
VBX;
Luật 1 VP ADJ z Chọn các luật theo tần suất của nó
Luật 2
NP NP
DT NN NN VBX JJ CC VBX DT JJ NN
This apple pie looks good and is a real treat
5 6
CuuDuongThanCong.com https://fb.com/tailieudientucntt
S → NP VP; 0.35
Tính Pr NP → DT JJ NN; 0.1532
Tính xác suất VP → VBX NP; 0.302
1 S
X NP 2 NP VP 3
Pr(X →Y)
DT JJ NN VBX NP 4
1470 The big guy ate
DT JJ NN
Y DT JJ NN the apple pie
= = 0.1532
NP Luật áp dụng Chuỗi Pr
9711 1 S →NP VP 0.35
2 NP → DT JJ NN 0.1532 x 0.35 = 0.0536
3 VP → VBX NP 0.302 x 0.0536= 0.0162
4 NP → DT JJ NN 0.1532 x 0.0162=0.0025
Pr = 0.0025
7 8
Văn phạm phi ngữ cảnh xác suất Các giả thiết
z Độc lập vị trí: Xác suất 1 cây con không phụ thuộc vào vị trí
z 1 văn phạm phi ngữ cảnh xác suất (Probabilistic Context
Free Grammar) gồm các phần thông thường của CFG của các từ của cây con đó ở trong câu
z Tập ký hiệu kết thúc {wk}, k = 1, . . . ,V ∀k, P(Njk(k+c) →ζ) là giống nhau
z Tập ký hiệu không kết thúc {Ni}, i = 1, . . . ,n
z Ký hiệu khởi đầu N1 z Độc
ộ lập
ập ngữ
g cảnh: Xác suất 1 câyy con không
gpphụ
ụ thuộc
ộ vào
z Tập luật {Ni → ζj}, ζj là chuỗi các ký hiệu kết thúc và không các từ ngoài cây con đó
kết thúc P(Njkl→ζ| các từ ngoài khoảng k đến l) = P(Njkl→ζ)
z Tập các xác suất của 1 luật là:
∀i ∑j P(Ni → ζj) = 1 z Độc lập tổ tiên: Xác suất 1 cây con không phụ thuộc vào
z Xác suất của 1 cây cú pháp: các nút ngoài cay con đó
P(T) = Πi=1..n p(r(i))
P(Njkl→ζ| các nút ngoài cây con Njkl ) = P(Njkl→ζ)
9 10
CKY kết hợp xác suất

Các thuật toán
z Cấu trúc dữ liệu:
z CKY z Mảng lập trình động π[i,j,a] lưu xác suất lớn nhất
của ký hiệu không kết thúc a triển khai thành chuỗi
z Beam search
i…j.
z Agenda/chart based search
Agenda/chart-based z Backptrs lưu liên kết
ế đến
ế các thành phần ầ trên cây
z … z Ra: Xác suất lớn nhất của cây
11 12
Tính Pr dựa trên suy diễn
z Trường hợp cơ bản: chỉ có 1 từ đầu vào
Pr(tree) = pr(A→ wi)
z Trường hợp đệ qui: Đầu vào là xâu các từ
A⇒w* ij if ∃k: A→ ΒC, B ⇒w
* ik ,C ⇒w* kj ,i≤k ≤j.
p[i,j] = max(p(A→ ΒC) x p[i,k] x p[k,j]).
A
B C
i k j
13 14
wij
TÍnh xác suất Viterbi (thuật toán

CKY) Ví dụ
z S Æ NP VP 0.80 z Det Æ the 0.50
z NP Æ Det N 0.30 z Det Æ a 0.40
z VP Æ V NP 0.20 z N Æ meal 0.01
z V Æ includes 0 05
0.05 z N Æ flight 0 02
0.02
0.0504 Dùng thuật toán CYK phân tích câu vào:

“The flight includes a meal”
15
Tính Pr Xác suất Forward và Backward

1. S → NP VP 1.0
VP 1 t-1… t …T
2. VP → V NP PP 0.4 S 0.6 The big brown fox
3. VP → V NP 0.6 NP
1.0
4. NP → N 0.7 VP NP
0.3 Xt • Forward= xác suất các phần
5. NP → N PP 0.3 0.4 PP The N’
tử trên và bao gồm 1 nút cụ
6. PP → PREP N 1.0 NP NP PP V N
N’’
N
07
0.7 07
0.7 1.0 big thể nào đó
7. N → a_dog 0.3 1.0 ai(t)
PREP N brown N
8. N → a_cat 0.5 Forward
N V N PREP N i • Backward= xác suất các
9. N → a_telescop 0.2 0.3 1.0 0.5 1.0 0.2 Probability = fox
ai(t)=P(w1(t-1), Xt=i) bi(t) phần tử dưới 1 nút cụ thể
10. V → saw 1.0
nào đó
11. PREP → with 1.0 Backward
a_dog saw a_cat with a_telescope
Probability =
Pl = 1×.7×.4×.3×.7×1×.5×1×1×.2 = .00588 bi(t)=P(wtT |Xt=i)
Pr = 1×.7×.6×.3×.3×1×.5×1×1×.2 = .00378
¾ Pl is chosen 17 18
Xác suất trong và ngoài Xác suất trong và ngoài
N1= Start
N1= Start
Outside αj(p,q)
α Outside αj(p,q)
Nj α
Inside βj(p,q) Nj
Inside βj(p,q)
β
w1 wp-1 wp wq wq+1 wm β
w1 wp-1 wp wq wq+1 wm
z Npq = ký hiệu không kết thúc Nj trải từ vị trí p đến q trong
xâu αj(p,q)=P(w1(p-1) , Npqj,w(q+1)m|G)
z αj = xác suất ngoài (outside) βj(p,q)=P(wpq|Npqj, G)
z βj = xác suất trong (inside)
αj(p,q) βj(p,q) = P(N1⇒∗ w1m , Nj ⇒∗ wpq | G)
z Nj phủ các từ wp … wq, nếu Nj ⇒∗ wp … wq 19 = P(N1⇒∗ w1m |G)• P(Nj ⇒∗ wpq | N1⇒∗ w1m, G) 20
Tính xác suất của xâu Suy diễn
Tính βj(p,q) với p < q – tính trên tất cả các điểm j –

z Sử dụng thuật toán Inside, 1 thuật toán lập trình động dựa
trên xác suất inside thực hiện từ dưới lên
P(w1m|G) = P(N1 ⇒* w1m|G) = P(w1m|N1m1, G) = β1(1,m)
Nj
P(Nj → NrNs)
z Trường hợp cơ bản: Ns
Nr
βj(k,k) = P(wk|Nkkj, G)=P(Nj → wk|G)
z Suy diễn: wq -nhân 3 thành phần, tính
wp wdwd+1
βj(p,q) = Σr,sΣd∈(p,q-1) P(Nj → NrNs) βr(p,d) βs(d+1,q) tổng theo j, r,s.
βr(p,d) x βs(d+1,q)
21 22
Ví dụ Tìm kiếm kiểu chùm

VP z Tìm kiếm trong không gian trạng thái
1. S → NP VP 1.0 S 0.6 z Mỗi trạng thái là một cây cú pháp con với 1 xác suất
2. VP → V NP PP 0.4
1.0 NP nhất định
3. VP → V NP 0.6
VP 0.3 z Tại mỗi thời điểm, chỉ giữ các thành phần có điểm cao nhất
4. NP → N 0.7 PP
0.4
5. NP → N PP 0.3 NP NP PP V N
6. PP → PREP N 1.0 0.7 0.7 1.0
1.0
7. N → a_dog 0.3 PREP N
8. N → a_cat 0.5 N V N PREP N
0.3 1.0 0.5 1.0 0.2
9. N → a_telescope 0.2
10. V → saw 1.0
11. PREP → with 1.0 P(a_dog saw a_cat with a_telescope) =
1×.7×.4×.3×.7×1×.5×1×1×.2 + ... ×.6... ×.3... = .00588 + .00378 = .00966

23 24
Làm giàu PCFG Làm giàu PCFG
z PCFG từ vựng hóa : PLCFG (Probabilistic
z PCFG đơn giản hoạt động không tốt do các Lexicalized CFG, Collins 1997; Charniak
giả thiết độc lập 1997)
z Giải quyết: Đưa thêm thông tin z Gán từ vựng với các nút của luật
z Phụ th
Ph thuộc
ộ cấu
ấ ttrúc
ú z Cấu trúc Head
z Việc triển khai 1 nút phụ thuộc vào vị trí của nó z Mỗi phần tử của parsed tree được gắn liền với
trên cây ( độc lập với nội dung về từ vựng của nó) một lexical head
z Để xác định head của một nút trong ta phải xác
z Ví dụ: bổ sung thông tin cho 1 nút bằng cách lưu
định trong các nút con, nút nào là head (xác định
giữ thông tin về cha của nó: SNP khác với VPNP head trong vế phải của một luật).
25 26
Làm giàu PLCFG Tại sao dùng PLCFG

VP(dumped) → VBD(dumped) NP(sacks) PP(into) 3*10-10
VP(dumped) → VBD(dumped) NP(cats) PP(into) 8*10-11 z Tính ngoại lệ (exception) của ngôn ngữ
z Sự phân loại theo cú pháp hiện tại chưa thể
hiện hết đặc tính hoạt động của từng từ
vựng.
vựng
z Từ vựng hóa luật CFG giúp bộ phân tích cú
pháp thực hiện chính xác hơn
27
Hạn chế của PLCFG Penn Treebank

VP -> VBD NP PP z Penn Treebank: tập ngữ liệu có chú giải ngữ
VP(dumped) -> VBD(dumped) NP(sacks) pháp, có 1 triệu từ, là nguồn ngữ liệu quan
PP(into) trọng
z Tính thưa:
z Không có một corpus đủ lớn! z có 965,000 mẫu, nhưng chỉ có 66 mẫu WHADJP,
trong đó chỉ có 6 mẫu không là how much hoặc
z Thể hiện hết các trường hợp cú pháp, hết các how many
trường hợp đối với từng từ. z Phần lớn các phép xử lý thông minh phụ thuộc
vào các thống kê mối quan hệ từ vựng giữa 2
từ liền nhau:
30
A Penn Treebank tree Đánh giá độ chính xác của PTCP
z Độ chính xác của parser được đo qua việc tính xem có bao
nhiêu thành phần ngữ pháp trong cây giống với cây chuẩn, gọi là
gold-standard reference parses.
z Độ chính xác (Precision) =
% trường hợp hệ gán đúng
tổng số trường hợp hệ gán
(%THợp hệ tính đúng).
z Độ phủ (Recall) =
% số trường hợp hệ gán đúng
tổng số trường hợp đúng
(%THợp hệ tính đúng so với con người).
31 32
Biểu diễn cây theo các thành phần

Đánh giá
ngữ pháp
Ví dụ 2 Độ chính xác của các hệ thống

PTCP
35 36

Xu-Ly-Ngon-Ngu-Tu-Nhien - Le-Thanh-Huong - 4 - Probabilistic-Parse - Phan-Tich-Cu-Phap-Xac-Suat - (Cuuduongthancong - Com)

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Xu-Ly-Ngon-Ngu-Tu-Nhien - Le-Thanh-Huong - 4 - Probabilistic-Parse - Phan-Tich-Cu-Phap-Xac-Suat - (Cuuduongthancong - Com)

Uploaded by

Copyright:

Available Formats

Làm cách nào chọn cây đúng?

Phân tích cú pháp xác z Ví dụ:

Kết hợp từ (bigrams pr) Kết hợp từ (bigrams pr)

CKY kết hợp xác suất

TÍnh xác suất Viterbi (thuật toán

0.0504 Dùng thuật toán CYK phân tích câu vào:

Tính Pr Xác suất Forward và Backward

Tính xác suất của xâu Suy diễn

Tính βj(p,q) với p < q – tính trên tất cả các điểm j –

Ví dụ Tìm kiếm kiểu chùm

1×.7×.4×.3×.7×1×.5×1×1×.2 + ... ×.6... ×.3... = .00588 + .00378 = .00966

Làm giàu PLCFG Tại sao dùng PLCFG

Hạn chế của PLCFG Penn Treebank

Biểu diễn cây theo các thành phần

Ví dụ 2 Độ chính xác của các hệ thống

You might also like