Professional Documents
Culture Documents
Xu-Ly-Ngon-Ngu-Tu-Nhien - Le-Thanh-Huong - 3.pos - Gan-Nhan-Tu-Loai - (Cuuduongthancong - Com)
Xu-Ly-Ngon-Ngu-Tu-Nhien - Le-Thanh-Huong - 3.pos - Gan-Nhan-Tu-Loai - (Cuuduongthancong - Com)
Gán nhãn từ loại z Gán nhãn từ loại (Part of Speech tagging - POS
tagging): mỗi từ trong câu được gán nhãn thẻ từ loại
tương ứng của nó
z Vào : 1 đoạn văn bản đã tách từ + tập nhãn
Lê Thanh Hương z Ra: cách gán nhãn chính xác nhất
Bộ môn Hệ thống Thông tin
Ví dụ 1
Viện CNTT &TT – Trường ĐHBKHN
Ví dụ 2
Email: huonglt-fit@mail.hut.edu.vn Ví dụ 3
Ví dụ 4
Ví dụ 5
¾ Gán nhãn làm cho việc phân tích văn bản dễ dàng hơn
1 2
z Dễ đánh giá (có bao nhiêu thẻ được gán nhãn đúng?) 3 4
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Penn Treebank – ví dụ
Khó khăn trong gán nhãn từ Các phương pháp gán nhãn từ
loại? loại
z Dựa trên xác suất: dựa trên xác suất lớn
nhất, dựa trên mô hình Markov ẩn (hidden
… là xử lý nhập nhằng markov model – HMM)
Pr (Det
(Det-N)
N) > Pr (Det-Det)
(Det Det)
Các cách tiếp cận Gán nhãn dựa trên xác suất
z Sử dụng HMM : “Sử dụng tất cả thông tin đã Cho câu hoặc 1 xâu các từ, gán nhãn từ loại
có và đoán” thường xảy ra nhất cho các từ trong xâu đó.
z Dựa
ự trên ràng g buộcộ ngữ
g p pháp:
p “không g Cách thực hiện:
đoán, chỉ loại trừ những khả năng sai” z Hidden Markov model (HMM):
Chọn thẻ từ loại làm tối đa xác suất:
z Dựa trên chuyển đổi: “Đoán trước, sau đó P(từ|từ loại)•P(từ loại| n từ loại phía trước)
có thể thay đổi”
The/DT grand/JJ jury/NN commented/VBD on/IN a/DT
number/NN of/IN other/JJ topics/NNS ./.
11 ⇒ P(jury|NN) = 1/2 12
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Ví dụ -HMMs Gán nhãn HMM
z Công thức Bigram HMM: chọn ti cho wi có nhiều
khả năng nhất khi biết ti-1 và wi :
ti = argmaxj P(tj | ti-1 , wi) (1)
z Giả thiết đơn giản hóa HMM: vấn đề gán nhãn
có thể giải quyết bằng cách dựa trên các từ và
thẻ từ loại bên cạnh nó
ti = argmaxj P(tj | tj-1 )P(wi | tj ) (2)
Thực hiện học có giám sát, sau đó suy diễn để xác
định thẻ từ loại xs chuỗi thẻ xs từ thường xuất hiện với thẻ tj
(các thẻ đồng xuất hiện)
13 14
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Mô hình đầy đủ
Mở rộng sử dụng luật chuỗi
z Chúng ta cần tìm chuỗi thẻ tốt nhất cho toàn xâu
z Cho xâu từ W, cần tính chuỗi từ loại có xác suất lớn P(A,B) = P(A|B)P(B) = P(B|A)P(A)
nhất
P(A,B,C) = P(B,C|A)P(A) = P(C|A,B)P(B|A)P(A)
T=t1, t2 ,…, tn hoặc,
= P(A)P(B|A)P(C|A,B)
P(A,B,C,D…) = P(A)P(B|A)P(C|A,B)P(D|A,B,C..)
Tˆ = arg max P(T | W )
T ∈τ (nguyên lý Bayes) n
P (T ) P(W | T ) = ∏ P ( wi | w1t1...wi −1ti −1ti ) P (ti |w1t1...wi −1ti −1 )
i =1 pr từ lịch sử nhãn
19 20
P(ti | ti −1ti −2 ) =
c(ti −2ti −1ti ) Tˆ = arg max P (T ) P (W | T )
c(ti −2ti −1 ) T ∈τ
23 24
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Ví dụ n n
PTìm t2 | t1 )∏ đi
(t1 ) P(đường i | ti − 2ti −1 )[∏ P ( wi | ti )]
P(tcó điểm cao
NNS NNS
nhất i =3 i =1
NNS
NNS 30 NNS
DT
75 1 NNS
VB VBP 30 60
DT
the dog saw ice-cream 1 52
1
VB VBP
Tìm đường đi tốt nhất?
the dog saw ice-cream
25 26
27 28
z Kết hợp cách tiếp cận dựa trên luật và cách tiếp
cận
ậ xác
á suất:
ất sửử dụng
d học
h máy á để chỉnh
hỉ h lại
l i thẻ
thông qua vài lần duyệt
29 30
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Transformation-based painting Transformation-based painting
31 32
33 34
35 36
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Ví dụ với TBL
Ví dụ với TBL
1. Gán mọi từ với nhãn thường xuất hiện nhất
(thường độ chính xác khoảng 90% ). Từ tập ngữ
liệu Brown:
P(NN|race)=
( | ) 0.98
P(VB|race)= 0.02
2. …expected/VBZ to/ TO race/VB
race/NN tomorrow/NN
…the/DT race/NN for/IN outer/JJ space/NN
3. Sử dụng luật chuyển đổi:
Thay NN bằng VB khi thẻ trước đó là TO
pos: ‘NN’>’VB’ ← pos: ‘TO’ @[-1] o
37 38
39 40
41 42
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Khuôn dạng cho luật gán nhãn Học luật TB trong hệ thống
từ loại TBL
z Trong TBL, chỉ các luật thỏa khuôn dạng mới được
học.
z Ví dụ: các luật
tag: VB NN ← tag:
tag:'VB'>'NN' tag:'DT'@[-1].
DT @[ 1].
tag:’NN’>’VB' ← tag:'DT'@[-1].
thỏa khuôn dạng
tag:A>B ← tag:C@[-1].
z Có thể tạo khuôn dạng sử dụng các biến vô danh
tag:_>_ ← tag:_@[-1].
43 44
z Độ chính xác:
45 46
z pos(R2) = 1
z neg(R2) = 0
z score(R2) = pos(R2) - neg(R2) = 1-0 = 1
47 48
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Tối ưu hóa việc chọn luật tốt
Chọn luật tốt nhất nhất
z Thứ hạng hiện tại của luật ứng viên
z Giảm dư thừa luật:chỉ sinh các luật ứng viên
R1 = tag:vb>nn ← tag:dt@[-1] Score = 2 phù hợp ít nhất với 1 dữ liệu trong tập luyện.
R2 = tag:nn>vb ← tag:vb@[-1] Score = 1
… z Đánh giá tăng cường:
z Nếu score threshold =< 2 thì chọn R1 z Lưu vết của các luật ứng viên tốt nhất
z ngược lại nếu score threshold > 2, dừng z Bỏ qua các luật phù hợp với số lượng mẫu <
score của luật tốt nhất
49 50
h(n) = giá ước lượng của đường đi rẻ nhất từ trạng z Luật dễ hiểu và logic
thái của nút n đến trạng thái đích
z Dễ cài đặt
z Có thể chạy rất nhanh (nhưng cài đặt thì phức
tạp)
51 52
Phân tích lỗi: khó khăn đối với Cách tốt nhất phát hiện các từ
bộ gán nhãn từ loại chưa biết
Các lỗi thông thường (> 4%) z Dựa trên 3 dạng đuôi biến tố (-ed, -s, -ing);
32 đuôi phái sinh (-ion, etc.); chữ hoa; gạch
z NN (common noun) vs .NNP (proper noun) vs. JJ
((adjective):
j ) khó pphân biệt, sự phân
p biệt nàyy là quan
q nối
trọng đặc biệt trong trích rút thông tin
z RP(particle) vs. RB(adverb) vs. IN(preposition):tất cả z Tổng quát hơn:
các loại này có thể xuất hiện tuần tự sau động từ z Phân tích hình thái từ
z VBD vs. VBN vs. JJ: phân biệt thời quá khứ, phân từ z Các cách tiếp cận học máy
2, tính từ (raced vs. was raced vs. the out raced
horse)
53 54
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Gán nhãn từ loại tiếng Việt
Các bước thực hiện
Câu tiếng Qua những lần từ Sài_Gòn về Quảng_Ngãi kiểm_tra
Việt đã tách công_việc , Sophie và Jane thường trò_chuyện với z Tách từ
từ Mai , cảm_nhận ngọn_lửa_sống và niềm_tin z Gán nhãn tiên nghiệm (gán mỗi từ với tất cả các nhãn từ loại mà
mãnh_liệt từ người phụ_nữ VN này . nó có thể có).
Câu tiếng Qua những lần từ Sài_Gòn về Quảng_Ngãi kiểm_tra z Với một từ mới, dùng một nhãn ngầm định hoặc gắn cho nó tập
Việt đã công việc , Sophie và Jane thường trò_chuyện
công_việc trò chuyện với g ngữ
tất cả các nhãn. Với ngôn g biến đổi hình thái Æ dựa
ự vào hình
thái từ
được gán Mai , cảm_nhận ngọn_lửa_sống và niềm_tin
nhãn từ loại mãnh_liệt từ người phụ_nữ VN này . z Quyết định kết quả gán nhãn (loại bỏ nhập nhằng)
z dựa vào quy tắc ngữ pháp
Chú thích
z dựa vào xác suất
từ loại
z sử dụng mạng nơ-ron
z các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc
ngữ pháp
55
z gán nhãn nhiều tầng 56
57 58
CuuDuongThanCong.com https://fb.com/tailieudientucntt
[Đinh Điền] Cách tiếp cận 2
z Ưu điểm: z [Nguyen Huyen, Vu Luong] Thi Minh Huyen Nguyen, Laurent
Romary, and Xuan Luong Vu, A Case Study in POS Tagging of
z tránh được việc gán nhãn từ loại bằng tay nhờ tận
Vietnamese Texts. The 10th annual conference TALN 2003.
dụng thông tin từ loại ở một ngôn ngữ khác.
z dựa trên nền tảng và tính chất ngôn ngữ của tiếng Việt.
z Nhược:
z xây dựng tập từ loại (tagset) cho tiếng Việt dựa trên
z Tiếng Anh và tiếng Việt khác nhau: về cấu tạo từ, trật
chuẩn mô tả khá tổng quát của các ngôn ngữ Tây Âu,
tự và chức năng ngữ pháp của từ trong câu Æ khó nhằm mô đun hóa tập nhãn ở hai mức:
khăn trong gióng hàng z mức cơ bản/cốt lõi (kernel layer): đặc tả chung nhất cho các
z Lỗi tích lũy qua hai giai đoạn: (a) gán nhãn từ loại cho ngôn ngữ
tiếng Anh và (b) gióng hàng giữa hai ngôn ngữ z mức tính chất riêng (private layer): mở rộng và chi tiết hóa cho
một ngôn ngữ cụ thể dựa trên tính chất của ngôn ngữ đó
z Tập nhãn được chuyển đổi trực tiếp từ tiếng Anh
sang tiếng Việt không điển hình cho từ loại tiếng Việt
61 62
CuuDuongThanCong.com https://fb.com/tailieudientucntt
[Phương] [Phương]
z Câu đã gán nhãn: z Câu từ tập ngữ liệu mẫu
<w pos="Nc"> hồi</w> <w pos="Vto"> lên </w> < w pos="Nn"> sáu <w pos="Nc"> hồi</w> <w pos="Vto"> lên </w> < w pos="Nn"> sáu
</w> <w pos=","> , </w> <w pos="Vs"> có </w> <w pos="Nu"> lần </w> <w pos=","> , </w> <w pos="Vs"> có </w> <w pos="Nu"> lần
</w> <w pos="Pp"> tôi </w> <w pos="Jt"> đã </w> <w pos="Vt"> </w> <w pos="Pp"> tôi </w> <w pos="Jt"> đã </w> <w pos="Vt">
nhìn </w> <w pos="Vt"> thấy </w> <w pos="Nn"> một </w> <w nhìn </w> <w pos="Vt"> thấy </w> <w pos="Nn"> một </w> <w
pos="Nt">
"Nt" bức
bứ </w>
/ <w pos="Nc">
"N " tranh
t h </w>
/ <w pos="Jd">
"Jd" tuyệt
t ệt pos="Nt">
"Nt" bức
bứ </w>/ <w pos="Nc">
"N " tranh
t h </w>
/ <w pos="Jd">
"Jd" tuyệt
t ệt
</w> <w pos="Aa"> đẹp </w> </w> <w pos="Aa"> đẹp </w>
Câu do chương trình gán nhãn
Nc - danh từ đơn thể, Vto - ngoại động từ chỉ hướng, Nn - danh từ số <w pos="Nc"> hồi</w> <w pos=“Adv"> lên </w> < w pos="Nn">
lượng, Vs - động từ tồn tại, Nu - danh từ đơn vị, Pp - đại từ nhân sáu </w> <w pos=","> , </w> <w pos="Vs"> có </w> <w pos="Nu">
xưng, Jt - phụ từ thời gian, Vt - ngoại động từ, Nt - danh từ loại thể, lần </w> <w pos="Pp"> tôi </w> <w pos=“JJ"> đã </w> <w
Jd - phụ từ chỉ mức độ, Aa - tính từ hàm chất. pos="Vt"> nhìn </w> <w pos="Vt"> thấy </w> <w pos="Nn"> một
</w> <w pos="Nt"> bức </w> <w pos="Nc"> tranh </w> <w
pos="Jd"> tuyệt </w> <w pos="Aa"> đẹp </w>
67 68
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Ngữ cảnh cho trích xuất đặc Ngữ cảnh cho trích xuất đặc
trưng trưng
73 74
CuuDuongThanCong.com https://fb.com/tailieudientucntt