Professional Documents
Culture Documents
Xu-Ly-Ngon-Ngu-Tu-Nhien - Le-Thanh-Huong - 5.semantics - Phan-Tich-Ngu-Nghia - 2 - (Cuuduongthancong - Com)
Xu-Ly-Ngon-Ngu-Tu-Nhien - Le-Thanh-Huong - 5.semantics - Phan-Tich-Ngu-Nghia - 2 - (Cuuduongthancong - Com)
1 2
1
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Ví dụ về từ “dish” Ràng buộc lựa chọn
z Not unexpectedly, wives, whether working or non- z VPPNC có thể đưa vào các ràng buộc lựa chọn
working, did by far the most - about 80% of the shopping, z tạo ontology (ví dụ, người, động vật)
laundry and cooking, and about two-thirds of
z ràng buộc về luật
housecleaning, washing dishes, child care, and family
paper
p p work. z vd. VP → VgiếtNPđộng vật
z In her tiny kitchen at home, Ms. Chen works efficiently, z ràng buộc về dịch nghĩa
stir-frying several simple dishes, including braised pig's z vd. ăn([sinh vật sống], [thức ăn])
ears and chicken livers with green peppers. z Nhược điểm: Cách viết này không tổng quát
z Installation of satellite dishes, TVs and videocassette z không đủ thông tin
equipment will cost the company about $20,000 per z không sử dụng được với các trường hợp không liệt kê
school, Mr Whittle said. trong văn phạm
7 8
9 10
11 12
2
CuuDuongThanCong.com https://fb.com/tailieudientucntt
WordNet: Giới thiệu WordNet: Giới thiệu
13 14
15 16
http://wordnet.princeton.edu/
Publication Dietary
Pill
Nutriment
Textual
Matter Nutriment Medicine
SENSE OF WORD
KIND-OF (HYPONYMY)
HAS-PART (HOLONYMY) WordNet Similarity Metrics:
PART-OF (MERONYMY)
http://marimba.d.umn.edu/cgi-bin/similarity/similarity.cgi
17 18
3
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Đo quan hệ từ vựng Cặp từ nào gần nhau hơn?
z Đếm số cạnh/đỉnh trên đồ thị: z cá heo và cá?
z khoảng cách giữa 2 từ tỉ lệ nghịch với quan hệ ngữ nghĩa z cá và cá hồi?
giữa chúng
z Nếu giữa 2 từ có nhiều đường đi, chọn đường ngắn nhất
số cạnh = 3
số nút = 4
19 20
21 22
Phân giải nhập nhằng và đếm cạnh Phân giải nhập nhằng và đếm cạnh
z whale#n#1 vertebrate
z 1 người rất lớn (về kích thước hoặc phẩm chất) aquatic
mammal
vertebrate
z fish#n#3 placental
fish
z (thiên văn học) người được sinh khi mặt trời ở vì
aquatic
sao Pisces animal
person
cetacean
tall/large person
Pisces (fish)
whale
Giant (whale) Path Length = 4 Path length = 8
23 24
4
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Nhược điểm của WordNet trong tính
quan hệ ngữ nghĩa Cách tiếp cận dựa trên từ điển
z Độ đo quan hệ ngữ nghĩa WordNet dựa trên các giả
z Các từ điển điện tử (Lesk ‘86)
thiết sau:
z Cho biết ý nghĩa của các từ trong ngữ cảnh cụ thể nội
z Mọi cạnh trong đồ thị có độ dài bằng nhau dung (vd., I’ve often caught bass while out at sea)
z Các nhánh trong
g đồ thị có cùng
g độ đậm đặc z So sánh sự chồng g chéo của các định nghĩa
g về nghĩa
g
z Tồn tại tất cả các quan hệ ngoại động từ
của từ (bass2: a type of fish that lives in the sea)
z Chọn nghĩa trùng nhau nhiều nhất
z Hạn chế: đường dẫn đến từ ngắn Æ mở rộng
¾ không đáng tin cậy cho các từ liên quan
25 26
27 28
5
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Các kiểu phân loại WSD và IR
z Naïve Bayes: : Nghĩa tốt nhất là nghĩa có khả z IR (Information Retrieval) : tìm kiếm thông tin
năng xảy ra nhất với 1 đầu vào cho trước z Motivation
z Khi đó z Đồng âm = Bank (ngân hàng, sông)
n z Đa nghĩa = Bat ((câu lạc bộ chơi cricket), (cây vợt nhỏ có tay
sˆ = arg max p(s) ∏ p(v j | s) cầm dài để chơi bóng ))
s∈S j =1 z Đồng nghĩa = doctor, doc, physician, MD, medico
z Những vấn đề trên ảnh hưởng đến IR như thế nào?
z P(s) là xác suất tiền nghiệm của mỗi nghĩa = xác z Đồng âm và đa nghĩa có xu hướng giảm độ chính xác
suất của mỗi nghĩa trong tập dữ liệu gán nhãn z Đồng nghĩa: giảm độ phủ
z P(v,s) = đếm số lần xuất hiện của bass đi với sea
31 32
2 ứng dụng của WSD trong IR 2 ứng dụng của WSD trong IR
z Tìm kiếm dựa trên câu truy vấn (Voorhees, 1998): z Mở rộng query
z Sử dụng WSD để mở rộng câu truy vấn: phân giải nhập nhằng câu z Không khả quan
query và bổ sung vào các từ có nghĩa rộng hơn.
z Nhưng, phân giải nhập nhằng và mở rộng truy vấn thủ
z Sử dụng WSD để đánh chỉ số khái niệm: phân giải nhập nhằng tập tài
liệu và xây dựng chỉ số cho tập synset thay vì cho tập từ gốc công đem lại kết quả tốt
z Mô hình không gian vector: tìm độ tương đồng cosin giữa câu truy vấn z Ví dụ:
và mỗi
ỗ vector tài liệu
z furniture: table, chair, board, refectory(specialisations)
z Đánh chỉ số khái niệm
z Trong các thí nghiệm, vector dựa trên nghĩa thực hiện kém hơn vector z “Chỉ có một vài từ vựng liên quan là có ích trong việc
dựa trên từ gốc mở rộng câu truy vấn, vì đường dẫn lớp cha giữa các
z Lý do: lỗi phân giải nhập nhằng từ trong WordNet không phải lúc nào cũng đem lại 1
z trong thu thập văn bản, và
mở rộng truy vấn 1 cách hữu ích
z các câu query ngắn do thiếu nội dung
33 34
6
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Độ chính xác của WSD và IR
z Từ đồng nghĩa có ảnh hưởng lớn hơn:
z Gonzalo et al. (1998; 1999): sử dụng SemCor (tập ngữ liệu
Brown với các thẻ nghĩa của WordNet) cho thấy nếu phân
giải nhập nhằng có độ cx = 100%
z Đánh chỉ số nghĩa (vd synset number) có độ cx IR = 62%
z Đánh chỉ số nghĩa của từ (vd canine1) có độ cx IR = 53.2%
z Đánh chỉ số từ gốc có độ cx IR = 48%
z Gonzalo et al. cho thấy độ cx tối thiểu 90% với WSD cho
IR là quá cao. Gần 60% từ giả không hoạt động giông như
từ có nhập nhằng thật.
37
7
CuuDuongThanCong.com https://fb.com/tailieudientucntt