You are on page 1of 7

Từ đồng âm

Nghĩa từ vựng và phân z Từ đồng âm (Homonymy): là những từ trùng


nhau về hình thức ngữ âm nhưng khác nhau về
giải nhập nhằng từ nghĩa
z Từ đồng âm, đồng tự (Homograph) : các từ với cùng
cách viết nhưng có nghĩa khác nhau. Ví dụ:
Lê Thanh Hương g
z dove
d - dive
di iinto water, white
hi bibird
d
Bộ môn Hệ thống Thông tin
z saw
Viện CNTT &TT – Trường ĐHBKHN z Từ đồng âm, không đồng tự (Homophone): các từ có
Email: huonglt-fit@mail.hut.edu.vn cách viết khác nhau nhưng có cùng âm. Ví dụ:
z see, sea; meat, meet

1 2

Phân loại từ đồng âm tiếng Việt Từ đa nghĩa, đồng nghĩa


z Đồng âm từ với từ, gồm: z Từ đa nghĩa (Polysemy): một từ nhiều nghĩa,
z Đồng âm từ vựng: Tất cả các từ đều thuộc cùng một từ loại. Ví dụ: biểu thị những đặc điểm, thuộc tính khác nhau
z đường1 (đắp đường) - đường2 (đường phèn). của một đối tượng, hoặc biểu thị những đối
z đường kính1 (đường để ăn) - đường kính2 (…của đường tròn). tượng khác nhau của thực tại. Ví dụ
z cất1 (cất vó) - cất2 (cất tiền vào tủ) - cất3 (cất hàng) - cất4 (cất rượu) z đi chỉ việc dịch chuyển bằng hai chi dưới hoặc chỉ
z Đồng
ồ âm từ vựng-ngữ pháp: Các từ trong nhóm đồng ồ âm với nhau chỉ một
ột ngườiời nào
à đó đã chết
hết
khác nhau về từ loại. Ví dụ:
z chỉ1 (cuộn chỉ) - chỉ2 (chỉ tay năm ngón) - chỉ3 (chỉ còn có dăm đồng).
z Đồng nghĩa (Synonymy): là những từ tương
z câu1 (nói vài câu) - câu2 (rau câu) - câu3 (chim câu) - câu4 (câu cá)
đồng với nhau về nghĩa, khác nhau về âm
z Đồng âm từ với tiếng: các đơn vị khác nhau về cấp độ; kích thanh. Ví dụ
thước ngữ âm của chúng đều không vượt quá một tiếng. Ví dụ: z cố, gắng
z Con trai Văn Cốc lên dốc bắn cò, đứng lăm le cười khanh khách. Con gái
Bát Chàng bán hàng thịt ếch ngồi châu chẫu nói ương ương.
z car, automobile
3 4

Ràng buộc về lựa chọn: Mã hóa


Nghĩa từ vựng ngữ nghĩa trong văn phạm
z Ngữ nghĩa nghiên cứu ý nghĩa của các phát biểu dạng z Vị từ biểu diễn các ràng buộc qua tham số
ngôn ngữ z read (human subject, textual object)
z Nghĩa từ vựng (Lexical semantics) nghiên cứu: z eat (animate subject)
z (quan hệ từ vựng) sự liên hệ về mặt ngữ nghĩa giữa các từ
z kill (animate object)
z (ràng buộc về lựa chọn) cấu trúc liên hệ ngữ nghĩa bên
trong của từng từ z Sử dụng vị từ để phân giải nhập nhằng
z bao gồm lý thuyết về phân loại và phân rã nghĩa của từ, sự z Ví dụ "dish":
giống và khác trong cấu trúc từ vựng – ngữ nghĩa giữa các
ngôn ngữ, và quan hệ nghĩa của từ với cú pháp và ngữ z cái đĩa để ăn
nghĩa của câu. z món ăn
z phương tiện liên lạc
5 6

1
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Ví dụ về từ “dish” Ràng buộc lựa chọn
z Not unexpectedly, wives, whether working or non- z VPPNC có thể đưa vào các ràng buộc lựa chọn
working, did by far the most - about 80% of the shopping, z tạo ontology (ví dụ, người, động vật)
laundry and cooking, and about two-thirds of
z ràng buộc về luật
housecleaning, washing dishes, child care, and family
paper
p p work. z vd. VP → VgiếtNPđộng vật
z In her tiny kitchen at home, Ms. Chen works efficiently, z ràng buộc về dịch nghĩa
stir-frying several simple dishes, including braised pig's z vd. ăn([sinh vật sống], [thức ăn])
ears and chicken livers with green peppers. z Nhược điểm: Cách viết này không tổng quát
z Installation of satellite dishes, TVs and videocassette z không đủ thông tin
equipment will cost the company about $20,000 per z không sử dụng được với các trường hợp không liệt kê
school, Mr Whittle said. trong văn phạm
7 8

Khai thác quan hệ từ vựng Khai thác quan hệ từ vựng


z Từ điển đồng nghĩa:
Xác định quan hệ từ vựng giữa các từ trong z gồm từ đồng nghĩa (Synonyms) và trái nghĩa
đoạn sau (Antonyms)
Tôi y
yêu động
ộ g vật
ậ nuôi trongg nhà. Tôi đặc
ặ biệt
ệ z Wordnet:
thích mèo vì chúng là loài động vật rất độc z Từ đồng nghĩa và trái nghĩa
lập. Ngược lại, chó thì khá lắm nhu cầu. Ví z Từ lớp cha và từ lớp con
dụ, bạn phải dắt chúng đi dạo hàng ngày. z …

9 10

Nhập nhằng và các ràng buộc


lựa chọn
z Nhập nhằng: z Vấn đề:
z Các vị từ khác nhau ứng với các nghĩa khác nhau
z Đôi khi ràng buộc lựa chọn không đủ chặt (khi 1 từ
z wash the dishes (theme : washable-thing)
có nhiều nghĩa)
z Tham số cũng có thể giải quyết nhập nhằng cho vị từ
serve vegetarian dishes (theme : food-type) z Đôi khi ràng buộc quá chặt – khi vị từ sử dụng
phép
p p ẩn dụ.
ụ Vd,, I’ll eat myy hat!
z Phân tích ngữ nghĩa:
nghĩa
z Luật có gắn thông tin ngữ nghĩa được sử dụng với các câu đã
được phân tích cú pháp
“I wanna eat somewhere close to CSSE”
Ngoại động từ: VÆ eat <theme> {theme:food-type} (VP --> V
NP)
Nội động từ: VÆ eat <no-theme> (VP --> V)
z Xung đột ràng buộc lựa chọn: loại trừ cú pháp

11 12

2
CuuDuongThanCong.com https://fb.com/tailieudientucntt
WordNet: Giới thiệu WordNet: Giới thiệu

CSDL từ vựng CSDL từ vựng


z Lấy ý tưởng từ lý thuyết về tâm lý ngôn ngữ về khả năng z Wordnet cho các ngôn ngữ khác
nhớ từ vựng của con người [www.globalwordnet.org]
z Xâ d
Xây dựng một
ột mạng khổ
khổng lồ các
á từ vựng và à quan hệ từ z Có wordnet cho các ngôn ngữ: Tây Ban Nha, Tiệp, Hà
vựng Lan, Pháp, Đức, Ý, Bồ Đào Nha, Thụy Điển, Basque,
z Wordnet tiếng Anh Estonian
z 4 lớp: danh từ, động từ, tính từ, trạng từ z Wordnets đang được làm cho các tiếng: Bulgary, Đan
z Danh từ: 120,000; Động từ: 22,000; Tính từ: 30,000; mạch, Hy lạp, Hebrew, Hindi, Cannada, Latvian,
Trạng từ: 6,000 Moldavy, Romany, Nga, Slovenian, Tamil, Thái lan, Thổ
Nhĩ Kỳ, Ireland, Nauy, Ba tư, Iran

13 14

Tập từ đồng nghĩa


Các quan hệ khác trong WordNet
Synonym Sets - Synsets •Các từ nối theo chiều dọc biểu diễn quan hệ rộng (holonymy) -
hẹp (hypernymy), theo chiều ngang biểu diễn quan hệ bộ phận
meronymy (part_of) và holonymy (has_part) .
z Từ có nhập nhằng
•Mỗi nghĩa của từ được biểu diễn bằng 1 số synset
z Các nút trong Wordnet biểu diễn tập từ đồng
nghĩa “synonym sets”, hoặc synsets. Ví dụ:
z Fool: 1 người dễ bị lợi dụng
z {chump, fish, fool, gull, mark, patsy, fall guy, sucker,
schlemiel, shlemiel, soft touch, mug}
z Synset = tập khái niệm

15 16
http://wordnet.princeton.edu/

Phân giải nhập nhằng sử dụng


quan hệ từ vựng
Supplement Vitamin_Pill

Publication Dietary
Pill

Nutriment
Textual
Matter Nutriment Medicine
SENSE OF WORD
KIND-OF (HYPONYMY)
HAS-PART (HOLONYMY) WordNet Similarity Metrics:
PART-OF (MERONYMY)
http://marimba.d.umn.edu/cgi-bin/similarity/similarity.cgi
17 18

3
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Đo quan hệ từ vựng Cặp từ nào gần nhau hơn?
z Đếm số cạnh/đỉnh trên đồ thị: z cá heo và cá?
z khoảng cách giữa 2 từ tỉ lệ nghịch với quan hệ ngữ nghĩa z cá và cá hồi?
giữa chúng
z Nếu giữa 2 từ có nhiều đường đi, chọn đường ngắn nhất

WordNet Similarity Metrics:


http://marimba.d.umn.edu/cgi-bin/similarity/similarity.cgi

số cạnh = 3
số nút = 4
19 20

21 22

Phân giải nhập nhằng và đếm cạnh Phân giải nhập nhằng và đếm cạnh
z whale#n#1 vertebrate

z 1 người rất lớn (về kích thước hoặc phẩm chất) aquatic
mammal
vertebrate
z fish#n#3 placental
fish
z (thiên văn học) người được sinh khi mặt trời ở vì
aquatic
sao Pisces animal
person

cetacean
tall/large person
Pisces (fish)

whale
Giant (whale) Path Length = 4 Path length = 8

23 24

4
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Nhược điểm của WordNet trong tính
quan hệ ngữ nghĩa Cách tiếp cận dựa trên từ điển
z Độ đo quan hệ ngữ nghĩa WordNet dựa trên các giả
z Các từ điển điện tử (Lesk ‘86)
thiết sau:
z Cho biết ý nghĩa của các từ trong ngữ cảnh cụ thể nội
z Mọi cạnh trong đồ thị có độ dài bằng nhau dung (vd., I’ve often caught bass while out at sea)
z Các nhánh trong
g đồ thị có cùng
g độ đậm đặc z So sánh sự chồng g chéo của các định nghĩa
g về nghĩa
g
z Tồn tại tất cả các quan hệ ngoại động từ
của từ (bass2: a type of fish that lives in the sea)
z Chọn nghĩa trùng nhau nhiều nhất
z Hạn chế: đường dẫn đến từ ngắn Æ mở rộng
¾ không đáng tin cậy cho các từ liên quan

25 26

Các đặc trưng sử dụng trong


Cách tiếp cận học máy WSD
z Học việc phân loại để gán từ với một trong các z Các thẻ POS của từ và các từ lân cận
nghĩa của nó z Các từ lân cận (có thể lấy gốc từ hoặc không)
z Tích lũy tri thức từ tập ngữ liệu có hoặc không gán nhãn z Dấu chấm, viết hoa, định dạng
z Con người chỉ can thiệp vào tập ngữ liệu gán nhãn và lựa z PTCP bộ ộ phận
p ậ để xác địnhị vai trò ngữ
g pháp
p p và q
quan
chọn tập đặc trưng sử ử dụng trong việc huấn
ấ luyện
hệ giữa chúng
z Vào: vectơ đặc trưng z Các thông tin về đồng xuất hiện:
z đích (từ cần phân giải nhập nhằng) z Từ và các từ lân cận của nó có thường đồng xuất hiện không
z nội dung (các đặc trưng có thể dùng để tiên đoán nghĩa z Đồng xuất hiện của các từ láng giềng
đúng)
z Ví dụ: sea có thường xuyên xuất hiện với bass không
z Ra: các luật phân loại cho văn bản mới

27 28

Các kiểu phân loại


Ví dụ
z Naïve Bayes: Nghĩa tốt nhất là nghĩa có khả năng xảy ra
Tôi ăn cơm với cá. nhất với 1 đầu vào cho trước
z DT ĐgT DT GT DT arg max p(V |s) p(s)
z ŝ= p(s|V), hoặc arg max
z (C (CN (ĐaT Tôi)) (VN (ĐgN (ĐgN (ĐgT ăn) (DT cơm)) (GN (GT s∈S s∈S p(V )
với) (DT cá)))))
z trong đó s là 1 trong các nghĩa và V là vector đầu vào của các
ẹ thôi.
Em bé chỉ thích ăn kẹo
đặc trưng
z DT TT TT ĐgT DT PT
z Chỉ có ít dữ liệu có thông tin vector kết hợp với nghĩa
z (C (CN (DT Em bé)) (VN (TN (TN (TT chỉ) (TN (TT thích) (ĐgN (ĐgT
z Giả sử các đặc trưng là độc lập, p(V|s) là tích xác suất của các
ăn) (DT kẹo)))) (PT thôi))))
đặc trưng n
Nó ăn nhiều hoa hồng quá. p(V | s) = ∏ p(v j | s)
z ĐaT ĐgT TT DT TT j =1
z (C (CN (ĐaT Nó)) (VN (ĐgN (ĐgN (ĐgT ăn) (TT nhiều) (DT hoa
z p(V) là giống nhau với mọi ŝ (không ảnh hưởng đến xếp hạng
hồng)) (TT quá))))
cuối cùng)
z Tôi tên là Hoa.
29 30

5
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Các kiểu phân loại WSD và IR
z Naïve Bayes: : Nghĩa tốt nhất là nghĩa có khả z IR (Information Retrieval) : tìm kiếm thông tin
năng xảy ra nhất với 1 đầu vào cho trước z Motivation
z Khi đó z Đồng âm = Bank (ngân hàng, sông)
n z Đa nghĩa = Bat ((câu lạc bộ chơi cricket), (cây vợt nhỏ có tay
sˆ = arg max p(s) ∏ p(v j | s) cầm dài để chơi bóng ))
s∈S j =1 z Đồng nghĩa = doctor, doc, physician, MD, medico
z Những vấn đề trên ảnh hưởng đến IR như thế nào?
z P(s) là xác suất tiền nghiệm của mỗi nghĩa = xác z Đồng âm và đa nghĩa có xu hướng giảm độ chính xác
suất của mỗi nghĩa trong tập dữ liệu gán nhãn z Đồng nghĩa: giảm độ phủ
z P(v,s) = đếm số lần xuất hiện của bass đi với sea

31 32

2 ứng dụng của WSD trong IR 2 ứng dụng của WSD trong IR
z Tìm kiếm dựa trên câu truy vấn (Voorhees, 1998): z Mở rộng query
z Sử dụng WSD để mở rộng câu truy vấn: phân giải nhập nhằng câu z Không khả quan
query và bổ sung vào các từ có nghĩa rộng hơn.
z Nhưng, phân giải nhập nhằng và mở rộng truy vấn thủ
z Sử dụng WSD để đánh chỉ số khái niệm: phân giải nhập nhằng tập tài
liệu và xây dựng chỉ số cho tập synset thay vì cho tập từ gốc công đem lại kết quả tốt
z Mô hình không gian vector: tìm độ tương đồng cosin giữa câu truy vấn z Ví dụ:
và mỗi
ỗ vector tài liệu
z furniture: table, chair, board, refectory(specialisations)
z Đánh chỉ số khái niệm
z Trong các thí nghiệm, vector dựa trên nghĩa thực hiện kém hơn vector z “Chỉ có một vài từ vựng liên quan là có ích trong việc
dựa trên từ gốc mở rộng câu truy vấn, vì đường dẫn lớp cha giữa các
z Lý do: lỗi phân giải nhập nhằng từ trong WordNet không phải lúc nào cũng đem lại 1
z trong thu thập văn bản, và
mở rộng truy vấn 1 cách hữu ích
z các câu query ngắn do thiếu nội dung

33 34

Độ chính xác của WSD và IR Độ chính xác của WSD và IR


z Tập dữ liệu đánh giá WSD: SensEval và SemCor z Tại sao đa nghĩa/đồng âm không phải vấn đề lớn như ta
z Cách khác để tạo ra dữ liệu gán nhãn: Pseudowords nghĩ:
z Lấy 2 từ (ngẫu nhiên) có cùng từ loại, và thay thế cả 2 bằng 1 từ z Tác động của sự đồng xuất hiện từ truy vấn: các từ trong
nhân tạo. Ví dụ, 'door' và 'banana' có thể thay thế trong tập ngữ câu truy vấn tự nó đã phân giải nhập nhằng
liệu bằng từ 'donana'
donana . z S phân
Sự hâ bố ngữ ữ nghĩa:
hĩ áp
á d
dụng choh các
á miền
iề ứng
ứ dụng
d
z Độ chính xác của WSD: xác định được mỗi trường hợp của cụ thể
donana cụ thể là 'door‘ hay 'banana'. (Yarowsky, 1993)
z (Sanderson, 1997) công bố: thêm nhập nhằng vào các
query và kết quả ít có ảnh hưởng đến độ chính xác của
việc tìm kiếm so với ảnh hưởng của lỗi phân giải nhập
nhằng trong tập kết quả
z chỉ có lỗi phân giải nhập nhằng mức thấp ( < 10%) mới tốt hơn
phiên bản IR đơn giản dựa trên từ gốc. 35 36

6
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Độ chính xác của WSD và IR
z Từ đồng nghĩa có ảnh hưởng lớn hơn:
z Gonzalo et al. (1998; 1999): sử dụng SemCor (tập ngữ liệu
Brown với các thẻ nghĩa của WordNet) cho thấy nếu phân
giải nhập nhằng có độ cx = 100%
z Đánh chỉ số nghĩa (vd synset number) có độ cx IR = 62%
z Đánh chỉ số nghĩa của từ (vd canine1) có độ cx IR = 53.2%
z Đánh chỉ số từ gốc có độ cx IR = 48%
z Gonzalo et al. cho thấy độ cx tối thiểu 90% với WSD cho
IR là quá cao. Gần 60% từ giả không hoạt động giông như
từ có nhập nhằng thật.

37

7
CuuDuongThanCong.com https://fb.com/tailieudientucntt

You might also like