Professional Documents
Culture Documents
Phần I:: Tổng Quan Về Bài Toán Tổng Quan Về Bài Toán Phân Lớp Văn Bản
Phần I:: Tổng Quan Về Bài Toán Tổng Quan Về Bài Toán Phân Lớp Văn Bản
PHẦN I:
Các phương pháp biểu diễn văn bản Các phương pháp biểu diễn văn bản
Mô hình tần số kết hợp TF x IDF
Mô hình vector
Xét:
Văn bản = 1 vector n chiều + trọng số cho mỗi giá trị của nó
Tập dữ liệu gồm m văn bản: D = {d1, d2,… dm}.
Mô hình vector thưa
Mỗi văn bản biểu diễn dưới dạng ạ g mộtộ vector ggồm n thuậtậ
sốố từ với
ới ttrọng số
ố khác
khá 0 nhỏ
hỏ hơn
h rất
ất nhiều
hiề so với
ới số
ố từ có
ó
ngữ T = {t1, t2,…tn}.
trong Cơ sở dữ liệu
fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj
m là số lượng văn bản
hi là số văn bản mà thuật ngữ ti xuất hiện
Gọi W = {wij } là ma trận trọng số, trong đó wij là giá trị
trọng số của thuật ngữ ti trong văn bản dj
Các phương pháp biểu diễn văn bản Các phương pháp biểu diễn văn bản (tt)
Mô hình Lexical Chain:
Ma trận trọng số TFxIDF được tính như sau: “Lexical Chain” là một khái niệm nhằm duy trì tính cố kết giữa
các từ trong văn bản có mối liên quan với nhau về mặt ngữ
nghĩa
g
⎧ ⎛m⎞ Một số loại quan hệ về ngữ nghĩa giữa các từ:
⎪[1 + log( f ij )] log⎜⎜ ⎟⎟ nÕu hij ≥ 1 Lặp lại (Repeatation)
wij = ⎨
1
CuuDuongThanCong.com https://fb.com/tailieudientucntt
4/21/2011
Thuật toán cây quyết định. Cây quyết định gồm các nút quyết định, các nhánh và lá :
Mỗi lá gắn với một nhãn lớp,
Thuật toán k-NN.
Mỗi nút quyết định mô tả một phép thử X nào đó,
Thuật toán Lexical Chain. Mỗi nhánh của nút nàyy tươngg ứng
g với một
ộ khả năng g của X.
Ý tưởng: Phân lớp một tài liệu dj bằng phép thử đệ quy các trọng số
mà các khái niệm được gán nhãn cho các nút trong của cây với vector
cho đến khi đạt tới một nút lá => nhãn của nút lá này được gán cho tài
liệu dj.
Ưu điểm: chuyển dễ dàng sang dạng cơ sở tri thức là các luật Nếu -
Thì .
Nhược điểm:
Cây thu được thưòng rất phức tạp, chỉ phù hợp với tập mẫu ban đầu.
Khi áp dụng cây với các dữ liệu mới sẽ gây ra sai số lớn.
Can thiệp vào bản chất ngôn ngữ của văn bản, thay vì mô
hình toán học thuần tuý
Khử nhập nhằng ngữ nghĩa của từ rất tốt.
Hiệu
Hiệ quả ả khi hệ thống
thố cầnầ “học
“h lại”
l i” TIẾP CẬN BÀI TOÁN PHÂN LỚP
Giúp thu gọn không gian bài toán VĂN BẢN TIẾNG VIỆT THEO HƯỚNG
Là hướng tiếp cận mới LEXICAL CHAIN
2
CuuDuongThanCong.com https://fb.com/tailieudientucntt
4/21/2011
Các tác động của đặc trưng ngôn Mô hình giải quyết bài toán
ngữ Tiếng Việt đến bài toán
Input Text
Categorized Text
Các yếu tố ngôn ngữ được sử dụng Tiền xử lý văn bản begin
các dấu “.”, “, “ , “;” ,
“:”
Từ điển Tiếng Việt : 70.000 từ (có gắn nghĩa) Tách từ Chia văn bản thành các
truy vấn nhỏ hơn
Từ điển từ dừng Gán nhãn từ loại, lọc Xét từng truy vấn (các
Cây phân cấp ngữ nghĩa ra các danh từ tiếng) F
Là từ
ROOT Bỏ q
qua 1
Loại
L i bỏ từ dừng.
dừ khoá ?
tiếng ở bên
phải
T
K ConcreteThing
SEMDIST =
N
… Cắt từ khỏi
truy vấn
Mức trừu tượng chung thấp nhất
Cây phân cấp animal
ngữ nghĩa
Tiếng Việt
K N Truy vấn
Mammal Bird Fish rỗng ?
F
T
Từ Bò Gấu Chim sẻ Vàng anh Cá trắm Cá thu
end
Giải thuật xây dựng Lexical Chain Đồ thị khử nhập nhằng nghĩa
Bước 1: Với mỗi danh từ trong văn bản, liệt kê tất cả các nghĩa mà Gọi:
nó có thể có. T = {T1 , T2,… Tn} là tập các danh từ trong văn bản.
Bước 2: Sử dụng WSDG để xác định nghĩa phù hợp nhất của mỗi Si (i=1,...mi) là tập hợp các nghĩa mà danh từ Ti có thể có
từ trong số tập hợp nghĩa xác định ở bước 1. được (mi là số lượng nghĩa của Ti)
Bước 3: Xây dựng các Lexical Chain dựa vào nghĩa duy nhất vừa G=(V,E)
tìm được cho mỗi từ. Vi biểu diễn Ti, nhưng chia làm mi phần
Xuất phát từ tập chain rỗng. Mỗi phần Vij biểu diễn nghĩa Sij của Ti
Với mỗi từ w: Mỗi cạnh trong E nối Vij và Vi’j’
kết nạp nó vào chain c nếu độ tương đồng của nó với tất cả các từ
Mỗi cạnh được gán trọng số: w(Vij , Vi ' j ' ) = sim( Sij , Si ' j ' )
3
CuuDuongThanCong.com https://fb.com/tailieudientucntt
4/21/2011
Dùng LC tính độ tương tự giữa các văn bản Gán nhãn lớp cho văn bản
Ký hiệu các chuỗi từ vựng c và d lần lượt là : Gán nhãn theo tổng độ phù hợp chủ đề
c = {c1,c2,…, cm} và d = {d1,d2,…, dn} Lần lượt tính tổng độ phù hợp của văn bản Q với tất cả các
Trong đó, mỗi thành phần ci, dj (i=1..m, j=1..n) đều chỉ có phân lớp có trong k văn bản đã lấy ra
1 nghĩa
g duyy nhất lần lượt
ợ là sci và sd . Gán nhãn chủ đề phù hợp nhất cho Q
j
Độ tương đồng giữa c và d : Q sẽ thuộc vào phân lớp có tổng độ liên quan cao nhất.
m n
sim(c, d ) = ∑∑ sim( sci , sd j )
i =1 j =1
sim(c, D) = ∑ sim(c, d )
d ∈D
4
CuuDuongThanCong.com https://fb.com/tailieudientucntt
4/21/2011
Xây dựng các Lexical Chain Chức năng Phân lớp văn bản
Tập văn bản Từ điển Tiếng Cây phân cấp
(biểu diễn dưới Việt (có gắn ngữ nghĩa Từ điển
nghĩa) Tập V.bản
dạng các danh tiếng Chủ đề phù
từ ) Văn bản đầu đã huấn
Việt+ ngữ hợp nhất
vào (cần phân luyện
nghĩa cho văn bản
lớp)
5
CuuDuongThanCong.com https://fb.com/tailieudientucntt
4/21/2011
6
CuuDuongThanCong.com https://fb.com/tailieudientucntt