You are on page 1of 5

Tách từ

Tách từ tiếng Việt z Mục đích: xác định ranh giới của các từ trong câu.
z Là bước xử lý quan trọng đối với các hệ thống XLNNTN,
đặc biệt là đối với các ngôn ngữ đơn lập, ví dụ: âm tiết
Lê Thanh Hương Trung Quốc, âm tiết Nhật, âm tiết Thái, và tiếng Việt.
Bộ môn Hệ thống Thông tin z Với các ngôn ngữ đơn lập, một từ có thể ể có một hoặc
Viện CNTT &TT – Trường ĐHBKHN nhiều âm tiết.
Email: huonglt-fit@mail.hut.edu.vn ¾ Vấn đề của bài toán tách từ là khử được sự nhập nhằng
trong ranh giới từ.

1 2

Từ vựng Từ vựng
z tiếng Việt là ngôn ngữ không biến hình Độ dài # %
z Từ điển từ tiếng Việt (Vietlex): >40.000 từ, 1 6,303 15.69
trong đó: 2 28,416 70.72
z 81.55%
81 55% â
âm tiết là từ : từ đơn
đ 3 2,259
2 259 5 62
5.62
z 15.69% các từ trong từ điển là từ đơn 4 2,784 6.93
z 70.72% từ ghép có 2 âm tiết 5 419 1.04
z 13.59% từ ghép ≥ 3 âm tiết Tổng 40,181 100

z 1.04% từ ghép ≥ 4 âm tiết Bảng 1. Độ dài của từ tính theo âm tiết

3 4

Qui tắc cấu tạo từ tiếng Việt Qui tắc cấu tạo từ tiếng Việt
z Từ đơn: dùng một âm tiết làm một từ. z Từ láy: các yếu tố cấu tạo có thành phần ngữ âm được lặp
z Ví dụ: tôi, bác, người, cây, hoa, đi, chạy, vì, đã, à, nhỉ, nhé... lại; nhưng vừa lặp vừa biến đổi. Một từ được lặp lại cũng cho
ta từ láy.
z Từ ghép: tổ hợp (ghép) các âm tiết lại, giữa các âm tiết
đó có quan hệ về nghĩa với nhau. z Biến thể của từ: được coi là dạng lâm thời biến động hoặc
dạng "lời
lời nói"
nói của từ.
z Từ ghép đẳng
ẳ lập. các
á thành
à tốố cấu
ấ tạo có ó quan hệ ệ bình
ì đẳng
ẳ với ớ
nhau về nghĩa. z Rút gọn một từ dài thành từ ngắn hơn
z ki-lô-gam → ki lô/ kí lô
z Ví dụ: chợ búa, bếp núc

z Từ ghép chính phụ. các thành tố cấu tạo này phụ thuộc vào thành z Lâm thời phá vỡ cấu trúc của từ, phân bố lại yếu tố tạo từ với
tố cấu tạo kia. Thành tố phụ có vai trò phân loại, chuyên biệt hoá những yếu tố khác ngoài từ chen vào. Ví dụ:
và sắc thái hoá cho thành tố chính. z khổ sở → lo khổ lo sở

z Ví dụ: tàu hoả, đường sắt, xấu bụng, tốt mã, ngay đơ, thằng z ngặt nghẽo → cười ngặt cười nghẽo
tắp, sưng vù... z danh lợi + ham chuộng → ham danh chuộng lợi

5 6

CuuDuongThanCong.com https://fb.com/tailieudientucntt
Qui tắc cấu tạo từ tiếng Việt Các hướng tiếp cận
z Các diễn tả gồm nhiều từ (vd, “bởi vì”) cũng được coi là z Tiếp cận dựa trên từ điển
1 từ
z Tên riêng: tên người và vị trí được coi là 1 đơn vị từ
z Tiếp cận theo phương pháp thống kê
vựng z Kết hợp hai phương pháp trên.
z Các mẫuẫ thường xuyên: số,ố thời gian

7 8

Các phương pháp Tiếp cận dựa trên từ điển


z So khớp từ dài nhất (Longest Matching) <Lê Thanh Hương, Phân tích cú pháp tiếng Việt, Luận văn
z Học dựa trên sự cải biến (Transformation-based cao học, 1999>
Learning – TBL) z Xây dựng từ điển

z Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite z Mỗi mục từ lưu thông tin về từ, từ loại, nghĩa loại
State Transducer – WFST) z Tổ chức sao cho tốn ít bộ nhớ và thuận tiện trong việc
z Độ hỗn loạn cực đại (Maximum Entropy – ME) tìm kiếm
z Học máy sử dụng mô hình Markov ẩn (Hidden Markov z Mã hóa từ điển: Từ loại và nghĩa loại kiểu byte được lưu
Models- HMM) dưới dạng một ký tự.
z Học máy sử dụng vectơ hỗ trợ (Support Vector z VD: danh từ -112 – p, <loại từ> - 115 – s
Machines)
z Kết hợp một số phương pháp trên
9 10

Tiếp cận dựa trên từ điển Tìm từ trong từ điển


z Phân trang theo hai chữ cái đầu của từ, sắp tăng. Với mỗi trang,
các từ lại được sắp theo vần ABC. z Độ dài tối đa của từ? 3? 4? 5?
Paragraph
1 2 n z Vấn đề: không xử lý được các tổ hợp từ cố
ba bà .  .  .  .  .  .
xe định, vd "ông chẳng bà chuộc“
Content
¾ Đ ra tất cả
Đưa ả các
á từ ghép
hé cóó ttrong từ điể
điển
1 bao
trùng với phần đầu của xâu vào
2
bà ngoại bài tập

n xe cộ xe đạp
11 12

CuuDuongThanCong.com https://fb.com/tailieudientucntt
Tìm từ trong từ điển Phân giải nhập nhằng
Nếu nhà máy nghỉ thì ta về z Lấy tất cả các cách phân tích, nếu phân tích
Vị trí từ: 0 1 2 3 4 5 6 7 cú pháp cho ra cây đúng thì đó là cách phân
z Ta có bảng sau:
tích đúng.
z

z Ký hiệu:
z <liên từ> - LT <danh từ> - DT
z <động từ> - ĐgT <đại từ> - ĐaT
13 14

Cách tiếp cận lai Biểu thức chính qui


z là một khuôn mẫu được so sánh với một chuỗi
<Phuong Le-Hong et al., A hybrid approach to word
z Các ký tự đặc biệt:
segmentation of Vietnamese texts, Proceedings of the
z * - bất cứ chuỗi ký tự nào, kể cả không có gì
2nd International Conference on Language and Automat z x – ít nhất 1 ký tự
Theory and Applications, LATA 2008, Tarragona, Spain, z + - chuỗi trong ngoặc xuất hiện ít nhất 1 lần
2008 >
2008.> z Ví dụ:
d
z Kết hợp phân tích automat hữu hạn + biểu thức chính z Email: x@x(.x)+
z dir *.txt
quy + so khớp từ dài nhất + thống kê (để giải quyết nhập
z ‘*John’ -> ‘John’, ‘Ajohn’, “Decker John”
nhằng)
z Biểu thức chính quy được sử dụng đặc biệt nhiều trong:
* Phân tích cú pháp
* Xác nhận tính hợp lệ của dữ liệu
* Xử lý chuỗi
* Tách dữ liệu và tạo báo cáo
15 16

Giới thiệu phi hình thức về


Automat hữu hạn automat hữu hạn
z Lớp ngôn ngữ chính qui, được đoán nhận bởi máy ảo, z Một bài toán trong automat là nhận diện
gọi tên là automat hữu hạn.
chuỗi w có thuộc về ngôn ngữ L hay không.
z Automat hữu hạn đơn định (Deterministic Finite Automat a– DFA
z Automat hữu hạn không đơn định (Nondeterministic Finite z Chuỗi nhập được xử lý tuần tự từng ký hiệu
Automat a–
a NFA) một từ trái sang phải.
phải
z Automat hữu hạn không đơn định, chấp nhận phép truyền rỗng
(ε-NFA) z Trong quá trình thực thi, automat cần phải
nhớ thông tin đã qua xử lý.

17 18

CuuDuongThanCong.com https://fb.com/tailieudientucntt
Automat hữu hạn cho các từ
Ví dụ về automat hữu hạn tiếng Anh
L = {w ∈ {0, 1}* | w kết thúc bằng chuỗi con 10}.

19 20

Cách tách từ đơn giản Lựa chọn cách tách từ


z Biểu diễn đoạn bằng chuỗi các âm tiết s1 s2 … sn
z Phát hiện các mẫu thông thường như tên riêng, chữ viết
z Trường hợp nhập nhằng thường xuyên nhất là 3 từ liền nhau s1s2s3
tắt, số, ngày tháng, địa chỉ email, URL,… sử dụng biểu trong đó s1s2 và s2s3 đều là từ.
thức chính qui
z Hệ
ệ thốngg chọn
ọ chuỗi âm tiết dài nhất từ vịị trí hiện
ệ tại
ạ và
có trong từ điển, chọn cách tách có ít từ nhất
¾ Hạn chế: có thể đưa ra cách phân tích không đúng.
z BIểu diễn 1 đoạn bằng đồ thị có hướng tuyến tính G = (V,E), V = {v0,
¾ Giải quyết: liệt kê tất, có 1 chiến lược để chọn cách tách v1, . . . , vn, vn+1}
tốt nhất. z Nếu các âm tiết si+1, si+2, . . . , sj tạo thành 1 từ -> trong G có cạnh
(vi,vj)
z Các cách tách từ = các đường đi ngắn nhất từ v0 đến vn+1
21 22

Thuật toán Phân giải nhập nhằng


Thuật toán 1. Xây dựng đồ thị cho chuỗi s1s2 . . . sn
1: V ← ‫;׎‬ z Xác suất xâu s:
2: for i = 0 to n + 1 do
3: V ← V ‫{ ׫‬vi};
4: end for
5: for i = 0 to n do
6: for j = i to n do
7: if (accept(AW, si · · · sj)) then z P(wi|w1i-1): xác suất wi khi có i-1 âm tiết trước
8: E ← E ‫({ ׫‬vi, vj+1)};
9: end if đó
10: end for z n = 2: bigram; n = 3: trigram
11: end for
12: return G = (V,E);

accept(A, s): automat A nhận xâu vào s 23 24

CuuDuongThanCong.com https://fb.com/tailieudientucntt
Phân giải nhập nhằng Kỹ thuật làm trơn
z Khi n = 2, tính giá trị P(wi|wi-1) lớn nhất maximum
likelihood (ML) với λ1 + λ2 = 1 và λ1, λ2 ≥ 0
PML(wi) = c(wi)/N
z Với tập thử nghiệm T = {s1,s2,…,sn}, xác suất P(T) của tập
thử:
thử
z Entropy của văn bản:
z c(s): số lần xâu s xuất hiện; N: tổng số từ trong tập luyện
z Khi dữ liệu luyện nhỏ hơn kích cỡ toàn bộ tập dữ liệu Æ
P~0 với NT: số từ trong T
z Sử dụng kỹ thuật làm trơn z Entropy tỉ lệ nghịch với xác suất trung bình của 1 cách tách
từ cho các câu trong văn bản thử nghiệm.
25 26

Xác định giá trị λ1, λ2 Thuật toán


z Từ tập dữ liệu mẫu, định nghĩa C(wi-1,wi) là số lần (wi-1,
wi) xuất hiện trong tập mẫu. Ta cần chọn λ1 λ2 để làm
cực đại giá trị

với λ1 + λ2 = 1 và λ1, λ2 ≥ 0

28

Kết quả
z Sử dụng tập dữ liệu gồm 1264 bài trong báo Tuổi trẻ, có 507,358 từ
z Lấy ε = 0.03, các giá trị λ hội tụ sau 4 vòng lặp

z Độ chính xác = số từ hệ thống xác định đúng/tổng số từ hệ thống


xác định = 95%
29

CuuDuongThanCong.com https://fb.com/tailieudientucntt

You might also like