You are on page 1of 7

HỘI THẢO NGHIÊN CỨU KHOA HỌC “CNTT VÀ ỨNG DỤNG CNTT TRONG CÁC LĨNH VỰC” – 2012

NGHIÊN CỨU TÍNH NHẬP NHẰNG TRONG TIẾNG VIỆT VÀ


GIẢI PHÁP KHẮC PHỤC TRONG SOẠN THẢO VĂN BẢN
RESEARCH AMBIGUITY OF VIETNAMESE
AND PROPOSE REPAIRING IN EDITING TEXT

ThS. Đinh Thị Mỹ Hạnh


Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng

TÓM TẮT
Trong xu thế hội nhập và phát triển, văn hóa Việt Nam, trong đó có tiếng Việt đã có
những thay đổi và phát triển không ngừng. Chính sự đa dạng, phong phú trong cách tư duy,
cách vận dụng đã tạo nên những đặc điểm гất riêng mà гất ít ngôn ngữ của dân tộc nào trên
thế giới có được. Một trong những hiện tượng tạo ra sự “phức tạp và rắc rối” của tiếng Việt
chính là “hiện tượng nhập nhằng”, đó là hiện tượng mà khi nói hoặc viết những từ ngữ mơ hồ
không rõ nghĩa hoặc có nhiều nghĩa làm cho người đọc hoặc người nghe không phân biệt rõ
ràng, gây ra sự hiểu lầm. Nội dung của bài báo là nghiên cứu những hiện tượng nhập nhằng
trong tiếng Việt, nghiên cứu những giải pháp khử nhập nhằng trong tiếng Việt đã có hiện nay và
đề xuất hướng khắc phục trong soạn thảo văn bản.

ABSTRACT
In the trend of intergration and development, Vietnamese culture was changed
incessantly, especially Vietnamese. The diversification and the plenty in the way of thinking and
using created the distinctions of our language. One of these differences is the ambiguity which
makes people difficul to understand, so that people are likely to misunderstand. Content of this
report researchs a number of popular ambiguities in Vietnamese and some solutions which
were used to dispose of the Vietnamese ambiguity at this time, then I put forward some ways to
repair in editing text.

1. Đặt vấn đề
Xử lý ngôn ngữ tự nhiên trong lĩnh vực trí tuệ nhân tạo tập trung vào các ứng
dụng trên ngôn ngữ của con người. Đây là một lĩnh vực гất khó vì đòi hỏi sự hiểu biết
sâu гộng về ngôn ngữ học, về thói quen giao tiếp của con người. Trong hệ thống ngôn
ngữ trên thế giới hiện nay, tiếng Việt được xem là một trong những ngôn ngữ có sự
phong phú và đa dạng. Chính sự phong phú và phức tạp của tiếng Việt đã dẫn đến
những khó khăn cho cả người sử dụng theo cách thông thường và khi xử lý trên máy
tính.
Do những ảnh hưởng của lịch sử hình thành và phát triển, tiếng Việt có tính lai
tạp về mặt ngôn ngữ гất cao, đặc biệt ảnh hưởng từ tiếng Hán và tiếng Pháp. Sự đa
nghĩa trong tiếng Việt cũng chính là một đặc điểm nổi bật. Ngoài ra, do thói quen sử
dụng của mỗi người hoặc mỗi vùng miền, tiếng Việt lại có những sự biến đổi nhất định,
thậm chí sự thiếu nhất quán trong cách nói, cách viết 5.[1].
Bài báo này trình bày nghiên cứu những hiện tượng nhập nhằng phổ biến trong

11
HỘI THẢO NGHIÊN CỨU KHOA HỌC “CNTT VÀ ỨNG DỤNG CNTT TRONG CÁC LĨNH VỰC” – 2012

tiếng Việt hiện nay, đồng thời tìm hiểu những giải pháp khử nhập nhằng đã được đề
xuất trước đây. Trên cơ sở đó, tác giả đề xuất hướng giải quyết một phần các hiện tượng
nhập nhằng trong soạn thảo văn bản. Nội dung bài báo tóm tắt như sau : sau phần đặt
vấn đề là các hiện tượng nhập nhằng phổ biến trong tiếng Việt, các biện pháp khử nhập
nhằng đã có và đề xuất hướng khắc phục hiện tượng nhập nhằng trong soạn thảo văn
bản của tác giả, phần cuối là kết luận.
2. Một số hiện tượng nhập nhằng phố biến trong tiếng Việt
Trong tiếng Việt hiện nay xuất hiện rất nhiều hiện tượng nhập nhằng, trong
phạm vi của bài báo này, tác giả xin trình bày một số hiện tượng nhập nhằng phổ biến.
2.1. Nhập nhằng về phạm vi, ranh giới giữa các từ
Trong tiếng Anh, việc xác định ranh giới, phạm vi giữa các từ khá dễ dàng, mỗi
từ riêng lẻ đã mang trọn vẹn một nghĩa và ranh giới của chúng được xác định thông qua
khoảng trắng. Tuy nhiên, vì tiếng Việt là ngôn ngữ đơn lập nên từ vựng chủ yếu là các
từ ghép vì thế khoảng trắng không phải luôn luôn là ranh giới chính xác.
Ví dụ 1:
He is a teacher (1)
Tương ứng với câu sau trong tiếng Việt: Anh ấy là giáo viên (2)
Câu (1) phân định ranh giới dễ dàng cụ thể là: He / is / a / teacher. Nhưng trong
câu (2) nếu vẫn phân định ranh giới từ theo khoảng trắng không chính xác hoàn toàn, cụ
thể: Anh / ấy / là / giáo / viên. Từ giáo viên là từ ghép nay bị chia thành hai từ đơn là
giáo và viên, cách chia này là sai. Cách phân định ranh giới đúng của câu trên là: Anh
ấy / là / giáo viên.
2.2. Nhập nhằng do tính đa nghĩa của từ
Bất cứ ngôn ngữ nào cũng có từ đa nghĩa, nguyên nhân là vì rất nhiều khái niệm
có các sắc thái ý nghĩa tuy không hoàn toàn trùng khớp nhau nhưng lại có nhiều nét
tương đồng. Như từ “ăn” trong “ăn uống” và “ăn cướp” vừa có những nét nghĩa giống
và khác nhau, theo cuốn Từ điển tiếng Việt thì từ “ăn” có đến 12 nghĩa. Hiện tượng này
gây cản trở cho việc dịch tự động, chương trình không biết dịch từ đa nghĩa theo nghĩa
nào trong nhóm nghĩa của nó.
2.3. Nhập nhằng từ đồng âm (đồng tự)
Hai từ đồng âm với nhau nghĩa là hai từ có âm giống nhau nhưng mang nghĩa
khác nhau, còn đồng tự là hai từ về mặt ký tự là giống nhau nhưng nghĩa khác nhau. Do
đặc điểm của tiếng Việt từ đồng âm cũng thường là từ đồng tự, ở các ngôn ngữ khác hai
hiện tượng này không trùng khớp nhau.
Cũng phải phân biệt từ đồng tự với từ đa nghĩa, trong từ đa nghĩa, các nghĩa đều
có chung một nguồn gốc và do vậy luôn có nét tương đồng trong khi đó trong từ đồng
tự chúng không có liên hệ về nguồn gốc với nhau, nghĩa của chúng khác nhau rõ rệt.

12
HỘI THẢO NGHIÊN CỨU KHOA HỌC “CNTT VÀ ỨNG DỤNG CNTT TRONG CÁC LĨNH VỰC” – 2012

Ví dụ 2:
Từ “kiếm” trong hai câu sau đây là hai từ đồng tự:
Anh ta sử dụng kiếm rất điêu luyện.
Kiếm ăn bây giờ khó lắm.
Việc xác định nghĩa chính xác của từ đồng tự dễ dàng hơn từ đa nghĩa bởi vì sự
khác nhau lớn về ngữ nghĩa của chúng giúp đưa ra được nhiều tiêu chuẩn tốt để phân
biệt.
2.4. Nhập nhằng trong cách phân biệt từ loại
Từ loại là một yếu tố quan trọng trong việc xác định nghĩa chính xác của từ và
sắp xếp các từ thành câu hoàn chỉnh trong dịch tự động. Từ loại giúp khử nhập nhằng,
nhưng chính bản thân nó trong một số trường hợp cũng nhập nhằng.
Phần lớn trong các ngôn ngữ biến hình, từ loại được xác định tương đối dễ dàng
vì khi chuyển loại thì từ cũng chuyển kiểu hình của nó. Ví dụ, trong tiếng Anh từ free là
tính từ có nghĩa là “tự do”, chuyển loại thành danh từ có thêm hậu tố “dom” thành
freedom nghĩa là “sự tự do”. Điều này tạo thuận lợi cho việc gán nhãn từ loại một cách
tự động nhờ các dấu hiệu nhận biết tổng quát. Với các ngôn ngữ không biến hình như
tiếng Việt, vấn đề xác định từ loại yêu cầu các thuật toán phức tạp hơn, bắt buộc phải
phân tích cú pháp. Mặt khác, ngay trong nội bộ ngành ngôn ngữ vẫn chưa có sự thống
nhất về phân loại từ loại cho tiếng Việt.
2.5. Nhập nhằng trong tiếng Việt không dấu
Ngày nay, việc gõ tiếng Việt không dấu trở nên phổ biến hơn, đặc biệt trên các
ứng dụng Internet hoặc điện thoại di động như email, chat… Gõ tiếng Việt không dấu
giúp người sử dụng thao tác nhanh hơn, nhưng trong một số trường hợp nó lại gây ra
những sự hiểu nhầm tai hại đối với người đọc.
2.6. Nhập nhằng về sự vận dụng
Cùng một câu nhưng khi sử dụng trong các hoàn cảnh khác nhau của ngôn ngữ
nói hoặc ngôn ngữ viết, nếu không biết cách sử dụng một cách phù hợp cũng sẽ gây ra
sự “nhập nhằng”, sự hiểu lầm cho người đọc hoặc người nghe. Hiện tượng này đặc biệt
phổ biến trong tiếng Việt, vì tiếng Việt vốn đa nghĩa, đa sắc thái và có tính biểu cảm rất
cao. Điều này đòi hỏi người sử dụng ngôn ngữ một sự khéo léo và tinh tế nhất định, có
sự hiểu biết ở một mức độ cần thiết để có thể tận dụng hết những giá trị biểu đạt của
ngôn ngữ.
3. Bài toán
Trong phạm vi của bài báo, tác giả thực hiện bước đầu tiên và cũng là bước quan
trọng, đó là tiến hành phân tách từ trong văn bản tiếng Việt. Bài toán đặt ra là: Cho một
câu tiếng Việt bất kỳ, hãy tách câu đó thành những đơn vị từ vựng (từ), hoặc chỉ ra
những âm tiết nào không có trong từ điển (đơn vị từ vựng mới)
Bào toán bây giờ được chia làm hai bước:
13
HỘI THẢO NGHIÊN CỨU KHOA HỌC “CNTT VÀ ỨNG DỤNG CNTT TRONG CÁC LĨNH VỰC” – 2012

- Xử lý lỗi chính tả tiếng Việt ở mức âm tiết (1)


- Phân tách văn bản (2)

Bảng âm tiết Từ điển từ vựng Mô hình gán


nhãn từ loại
Tiếng Việt Tiếng Việt
cho từ

Tệp văn bản


Tệp văn bản
đã được
soạn thảo sẵn
Tách văn bản Gán nhãn từ loại Loại bỏ xử lý
chưa qua xử lý thành các từ riêng cho các từ đã tách nhập nhằng nhập nhằng
nhập nhằng biệt

ĐẦU VÀO XỬ LÝ ĐẦU RA

Giao diện
người sử dụng

Người
sử dụng

Hình 1 Mô hình kiến trúc tổng quan của quá trình xử lý nhập nhằng về phạm vi từ

Văn bản nguồn Văn bản Văn bản đã


đã sửa lỗi được tách từ

Phát hiện & xử lý


Tách văn bản
lỗi chính tả âm tiết

Kho dữ liệu Kho từ tiếng


âm tiết TV Việt

Hình 2 Các bước giải quyết bài toán tách từ cho văn bản
Trong đó, kho dữ liệu âm tiết tiếng Việt chứa tất cả các âm tiết có trong tiếng
Việt (01 bảng duy nhất) và kho từ tiếng việt được lấy từ nguồn là Từ điển tiếng Việt
5.[4]. Dữ liệu được chia thành 26 bảng tương ứng với 26 chữ cái từ A đến Z, mỗi bảng
sẽ chứa tất cả các từ trong tiếng Việt được bắt đầu bằng chữ cái tương ứng, riêng trong
14
HỘI THẢO NGHIÊN CỨU KHOA HỌC “CNTT VÀ ỨNG DỤNG CNTT TRONG CÁC LĨNH VỰC” – 2012

bảng A sẽ chứa các âm tiết bắt đầu bằng A, Ă, Â, bảng U chứa âm tiết bắt đầu bằng U,
Ư, bảng E chứa các âm tiết bắt đầu bằng E, Ê. Việc phân chia này sẽ thuận tiện cho quá
trình tìm kiếm và xử lý thuật toán. Mỗi từ sẽ có chiều dài Len tương ứng.
Ví dụ 3

Từ ghế có chiều dài =1


Từ lấp lánh có chiều dài = 2
Từ thanh thiếu niên có chiều dài = 3
Trường Len này hỗ trợ cho việc tách cụm từ thành các các từ có chiều dài nhỏ
hơn. Giải thuật sẽ được trình bày ở phần bên dưới của báo cáo.

A B Z

stt stt stt


Word Word Word
Lenght Lenght Lenght
.v.v.
Hình 3 26 bảng dữ liệu có tên từ A đến Z
Mỗi bảng đều có 3 trường dữ liệu:
Tên trường Kiểu dữ liệu Giải thích

stt Autonumber Số thứ tự của mục từ

Word Text Từ

Lenght Number Chiều dài của từ

Bảng 1 Từ điển dữ liệu của các bảng

4. Giải quyết bài toán


Tác giả thực hiện khử một phần các hiện tượng nhập nhằng đối với văn bản
tiếng việt: xử lý lỗi chính tả (mức âm tiết) và tách từ vựng tiếng Việt.
4.1. Xử lý lỗi chính tả tiếng Việt mức âm tiết
Trong quá trình nói hoặc viết, đặc biệt trong văn viết, nếu viết sai lỗi chính tả
cũng dễ dẫn đến người nghe, người đọc hiểu sai thông tin, gây ra nhập nhằng. Do đó,
bước căn bản đầu tiên phải là xử lý các lỗi chính tả tiếng Việt ở mức âm tiết (mức nhỏ
nhất). Công việc này được chia thành các bước nhỏ:
- Tách âm tiết tiếng Việt (dựa vào các tùy chọn trong chương trình, chủ yếu dựa
vào khoảng trống giữa các âm tiết)
- So khớp âm tiết thu được với các âm tiết tiếng Việt trong kho ngữ liệu. Nếu
không tồn tại âm tiết đó, có 3 cách giải quyết: lựa chọn âm tiết thay thế (từ danh
15
HỘI THẢO NGHIÊN CỨU KHOA HỌC “CNTT VÀ ỨNG DỤNG CNTT TRONG CÁC LĨNH VỰC” – 2012

sách gợi ý của chương trình), bỏ qua lỗi sai, xem đó là một âm tiết mới và bổ
sung vào kho ngữ liệu
Dữ liệu phục vụ cho công việc này là các bảng âm tiết tiếng Việt.

4.2. Tách từ cho văn bản tiếng Việt


Theo tài liệu0, nhóm tác giả này đã tiến hành xây dựng otomat đoán nhận từ
vựng, phục vụ cho việc tách từ vựng trong văn bản tiếng Việt. Tư tưởng của thuật toán
tách từ vựng là quy việc phân tách câu về việc tìm đường đi trên một đồ thị có hướng,
s s s
không trọng số. Giả sử câu ban đầu là một dãy gồm n+1 âm tiết 0 , 1 , ..., n . Ta xây
v v v v
dựng một đồ thị có n+2 đỉnh 0 , 1 , ..., n , n 1 , sắp thứ tự trên một đường thẳng từ trái
v v s s
sang phải; trong đó, từ đỉnh i đến đỉnh j có cung (i < j) nếu các âm tiết i , i 1 , ...,
s j 1
theo thứ tự lập thành một từ. Khi đó mỗi cách phân tách câu khác nhau tương ứng
v v
với một đường đi trên đồ thị từ đỉnh đầu 0 đến đỉnh cuối n 1 . Trong thực tế, cách phân
tích câu đúng đắn nhất thường ứng với đường đi qua ít cung nhất trên đồ thị.
Ví dụ, xét một câu có cụm "thuộc địa bàn", ta có đồ thị như sau:

thuộc địa

thuộc địa bàn

địa bàn
Hình 3 Otomat đoán nhận cụm từ “thuộc địa bàn”
Ta thấy rằng nếu đồ thị không liên thông thì dễ dàng phát hiện ra rằng đơn vị âm
tiết không đoán nhận được không nằm trong từ điển âm tiết, tức nó bị viết sai chính tả
hoặc là một đơn vị âm tiết (từ vựng) mới.
Trên cơ sở ý tưởng của thuật toán này, tác giả xây dựng cho mình một giải thuật
khác, giải thuật này cũng dựa trên tính chất “đường đi ngắn nhất là đường đi tối ưu
nhất”. Thuật toán tiến hành thao tác ngược lại với thuật toán của nhóm tác giả trình bày
trong tài liệu0, trước tiên chương trình sẽ tiến hành kiểm tra lỗi chính tả ở mức âm tiết
để đảm bảo rằng văn bản đã được viết đúng chính tả tiếng Việt ở mức thấp nhất là mức
âm tiết, sau đó thay vì tiến hành đọc vào từng âm tiết và kiểm tra tính liên thông thì sẽ
đọc vào một âm tiết (gọi là âm tiết X) là âm tiết đầu tiên của phần văn bản sẽ được xử
lý, sau đó kiểm tra sự tồn tại của từ vựng dài nhất chứa âm tiết vừa đọc (gọi là từ Y) có
tồn tại trong tiếng Việt hay không bằng cách so khớp với cơ sở dữ liệu, nếu tồn tại thì
xem như đây là cách tách từ tối ưu nhất và không kiểm tra các cách phân tách từ này
thành các từ ngắn hơn, nếu không tồn tại thuật toán sẽ tiến hành kiểm tra tương tự với
các từ ngắn hơn (bằng cách tách từ Y).

16
HỘI THẢO NGHIÊN CỨU KHOA HỌC “CNTT VÀ ỨNG DỤNG CNTT TRONG CÁC LĨNH VỰC” – 2012

Sau khi thực hiện chức năng này, chương trình sẽ đưa ra một danh sách các từ
(bao gồm từ đơn và từ ghép) được tác ra từ văn bản. Các từ này sẽ được sử dụng cho
các bước xử lý tiếp theo như kiểm lỗi ngữ pháp, xác định từ loại… phục vụ cho mục
đích khử nhập nhằng văn bản tiếng Việt.
5. Đánh giá, kết luận
Những giải pháp mà tác giả đề cập trong bài báo góp phần xử lý một phần các
hiện tượng nhập nhằng trong văn bản tiếng Việt, cụ thể là xử lý lỗi chính tả mức âm tiết
và tách từ trong văn bản Tiếng Việt. Kết quả thu được từ chương trình demo có thể
được sử dụng như dữ liệu đầu vào cho các bước xử lý tiếp theo để khử nhập nhằng tiếng
Việt. Hướng nghiên cứu tiếp theo của đề tài cụ thể là:
- Các chức năng trợ giúp được thực hiện ngay trong quá trình soạn thảo
văn bản
- Giải quyết bài toán gán nhãn cho từ
- Xử lý lỗi chính tả tiếng Việt (cấp độ từ ghép)

TÀI LIỆU THAM KHẢO


 Tài liệu tiếng Việt:

[1] Cao Xuân Hạo. Tiếng Việt - Sơ thảo ngữ pháp chức năng. NXB KHXH, Hà Nội
1991 (Nxb Giáo dục tái bản 2004).
[2] Diệp Quang Ban. Cấu tạo câu đơn tiếng Việt. Trường ĐHSP Hà Nội, 1984.
[3] GS.TSKH Nguyễn Quang Hồng- TS Nguyễn Phương Trang. Tổng quan về hệ
thống vần cái tiếng Việt hiện đại. Tạp chí Ngôn ngữ số 6/2004.
[4] Hoàng Phê. Từ điển chính tả. NXB Đà Nẵng. Trung tâm từ điển học. 1995. 508
trang.
[5] Đồng Thị Bích Thủy (a), Hồ Bảo Quốc (a,b). Ứng dụng xử lý ngôn ngữ tự nhiên
trong hệ tìm kiếm thông tin trên văn bản Tiếng Việt. (a) Khoa CNTT – ĐHQG TP.
Hồ Chí Minh (b) Laboratoire CLIP IMAG, Grenoble France
[6] Dũng Vũ. Mấy vấn đề về từ/ ngữ. Talawas, 19.5.2005
 Tài liệu từ Internet:

[7] Hồ Tú Bảo (a,b), Lương Chi Mai (a). Về xử lý tiếng Việt trong công nghệ thông tin,
(a) Viện Khoa học và Công nghệ Tiên tiến Nhật bản (b) Viện Công nghệ Thông
tin, http://www.jaist.ac.jp/~bao/Writings/VLSPwhitepaper%20-%20Final.pdf
Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương, Sử dụng bộ gán nhãn từ
loại xác suất QTAG cho văn bản Tiếng Việt,
http://www.vietlex.vn/lib/compuLinguistics/ITCra03POSTagging.pdf

17

You might also like