Professional Documents
Culture Documents
2
TÓM TẮT TIỂU LUẬN
3
1. ĐẶT VẤN ĐỀ
Chữ viết tắt (CVT) quen thuộc trong cuộc sống và được sử dụng phổ biến trong
hầu hết các hệ thống ngôn ngữ viết trên thế giới từ trước đến nay, kể cả tiếng Việt.
Trên các trang báo, tạp chí, ta thường thấy các CVT thông dụng như TƯ (Trung ương),
UBND (Uỷ ban nhân dân), PTCS (Phổ thông cơ sở), PTTH (Phổ thông trung học), có
cả các CVT tiếng Anh như WTO (World Trade Organization), WHO (World Health
Organization), WB (World Bank)… Trong lĩnh vực CNTT, chúng ta gặp thường xuyên
các CVT như CSDL, QTCSDL, CTDL… tiếng Anh như DB, MDBS, ITC, RDA, v.
v… Nhờ sử dụng CVT, mọi văn bản trở nên ngắn gọn hơn, đơn giản hơn, nhưng
chuyển tải được lượng thông tin lớn hơn trong mọi lĩnh vực, mọi chuyên ngành. Thực
tế sử dụng CVT thường xuyên đã làm cho hệ thống CVT ngày càng trở nên đa dạng và
ngày càng trở nên phong phú. Một mặt, người sử dụng (NSD) có nhiều CVT để chọn
lựa, để dùng trong mọi lúc mọi nơi nhưng mặt khác, họ lại gặp rất nhiều khó khăn khi
cần tìm hiểu, tra cứu nghĩa, hay để sử dụng đúng, hợp lý CVT trong công việc, trong
soạn thảo văn bản, nhất là các CVT bằng tiếng nước ngoài, hoặc trong các lĩnh vực
khoa học kỹ thuật, xã hội kinh tế chuyên sâu…
Hiện nay, dịch vụ 1080-một dịch vụ cung cấp thông tin kinh tế xã hội của ngành
Bưu chính-Viễn thông, đã có mặt trong cuộc sống hàng ngày của người Việt nam,
phục vụ nhu cầu hỏi đáp về CVT. Tuy nhiên, hệ thống quản lý khai thác CVT này vẫn
còn mang tính địa phương, chất lượng dịch vụ chưa cao, chưa đáp ứng hợp lý nhu cầu
thực tiễn. Liên quan đến CVT, trên thị trường hiện đã có một số từ điển xuất bản như
“Từ điển viết tắt Điện tử-Viễn thông-Tin học Anh-Việt” (Tạp chí Bưu chính, Viễn
thông & CNTT). Trên internet, NSD có thể tìm thấy các trang web CVT, nhưng chủ
yếu bằng tiếng nước ngoài. Đối với tiếng Việt, hiện có trang web CVT Anh-Việt của
Trung tâm Địa lý Ứng dụng, trường ĐHSP Hà Nội
(http://dialy.dhsphn.edu.vn/index.php). NSD cũng tìm thấy các CVT, từ viết tắt trong
một số ứng dụng Tin học như một số bộ gõ tiếng Việt, từ điển Tin học… Tuy nhiên
những hệ thống CVT này hoặc không đầy đủ, hoặc chưa có tính hệ thống, hoặc còn
nhiều sai sót, nhầm lẫn.
Trong chiến lược phát triển lâu dài, ngành Bưu chính-Viễn thông luôn khuyến khích
tìm kiếm các giải pháp để nâng cao chất lượng các dịch vụ gia tăng, đáp ứng ngày
càng hợp lý mọi nhu cầu thiết yếu của khách hàng. Đối với dịch vụ 1080, cần xây
dựng sớm kho ngữ liệu các CVT, tập trung phục vụ các ngành khoa học kỹ thuật, kinh
tế, thương mại, du lịch, văn hoá, xã hội…, trong đó chú trọng chuyên ngành CNTT và
truyền thông. Từ đây đặt ra rất nhiều vấn đề phức tạp cần giải quyết, liên quan đến lĩnh
4
vực xử lý ngôn ngữ tự nhiên và cơ sở dữ liệu, tìm kiếm phương pháp phân tích, tổng
hợp và phân loại các nguồn dữ liệu CVT đa tạp bằng tiếng Việt và tiếng nước ngoài,
đề xuất giải pháp triển khai, giúp nhân viên các đài 1080 khai thác tốt nguồn tài
nguyên đã có để phục vụ khách hàng, tăng hiệu năng tìm kiếm trả lời, v. v...
Nội dung bài báo như sau : trước tiên chúng tôi trình bày những tìm hiểu về
CVT, lịch sử phát triển, các quy tắc tạo ra CVT, phân lớp CVT và những yếu tố có thể
ảnh hưởng đến việc tạo mới CVT. Phần tiếp theo, chúng tôi trình bày giải pháp xây
dựng cơ sở dữ liệu (CSDL) CVT, thống kê đánh giá kết quả. Phần cuối cùng là kết
luận.
5
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080
1 Chúng tôi tìm thấy trong từ điển song ngữ Việt-Anh của tác giả Bùi Phụng, do nhà xuất bản Thế
Giới xuất bản năm 1998.
6
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080
2 Do Hội đồng Quốc gia Chỉ đạo Biên soạn Từ điển Bách khoa Việt nam biên soạn, Trung tâm Biên
soạn Từ điển Bách khoa Việt Nam xuất bản tại Hà Nội năm 1995.
v.v…. Trong tiếng Việt cũng dùng tên viết tắt để chỉ vùng địa lý, chẳng hạn xứ Thanh,
xứ Nghệ, xứ Quảng...
Từ khi bùng nổ internet, các ngôn ngữ viết nói chung đã được phát triển theo
một hướng mới nhờ NSD sử dụng rất nhiều CVT và dấu hiệu quy ước. Chẳng hạn
trong tiếng Anh, khi trao đổi bằng e-mail hay nhắn tin di động thường sử dụng IMHO
để chỉ cụm từ “in my humble opinion” (theo ý kiến nông cạn của tôi), các ký hiệu
khôi hài , , U (you)… Sử dụng CVT trong lĩnh vực CNTT và truyền thông
ngày nay (internet, nhắn tin di động, email... ) một mặt đã làm cho NSD ngày càng
hưởng lợi, nhưng cũng chính sự đa dạng phong phú này của CVT, hay sự lạm dụng
CVT đều gây phiền phức cho NSD.
7
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080
9
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080
11
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080
2.4. Yếu tố ảnh hưởng đến việc tạo mới chữ viết tắt
Có 4 yếu tố ảnh hưởng đến việc tạo mới CVT như sau :
Yếu tố số lượng ký tự : CVT không được dài quá. Nói chung hiện nay độ
dài CVT thường không vượt quá 15 ký tự.
Yếu tố dấu thanh trong tiếng Việt : Tránh viết tắt các nguyên âm mang dấu
như â, ă, ơ,
ê…, không dùng các dấu huyền, sắc, hỏi ngã, nặng trong CVT để tránh nhầm lẫn,
khó đọc.
Yếu tố tâm linh người Á Đông : Chọn số lượng ký tự sử dụng trong CVT.
Chẳng hạn tránh số 2, số 4, hay tránh thứ tự các ký tự xuất hiện trong CVT do
quan niệm “sinh, lão, bệnh, tử”. Để có chữ “sinh”, độ dài của CVT phải là 5, 9,
13… Để có chữ “lão” độ dài của CVT phải là 2, 6, 14…
Yếu tố âm tiết : Chọn lựa CVT sao cho khi đọc tạo ra âm vang và mở, tạo
ấn tượng dễ đọc, dễ nhớ. Người ta thường chọn a, ô, i, hay ex, ec, ít chọn ê, ơ.
Hai yếu tố sau thường được cân nhắc đặc biệt khi cần tìm CVT cho tên
doanh nghiệp, công ty, thương hiệu, nhãn hiệu hàng hoá, các tổ chức, dự án, đề
tài, v.v…
2.5. Sử dụng chữ viết tắt
Khi sử dụng CVT trong văn bản nói chung, người viết phải định nghĩa hay
minh giải các CVT. Có hai trường hợp như sau :
Sử dụng CVT có sẵn : CVT đã được định nghĩa, minh giải trước đây rồi,
hoặc thông dụng, nhiều người biết, không gây mập mờ, phản nghĩa khi dùng.
Sử dụng CVT mới được định nghĩa : Định nghĩa và sử dụng CVT ngay khi
xuất hiện lần
đầu trong văn bản theo dạng thức :
<Cụm từ đầy đủ > (<Chữ viết tắt>)
Các quy tắc xây dựng CVT trên đây cho phép chúng ta đưa ra 5 dấu hiệu
nhận biết CVT trong một văn bản tiếng Việt như sau :
12
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080
1 CVT nằm trong dấu ngoặc đơn (.. ), hoặc đứng sau cụm từ “viết tắt là”,
“viết tắt”, “gọi tắt là”… khi CVT được định nghĩa lần đầu.
2 CVT là chữ in hoa (có số ít trường hợp viết chữ in thường).
3 CVT có các ký tự hay dấu đặc biệt và (&), dấu gạch chéo (/), dấu gạch
ngang (-), dấu chấm (. ), dấu cách, kết hợp chữ và số…
4 CVT là một từ có độ dài có thể đạt tới 15 ký tự.
5 CVT tiếng Việt không dùng các nguyên âm â, ă, ơ, ê, ô… không dùng các
dấu thanh
huyền, sắc, hỏi ngã, nặng.
2.6. Phân lớp chữ viết tắt
Thực tế có thể có nhiều phương pháp khác nhau để phân lớp CVT : phân
lớp theo lĩnh vực sử dụng, theo địa danh, theo vần ABC, theo phạm vi sử dụng,
v.v… Trong bài báo này chúng tôi sử dụng phương pháp phân lớp CVT theo lĩnh
vực sử dụng, trước mắt ghi nhận 9 lĩnh vực chủ yếu như sau :
1. Công nghệ thông tin và truyền thông
2. Chính phủ, tổ chức chính trị xã hội
3. Khoa học công nghệ, kỹ thuật
4. Quân sự
5. Y học
6. Giáo dục
7. Tài chính, thương mại
8. Tài nguyên môi trường
9. Giao tiếp cộng đồng
13
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080
14
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080
Bảng DULIEUCVT chứa thông tin về CVT gồm trường số thứ tự của CVT,
trường CVT, trường phiên âm để có thể đọc được dễ dàng trường, trường nghĩa (giải
thích) tiếng Anh và trường nghĩa tiếng Việt, trường mã lớp và trường mã cập nhật là
hai khoá ngoài liên kết với hai CSDL tương ứng còn lại. Bảng DULIEUCVT chứa tất
cả CVT có được để khai thác và tiếp tục cập nhật. Bảng PHANLOPCVT liệt kê các
lớp CVT gồm mã lớp và tên lớp. Bảng NGUOICNCVT chứa các trường mã cập nhật,
họ tên, e-mail, ngày cập nhật của người cập nhật trực tuyến CVT và nguồn cập nhật
hay địa chỉ trang web.
Chúng tôi sử dụng hệ soạn thảo văn bản Winword để tiến hành cập nhật và kiểm
tra thủ công nội dung hệ thống CVT. Các CSDL của CVT trong Winword được xây
dựng trước khi cập nhật có cấu trúc dạng mẫu văn bản (document template) đã được
phát triển ở Khoa CNTT, Đại học Đà Nẵng [4][5]. Từ các CSDL văn bản
Winword, chúng tôi tiếp tục chuyển đổi qua dạng XML trước khi có thể khai thác sử
dụng bằng công cụ MySQL.
3.2. Cập nhật dữ liệu chữ viết tắt
Chúng tôi sử dụng nhiều nguồn dữ liệu CVT khác nhau để cập nhật vào CSDL.
Quá trình cập nhật được tiến hành qua hai bước chủ yếu như sau :
Bước 1 : cập nhật thủ công :
Đây là bước cập nhật thủ công trực tiếp vào các văn bản Winword từ các nguồn
khác nhau như sách, báo, tạp chí, văn bản pháp quy, báo cáo khoa học, hay từ thực
tiễn cuộc sống…
Bước 2 : cập nhật tự động từ internet :
Từ kết quả cập nhật ở bước 1, tiếp tục làm giàu CSDL của CVT một cách tự
động từ môi trường internet. Dựa vào các dấu hiệu nhận biết CVT trong một văn bản,
chúng tôi trích lọc ra các CVT mới để bổ sung vào CSDL. Chúng tôi phát triển máy
tìm kiếm CVT đã được giới thiệu nguyên lý trong [11]. Ý tưởng hoạt động như
sau : máy tìm kiếm CVT nhận một danh sách URL, gửi yêu cầu đến web server và
nhận lại một trang HTML tương ứng với mỗi URL, tương tự chức năng
View>Source trong trình duyệt Internet Explorer. Bước tiếp theo, hệ thống sẽ
phân tích lần lượt các thẻ HTML theo kiểu xử lý chuỗi để bóc tách nội dung văn bản
cần tìm, lọc ra CVT mới để lưu vào CSDL, nếu CVT này chưa có mặt trước đó. Thuật
toán mô tả hoạt động của máy tìm kiếm CVT trong môi trường internet như sau :
15
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080
Thuật toán :
Input : Địa chỉ URL
Output : Dữ liệu CVT nhận được bảng TUDONGCVT
Open các CSDL làm việc
trung gian Xác định các
URL làm việc
Lưu cất URL vào các CSDL làm việc
trung gian Khởi động bộ đếm CVT
Repeat
Open một tệp HTML
Read lần lượt nội dung HTML
Bóc tách dữ liệu (xoá bỏ khoảng trắng và các thẻ
HTML)
16
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080
Tìm CVT nhờ hiệ nhận biết CVT
các u
If Tìm thấy CVT Then
Kiểm tra đã có CVT trước đó hay chưa ?
If Đã có CVT trước đó Then
Tăng bộ đếm CVT
Else
Lưu cất CVT và đặt giá trị bộ đếm
tương ứng là 1 Trích chọn câu văn bản
có chứa CVT
End
If End
If
Until Khong còn tệp HTML
17
Sau khi thu thập các CVT xuất hiện trong các tệp HTML, cần tiếp tục phân lớp
CVT để bổ sung vào CSDL. Giai đoạn này cần có sự tham gia của các chuyên gia để
biên tập, hiệu chỉnh dữ liệu.
Chúng tôi xây dựng một trang web tra cứu CVT trực tuyến tiếng Việt, tiếng Anh để
phục vụ cho đài 1080 bưu điện và đông đảo NSD. Quá trình cập nhật có kiểm tra và
cảnh báo trùng lặp CVT hay trùng lặp nghĩa. Nội dung trang web trình bày nhiều nội
dung : chữ viết tắt, lịch sử hình thành, quy tắc tạo mới, tra cứu cập nhật CVT. Giao diện
cập nhật CVT được xây dựng như hình dưới đây.
Hình 2. Giao diện cập nhật dữ liệu cho CSDL chữ viết tắt.
3.3. Thống kê kết quả
Trước mắt, chúng tôi tập trung xử lý dữ liệu CVT tiếng Anh là chủ yếu. Đến thời
điểm này, chúng tôi thống kê được số lượng các CVT bằng tiếng Anh hiện có trong
CSDL như sau :
Nhìn vào kết quả thống kê chúng tôi nhận thấy dữ liệu CVT được cập nhật tự động
còn rất ít. Nhiều lĩnh vực (y học, tài chính, thương mại, giao tiếp cộng đồng…) có số
CVT được cập nhật tự động còn rất ít.
KẾT LUẬN
Xây dựng CSDL cho CVT góp phần phục vụ khai thác tốt hơn dịch vụ gia tăng
1080 của ngành Bưu chính-Viễn thông. Hơn nữa sử dụng CVT một cách nhất quán và
phổ biến để đi đến chuẩn hoá hệ thống CVT cho NSD, từng bước làm giàu hệ thống từ
vựng, góp phần phát triển ngôn ngữ. Việc đề xuất các quy tắc, đưa ra phương pháp
quản lý, xây dựng kho dữ liệu CVT phong phú, khai thác sử dụng thuận tiện, dễ dàng
cập nhật, tạo lập diễn đàn thảo luận, tạo mới CVT... là cần thiết và có ý nghĩa thực tiễn.
Những kết quả đạt được trong quá trình xây dựng và khai thác kho dữ liệu CVT
cho phép chúng tôi tiếp tục công việc nghiên cứu để hoàn thiện, từng bước đưa vào
phục vụ khai thác dịch vụ gia tăng 1080. Chúng tôi tiếp tục mở rộng kho dữ liệu CVT ở
nhiều lĩnh vực khác nhau, tăng số lượng CVT cập nhật tự động, mở rộng khả năng tra
cứu đa ngữ như tiếng Việt-Kinh, tiếng dân tộc thiểu số Việt Nam (Chăm, ÊĐê, Thái,
Kh’mer…), tiếng Anh, tiếng Pháp, tiếng Hoa… Đây là là hướng đi đúng đắn để giải
quyết vấn đề được nhiều người quan tâm.
LỜI CẢM ƠN
Em xin chân thành cảm ơn tập thể cán bộ Đài 1080, Bưu điện TP Đà Nẵng đã tạo
nhiều điều kiện thuận lợi trong quá trình tiếp cận xây dựng CSDL chữ viết tắt và thầy
Phan Tân Quốc đã hướng dẫn tận tình em trong quá trình viết tiểu luận.
TÀI LIỆU THAM KHẢO
[1] Nguyễn Tài Cẩn. Ngữ pháp tiếng việt. NXB Đại học và THCN, Hà Nội 1981.
[2] Lã Minh Hằng. Chữ Nôm trong bối cảnh văn hoá khu vực. Hội nghị Quốc tế về
chữ Nôm, ngày 12-13/11/2004, Thư viện Quốc gia Hà Nội.
[3] Ngô Thanh Nhàn, Ngô Trung Việt và nhóm Nôm Na. Quy trình Nôm Na.
Hội thảo Hè 2002 tại Đại học Maine.
[4] Phan Huy Khánh. Xây dựng cơ sở dữ liệu từ vựng đa ngữ sử dụng dạng thức
văn bản RTF Winword. Kỷ yếu Hội thảo Khoa học Quốc gia ICT. rda2003
HàNội, tr. 103-110.
[5] Phan Huy Khánh, Sử dụng công cụ lập trình macro VBA xây dựng các tiện ích
xử lý văn bản. Kỷ yếu Hội nghị Khoa học Lần thứ 3, Đại học Đà Nẵng 11/2004,
tr255-261.
[6] Nguyễn Thị Thu Thủy. Từ vựng tiếng Việt. Giáo trình đào tạo từ xa ĐH Cần
Thơ. Trang web (http://www.ctu.edu.vn/coursewares/supham/)
[7] Chim Văn Be. Ngữ pháp tiếng Việt. Giáo trình đào tạo từ xa ĐH Cần Thơ.
Trang web (http://www.ctu.edu.vn/coursewares/supham/)
[8] Nguyễn Thị Thu Thuỷ , Nguyễn Hữu Chỉnh Tổng quan về ngôn ngữ và ngôn
ngữ học. Giáo trình đào tạo từ xa ĐH Cần Thơ.
[9] Nguyễn Thanh Việt, Đỗ Kim Bằng. Thuật ngữ viết tắt Viễn thông. NXB Bưu điện,
1999.
[10] Từ điển giải nghĩa thuật ngữ Viễn thông. NXB Bưu điện – 2003
[11] Hoàng Hiệp, Xây dựng công cụ tìm kiếm bằng PHP và MySQL. Tạp chí Bưu
chính Viễn thông và CNTT, kỳ 2, 9/2004.
[12] Doctor Manuel Zahariev Acronyms. Simon Fraser University, Jun 2004.
[13] Trang web : http://www.vietlex.com
http://www.silmaril.ie/cgi-
bin/uncgi/acronyms/ http://ngonngu.net