You are on page 1of 22

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HỒ CHÍ MINH


KHOA CÔNG NGHỆ THÔNG TIN

TIỂU LUẬN HỌC PHẦN


XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT CHO DỊCH VỤ 1080

Ngành: CÔNG NGHỆ THÔNG TIN

Giảng viên hướng dẫn : Phan Tấn Quốc


Sinh viên thực hiện : Lê Công Thái Sơn
MSSV : 1511061319
Lớp : CNPM04 (15DTH14)

TP. Hồ Chí Minh, ngày 22/06/2019


MỤC LỤC

TÓM TẮT TIỂU LUẬN………………………………………………………03


1. ĐẶT VẤN ĐỀ………………………………………………………………04
2. TÌM HIỂU CHỮ VIẾT TẮT……………………………………………...06
2.1. Khái niệm và thuật ngữ……………………………………...........06
2.2. Vài nét về lịch sử chữ viết tắt……………………………………..08
2.3. Quy tắc tạo chữ viết tắt……………………………………………10
2.3.1. Quy tắc từ viết tắt………………………………………………...10
2.3.2. Quy tắc ghép âm (hay ghép tiếng)
………………………………..10
2.3.3. Quy tắc ghép tắt theo từ có nghĩa………………………………...10
2.3.4. Quy tắc sử dụng chữ cái phụ……………………………………..10
2.3.5. Quy tắc kết hợp tiếng nước ngoài………………………………..10
2.3.6. Quy tắc mượn chữ viết tắt tiếng nước ngoài……………………..10
2.3.7. Quy tắc viết tắt ngẫu nhiên……………………………………….10
2.4. Yếu tố ảnh hưởng đến việc tạo mới chữ viết tắt…………………12
2.5. Sử dụng chữ viết tắt……………………………………………….12
2.6. Phân lớp chữ viết tắt………………………………………………13
3. XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT……………………….14
3.1. Mô hình cơ sở dữ liệu……………………………………………..14
3.2. Cập nhật cơ sở dữ liệu chữ viết tắt……………………………….15
3.3. Thống kê kết quả………………………………………………….18
KẾT LUẬN ……………………………………………………………………19
LỜI CẢM ƠN………………………………………………………………….20
TÀI LIỆU THAM KHẢO…………………………………………………….21

2
TÓM TẮT TIỂU LUẬN

XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT CHO DỊCH VỤ 1080


Tóm tắt - Chữ viết tắt (CVT) trong các văn bản từ lâu được sử dụng rộng rãi
trong nhiều lĩnh vực và nhiều thứ tiếng khác nhau, kể cả tiếng Việt. Tuy nhiên không
phải lúc nào các CVT cũng được giải thích rõ ràng đầy đủ trong các văn bản, nhất là
những CVT bằng tiếng nước ngoài, thuộc lĩnh vực CNTT và truyền thông hay
thuộc những lĩnh vực mới mẻ khác. Một thực tế hiện nay là dịch vụ 1080 tại các
Trung tâm Bưu điện trong nước thường xuyên phải giải đáp thông tin CVT cho khách
hàng. Nhu cầu nâng cao chất lưọng dịch vụ 1080, giảm thiểu thời gian tìm kiếm và sai
sót khi trả lời CVT đòi hỏi phải có những kho dữ liệu CVT phong phú, sử dụng thuận
tiện, dễ dàng cập nhật và khai thác nhất quán. Trong bài báo này, tôi đề xuất giải
pháp có tính mở nhằm xây dựng một cơ sở dữ liệu CVT phục vụ hiệu quả dịch vụ 1080
và nhiều mục đích sử dụng khác trong xử lý ngôn ngữ.
Từ khoá - chữ viết tắt, từ viết tắt, cơ sở dữ liệu.

3
1. ĐẶT VẤN ĐỀ
Chữ viết tắt (CVT) quen thuộc trong cuộc sống và được sử dụng phổ biến trong
hầu hết các hệ thống ngôn ngữ viết trên thế giới từ trước đến nay, kể cả tiếng Việt.
Trên các trang báo, tạp chí, ta thường thấy các CVT thông dụng như TƯ (Trung ương),
UBND (Uỷ ban nhân dân), PTCS (Phổ thông cơ sở), PTTH (Phổ thông trung học), có
cả các CVT tiếng Anh như WTO (World Trade Organization), WHO (World Health
Organization), WB (World Bank)… Trong lĩnh vực CNTT, chúng ta gặp thường xuyên
các CVT như CSDL, QTCSDL, CTDL… tiếng Anh như DB, MDBS, ITC, RDA, v.
v… Nhờ sử dụng CVT, mọi văn bản trở nên ngắn gọn hơn, đơn giản hơn, nhưng
chuyển tải được lượng thông tin lớn hơn trong mọi lĩnh vực, mọi chuyên ngành. Thực
tế sử dụng CVT thường xuyên đã làm cho hệ thống CVT ngày càng trở nên đa dạng và
ngày càng trở nên phong phú. Một mặt, người sử dụng (NSD) có nhiều CVT để chọn
lựa, để dùng trong mọi lúc mọi nơi nhưng mặt khác, họ lại gặp rất nhiều khó khăn khi
cần tìm hiểu, tra cứu nghĩa, hay để sử dụng đúng, hợp lý CVT trong công việc, trong
soạn thảo văn bản, nhất là các CVT bằng tiếng nước ngoài, hoặc trong các lĩnh vực
khoa học kỹ thuật, xã hội kinh tế chuyên sâu…
Hiện nay, dịch vụ 1080-một dịch vụ cung cấp thông tin kinh tế xã hội của ngành
Bưu chính-Viễn thông, đã có mặt trong cuộc sống hàng ngày của người Việt nam,
phục vụ nhu cầu hỏi đáp về CVT. Tuy nhiên, hệ thống quản lý khai thác CVT này vẫn
còn mang tính địa phương, chất lượng dịch vụ chưa cao, chưa đáp ứng hợp lý nhu cầu
thực tiễn. Liên quan đến CVT, trên thị trường hiện đã có một số từ điển xuất bản như
“Từ điển viết tắt Điện tử-Viễn thông-Tin học Anh-Việt” (Tạp chí Bưu chính, Viễn
thông & CNTT). Trên internet, NSD có thể tìm thấy các trang web CVT, nhưng chủ
yếu bằng tiếng nước ngoài. Đối với tiếng Việt, hiện có trang web CVT Anh-Việt của
Trung tâm Địa lý Ứng dụng, trường ĐHSP Hà Nội
(http://dialy.dhsphn.edu.vn/index.php). NSD cũng tìm thấy các CVT, từ viết tắt trong
một số ứng dụng Tin học như một số bộ gõ tiếng Việt, từ điển Tin học… Tuy nhiên
những hệ thống CVT này hoặc không đầy đủ, hoặc chưa có tính hệ thống, hoặc còn
nhiều sai sót, nhầm lẫn.
Trong chiến lược phát triển lâu dài, ngành Bưu chính-Viễn thông luôn khuyến khích
tìm kiếm các giải pháp để nâng cao chất lượng các dịch vụ gia tăng, đáp ứng ngày
càng hợp lý mọi nhu cầu thiết yếu của khách hàng. Đối với dịch vụ 1080, cần xây
dựng sớm kho ngữ liệu các CVT, tập trung phục vụ các ngành khoa học kỹ thuật, kinh
tế, thương mại, du lịch, văn hoá, xã hội…, trong đó chú trọng chuyên ngành CNTT và
truyền thông. Từ đây đặt ra rất nhiều vấn đề phức tạp cần giải quyết, liên quan đến lĩnh
4
vực xử lý ngôn ngữ tự nhiên và cơ sở dữ liệu, tìm kiếm phương pháp phân tích, tổng
hợp và phân loại các nguồn dữ liệu CVT đa tạp bằng tiếng Việt và tiếng nước ngoài,
đề xuất giải pháp triển khai, giúp nhân viên các đài 1080 khai thác tốt nguồn tài
nguyên đã có để phục vụ khách hàng, tăng hiệu năng tìm kiếm trả lời, v. v...
Nội dung bài báo như sau : trước tiên chúng tôi trình bày những tìm hiểu về
CVT, lịch sử phát triển, các quy tắc tạo ra CVT, phân lớp CVT và những yếu tố có thể
ảnh hưởng đến việc tạo mới CVT. Phần tiếp theo, chúng tôi trình bày giải pháp xây
dựng cơ sở dữ liệu (CSDL) CVT, thống kê đánh giá kết quả. Phần cuối cùng là kết
luận.

5
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080

2. TÌM HIỂU CHỮ VIẾT TẮT


2.1.Khái niệm và thuật ngữ
Thuật ngữ “chữ viết tắt” (tiếng Anh abbreviation) chưa có mặt trong những từ
điển tiếng Việt thông dụng có mặt trên thị trường1 hiện nay, kể cả trong cuốn “Từ điển
Bách khoa Việt Nam” tập 1 (vần A-Đ 2), nhưng lại rất quen dùng trong cuộc sống. Sử
dụng công cụ tìm kiếm Google, chúng ta có thể tìm thấy rất nhiều trang web sử dụng
thuật ngữ này.
Chúng ta hay gặp CVT ở dạng “từ viết tắt” hay “từ tắt” (acronym). Từ viết tắt
nhằm mục đích tạo ra chữ viết khác chữ viết thông thường, được sử dụng khi phải
viết lặp đi lặp lại nhiều lần một cụm từ, một cụm câu hay một đoạn văn bản nào đó,
sao cho thoả mãn được yêu cầu tiện dụng [6], [7]. Từ thuở xa xưa, con người đã biết
cách sử dụng từ viết tắt để khắc chạm trên đá, trên gỗ…, nhằm tiết kiệm thời gian,
công sức và vật liệu lưu trữ. Theo Manuel Zahariev [12], từ viết tắt có nguồn gốc từ
tiếng Hy Lạp cổ đại, acronym gồm akron (cuối cùng, hay đầu mút) và onoma (tên,
hay tiếng). Một số từ điển tiếng Anh giải thích từ viết tắt là cách thức tạo ra một dạng
từ mới ngắn gọn hơn bằng cách dùng những chữ cái đầu (initial letters), hoặc từ
những từ cuối hay từ nào đó trích ra từ các từ hay cụm từ đã có. Chẳng hạn UNESCO
viết tắt từ “United Nations Educational, Scientific and Cultural Organization” (Tổ
chức Giáo dục, Khoa học và Văn hoá của Liên Hiệp Quốc), DATIC (Danang Applied
Technologies of the Information and Communication), v. v…
Một dạng khác của CVT là cách ghép liên tiếp có chủ ý các âm hay vần của đoạn
cần viết tắt sao cho cụm từ mới tạo ra có ấn tượng, dễ đọc, dễ viết, hay gây ra được
một sự chú ý nào đó. Ví dụ VIFOTEC (Vietnam Fund for Supporting Technological
Creativeness-Quỹ Hỗ trợ Sáng tạo Kỹ thuật Việt Nam), FAHASABA (Công ty cổ
phần xúc tiến thương mại điện tử và phát hành sách báo Việt Nam), DIHAVINA (Nhà
xuất bản âm nhạc), v.v…
Chúng ta còn gặp CVT ở dạng rút gọn, tức là cụm từ hay đoạn văn bản cần viết
tắt đã cho được rút gọn một số ký tự, hay được trích, chọn hoặc được thay thế một
phần nào đó để ghép lại thành cụm các ký tự mới, tạo điều kiện thuận lợi hơn trong
viết và nói. Ví dụ trong tiếng Anh, mon, tue, wed… là tên viết tắt các ngày trong tuần,
jan, feb, mar… là tên viết tắt các tháng,

1 Chúng tôi tìm thấy trong từ điển song ngữ Việt-Anh của tác giả Bùi Phụng, do nhà xuất bản Thế
Giới xuất bản năm 1998.
6
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080
2 Do Hội đồng Quốc gia Chỉ đạo Biên soạn Từ điển Bách khoa Việt nam biên soạn, Trung tâm Biên
soạn Từ điển Bách khoa Việt Nam xuất bản tại Hà Nội năm 1995.
v.v…. Trong tiếng Việt cũng dùng tên viết tắt để chỉ vùng địa lý, chẳng hạn xứ Thanh,
xứ Nghệ, xứ Quảng...
Từ khi bùng nổ internet, các ngôn ngữ viết nói chung đã được phát triển theo
một hướng mới nhờ NSD sử dụng rất nhiều CVT và dấu hiệu quy ước. Chẳng hạn
trong tiếng Anh, khi trao đổi bằng e-mail hay nhắn tin di động thường sử dụng IMHO
để chỉ cụm từ “in my humble opinion” (theo ý kiến nông cạn của tôi), các ký hiệu
khôi hài , , U (you)… Sử dụng CVT trong lĩnh vực CNTT và truyền thông
ngày nay (internet, nhắn tin di động, email... ) một mặt đã làm cho NSD ngày càng
hưởng lợi, nhưng cũng chính sự đa dạng phong phú này của CVT, hay sự lạm dụng
CVT đều gây phiền phức cho NSD.

7
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080

2.2. Vài nét về lịch sử chữ viết tắt


CVT được dùng phổ biến ở nước ngoài từ rất sớm. Chẳng hạn SPQR viết tắt cho
cụm từ “Senatus Populusque Romæ” (Cộng hoà Đế chế La Mã, hay Hội đồng nhà nước
và nhân dân thành La Mã) đã xuất hiện cách đã có gần 2000 năm lịch sử [12], QED
viết tắt cho cụm từ “Quod Erat Demonstrandum” (điều đã được chứng minh) trong tác
phẩm “Ethica More Geometrico Demonstrata” của nhà triết học Benedictus de Spinoza
(1632-1677). Trong trang web http://www.acronymfinder.com tra cứu CVT tiếng Anh,
người ta tìm thấy 84 trường hợp cùng sử dụng từ viết tắt CIA cho nhiều lĩnh vực khác
nhau. Theo thống kê của Manuel Zahariev, hiện nay có khoảng 17. 000 CVT tiếng Pháp,
50. 000 CVT tiếng Đức, v. v…
Ở Việt Nam, cho đến nay hầu như chưa có nhiều tài liệu nghiên cứu một cách đầy
đủ về CVT tiếng Việt. Tuy nhiên, CVT tiếng Việt đã được hình thành từ rất sớm. Sự ra
đời của chữ Nôm từ thế kỷ 18 của cha ông ta chính là một cách khác để viết chữ Hán,
thay thế chữ Hán sau gần một ngàn năm Bắc thuộc [2], [3]. Trong hệ thống chữ
Nôm, mỗi chữ Nôm cũng có dạng hình vuông, được tạo thành nhờ lắp ghép các chữ Hán
theo hình thức biểu âm, biểu ý, hoặc viết lược nét, viết tắt. Chẳng hạn chữ Hán
(cộng) chữ được viết bớt nét thành chữ Nôm (khạng), chữ Hán (vi) được viết
giản lược thành chữ Nôm (làm).
Khi chữ quốc ngữ (tiếng Việt ngày nay) được dùng phổ biến, CVT bắt đầu được sử
dụng, ví dụ bút danh C. D. là tên hiệu Chương Dân của Phan Khôi trên Đông Pháp Thời
Báo năm 1928. Ngày nay, CVT tiếng Việt được sử dụng ngày càng phong phú trong
nhiều lĩnh vực khác nhau. Hiện chưa có những công trình thống kê một cách đầy đủ về
CVT tiếng Việt nhưng CVT đã được sử dụng phổ biến trên nhật báo, tạp chí. Chẳng hạn
trong báo Nhân Dân số ra ngày 26/03/2006, chúng tôi đếm được 82 CVT khác nhau
được dùng, trong đó có 18 CVT có giải thích đặt trong dấu ngoặc, 7 CVT bằng tiếng
nước ngoài. Nhiều CVT được sử dụng nhiều lần chẳng hạn như T.Ư (Trung ương) 23
lần trong 10 bài khác nhau. Có CVT rất lạ như BOT, được giải thích là chi nhánh BOT
thu phí. Trong báo Thanh Niên số ra ngày 25/03/2006, có 102 CVT khác nhau, trong đó
có 21 CVT có mở ngoặc giải thích. TP. HCM (Thành phố Hồ Chí Minh) được sử dụng
68 lần trong 17 bài khác nhau. CVT dài nhất có 12 ký tự là GĐ&QLCLCT-GT (Giám
định và quản lý chất lượng công trình giao thông). Có nhiều CVT chưa sử dụng nhất
quán. Chẳng hạn TƯ. TW và T.Ư, GD&ĐT và GD-ĐT, TP và TP., PTTH và THPT,
v.v…
Nhiều tác giả quan niệm CVT tiếng Việt là một hiện tượng ngữ pháp [8],
[9][10]. Theo GS. Nguyễn Tài Cẩn, chúng ta “có kiểu nói tắt kiểu rút gọn lại một âm
8
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080
tiết chứ không nói tắt bằng cách dựa vào những chữ cái đầu hay âm đầu… Những từ
viết tắt như DT (danh từ), VN (Việt Nam), HTX (hợp tác xã)… chỉ sử dụng thuần tuý
trong văn bản”. Dù có nhiều quan điểm khác nhau về sử dụng, CVT tồn tại như là một
phần không thể thiếu được của tiếng Việt.

9
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080

2.3. Quy tắc tạo chữ viết tắt


Từ kết quả phân tích, tìm hiểu nhu cầu và thực tiễn sử dụng CVT trong cuộc sống,
chúng tôi nhận thấy có 7quy tắc tạo sinh CVT như sau :
2.3.1. Quy tắc từ viết tắt :
Lấy lần lượt tất cả các chữ cái đầu của mỗi từ độc lập có mặt trong cụm từ cần viết
tắt, sau đó ghép chúng lại thành từ viết tắt viết hoa. Để dễ đọc và dễ dễ nhận biết, chúng
tôi đề nghị CVT có thể sử dụng các ký tự đặc biệt hay các dấu như dấu và (&), dấu phân
cách (/), dấu gạch ngang (-), dấu chấm (. ), dấu cách, kết hợp chữ và số…
Ví dụ : UBND = “Uỷ ban Nhân dân”, HĐND = “Hội đồng Nhân dân”, GD-ĐT (Bộ
Giáo dục và Đào tạo), /QĐ-ĐHĐN (số công văn)…
2.3.2. Quy tắc ghép âm (hay ghép tiếng) :
Lấy lần lượt các âm chính đầu, hay phần âm dễ đọc, dễ nhận biết của mỗi từ trong
cụm từ cần viết tắt, sau đó ghép chúng lại thành từ viết tắt. Quy tắc này hay được dùng
trong nhãn hiệu hàng hoá, thương hiệu doanh nghiệp, xí nghiệp, công ty… Cách viết tắt
này không nhất thiết phải viết hoa hoàn toàn, tuỳ theo chủ ý trình bày gây ấn tượng của
người quảng bá nhãn hiệu, thương hiệu.
Ví dụ : DANA (Đà Nẵng), VINA (Việt Nam), VINAXUKI = Nhà máy ô tô Xuân
Kiên Việt Nam…
2.3.3. Quy tắc ghép tắt theo từ có nghĩa :
Tương tự quy tắc 1 nhưng chỉ lấy lần lượt các chữ cái đầu của mỗi từ có nghĩa
(thường là từ kép) có mặt trong cụm từ cần viết tắt, sau đó ghép chúng lại thành từ viết
tắt viết hoa. Quy tắc này lược bỏ nhiều chữ cái, khó phục hồi nguyên dạng cả cụm từ
khi diễn nghĩa, cho nên ít được sử dụng.
Ví dụ : KCS (Kiểm tra chất lượng sản phẩm, VTM (Văn hoá Thể dục Mỹ Thuật)...
2.3.4. Quy tắc sử dụng chữ cái phụ :
Tương tự quy tắc quy tắc 1 và 3 nhưng có sử dụng kèm theo chữ cái phụ không viết
hoa nhằm biểu ý. Quy tắc này cũng có thể ít được sử dụng.
Ví dụ : TTg (Thủ tướng), Ng (Nguyễn), Tr (Trường), Cty (Công ty)…
2.3.5. Quy tắc kết hợp tiếng nước ngoài :
Tương tự quy tắc quy tắc 1, 3 và 4 nhưng có kết hợp tiếng Việt với tiếng nước
ngoài. Quy tắc này chủ yếu sử dụng cách ghép nối của tiếng Anh.
10
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080
Ví dụ DAPHONE (Đà Nẵng Phone, thương hiệu Điện thoại vô tuyến nội thị Đà
Nẵng), VINAMILK (Công ty Sữa Việt Nam, DRT(Đà Nẵng Radio Tivi)...
2.3.6. Quy tắc mượn chữ viết tắt tiếng nước ngoài :
Mượn nguyên CVT tiếng nước ngoài để sử dụng cho CVT tiếng Việt. Đây là cách
sử dụng khá phổ biến hiện nay, chủ yếu liên quan đến các thuật ngữ viết tắt trong các
lĩnh vực CNTT, Y học, Kinh tế, Tài chính, hay giao tiếp qua Email, tin nhắn di động…
Bản chất thuật ngữ viết tắt thường mang tính đa nghĩa, do vậy, việc sử dụng thuật ngữ
viết tắt vay mượn tiếng nước ngoài (cả về cách đọc, lẫn ý nghĩa sử dụng) đã góp phần
làm giàu kho CVT tiếng Việt một cách tự nhiên.
Ví dụ : trong tác phẩm Thuật ngữ viết tắt Viễn thông [10], có hơn 3. 500 thuật
ngữ viết tắt mượn nguyên thuật ngữ viết tắt tiếng nước ngoài, phổ biến hơn cả là tiếng
Anh, tiếng Pháp. Chẳng hạn AA (abreviated addressing, định vị địa chỉ viết tắt), AA
(absolute acces address, địa chỉ truy nhập tuyệt đối),…
2.3.7. Quy tắc viết tắt ngẫu nhiên :
Là quy tắc viết tắt tuỳ tiện, không theo nguyên tắc nào, nhưng ít nhiều cũng tuân
theo những quy tắc ngữ pháp tiếng Việt [1], [13]. Quy tắc này dùng thoải mái các kí
hiệu, các dấu viết tắt tiếng Việt hay tiếng nước ngoài, được chế biến mô phỏng tuỳ tiện
ngẫu nhiên, mang tính chất cá nhân hay tập thể, dùng trong ghi chép cá nhân, soạn thảo
nhắn tin di động… Do tiết kiệm được thời gian và công sức, dễ hiểu, dễ nhớ, quy tắc
này được dùng tương đối phổ biến, nhất là trong giới học sinh, sinh viên, nhà báo… Tuy
nhiên nói chung, các trường hợp sau đây không nên viết tắt :
- Sử dụng CVT một cách tuỳ tiện không nơi đúng chỗ.
- Sử dụng trong giao dịch kinh doanh
- Trong hồ sơ bệnh án.
Ví dụ : fê fán (phê phán), ff (phương pháp), tc (tính chất), ~ (những), ≠ (khác),
vật
(nhân vật), of (của), on (trên), …

11
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080

2.4. Yếu tố ảnh hưởng đến việc tạo mới chữ viết tắt
Có 4 yếu tố ảnh hưởng đến việc tạo mới CVT như sau :
Yếu tố số lượng ký tự : CVT không được dài quá. Nói chung hiện nay độ
dài CVT thường không vượt quá 15 ký tự.
Yếu tố dấu thanh trong tiếng Việt : Tránh viết tắt các nguyên âm mang dấu
như â, ă, ơ,
ê…, không dùng các dấu huyền, sắc, hỏi ngã, nặng trong CVT để tránh nhầm lẫn,
khó đọc.
Yếu tố tâm linh người Á Đông : Chọn số lượng ký tự sử dụng trong CVT.
Chẳng hạn tránh số 2, số 4, hay tránh thứ tự các ký tự xuất hiện trong CVT do
quan niệm “sinh, lão, bệnh, tử”. Để có chữ “sinh”, độ dài của CVT phải là 5, 9,
13… Để có chữ “lão” độ dài của CVT phải là 2, 6, 14…
Yếu tố âm tiết : Chọn lựa CVT sao cho khi đọc tạo ra âm vang và mở, tạo
ấn tượng dễ đọc, dễ nhớ. Người ta thường chọn a, ô, i, hay ex, ec, ít chọn ê, ơ.
Hai yếu tố sau thường được cân nhắc đặc biệt khi cần tìm CVT cho tên
doanh nghiệp, công ty, thương hiệu, nhãn hiệu hàng hoá, các tổ chức, dự án, đề
tài, v.v…
2.5. Sử dụng chữ viết tắt
Khi sử dụng CVT trong văn bản nói chung, người viết phải định nghĩa hay
minh giải các CVT. Có hai trường hợp như sau :
Sử dụng CVT có sẵn : CVT đã được định nghĩa, minh giải trước đây rồi,
hoặc thông dụng, nhiều người biết, không gây mập mờ, phản nghĩa khi dùng.
Sử dụng CVT mới được định nghĩa : Định nghĩa và sử dụng CVT ngay khi
xuất hiện lần
đầu trong văn bản theo dạng thức :
<Cụm từ đầy đủ > (<Chữ viết tắt>)
Các quy tắc xây dựng CVT trên đây cho phép chúng ta đưa ra 5 dấu hiệu
nhận biết CVT trong một văn bản tiếng Việt như sau :

12
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080

1 CVT nằm trong dấu ngoặc đơn (.. ), hoặc đứng sau cụm từ “viết tắt là”,
“viết tắt”, “gọi tắt là”… khi CVT được định nghĩa lần đầu.
2 CVT là chữ in hoa (có số ít trường hợp viết chữ in thường).
3 CVT có các ký tự hay dấu đặc biệt và (&), dấu gạch chéo (/), dấu gạch
ngang (-), dấu chấm (. ), dấu cách, kết hợp chữ và số…
4 CVT là một từ có độ dài có thể đạt tới 15 ký tự.
5 CVT tiếng Việt không dùng các nguyên âm â, ă, ơ, ê, ô… không dùng các
dấu thanh
huyền, sắc, hỏi ngã, nặng.
2.6. Phân lớp chữ viết tắt
Thực tế có thể có nhiều phương pháp khác nhau để phân lớp CVT : phân
lớp theo lĩnh vực sử dụng, theo địa danh, theo vần ABC, theo phạm vi sử dụng,
v.v… Trong bài báo này chúng tôi sử dụng phương pháp phân lớp CVT theo lĩnh
vực sử dụng, trước mắt ghi nhận 9 lĩnh vực chủ yếu như sau :
1. Công nghệ thông tin và truyền thông
2. Chính phủ, tổ chức chính trị xã hội
3. Khoa học công nghệ, kỹ thuật
4. Quân sự
5. Y học
6. Giáo dục
7. Tài chính, thương mại
8. Tài nguyên môi trường
9. Giao tiếp cộng đồng

13
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080

3. XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT


3.1. Mô hình cơ sở dữ liệu
Chúng tôi xây dựng cơ sở dữ liệu (CSDL) cho CVT gồm 3 bảng DULIEUCVT
(dữ liệu CVT), PHANLOPCVT (phân lớp CVT) và NGUOICNCVT (người cập nhật
CVT) có quan hệ với nhau như hình dưới đây.

Hình 1. Quan hệ giữa các CSDL chữ viết tắt.

14
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080

Bảng DULIEUCVT chứa thông tin về CVT gồm trường số thứ tự của CVT,
trường CVT, trường phiên âm để có thể đọc được dễ dàng trường, trường nghĩa (giải
thích) tiếng Anh và trường nghĩa tiếng Việt, trường mã lớp và trường mã cập nhật là
hai khoá ngoài liên kết với hai CSDL tương ứng còn lại. Bảng DULIEUCVT chứa tất
cả CVT có được để khai thác và tiếp tục cập nhật. Bảng PHANLOPCVT liệt kê các
lớp CVT gồm mã lớp và tên lớp. Bảng NGUOICNCVT chứa các trường mã cập nhật,
họ tên, e-mail, ngày cập nhật của người cập nhật trực tuyến CVT và nguồn cập nhật
hay địa chỉ trang web.
Chúng tôi sử dụng hệ soạn thảo văn bản Winword để tiến hành cập nhật và kiểm
tra thủ công nội dung hệ thống CVT. Các CSDL của CVT trong Winword được xây
dựng trước khi cập nhật có cấu trúc dạng mẫu văn bản (document template) đã được
phát triển ở Khoa CNTT, Đại học Đà Nẵng [4][5]. Từ các CSDL văn bản
Winword, chúng tôi tiếp tục chuyển đổi qua dạng XML trước khi có thể khai thác sử
dụng bằng công cụ MySQL.
3.2. Cập nhật dữ liệu chữ viết tắt
Chúng tôi sử dụng nhiều nguồn dữ liệu CVT khác nhau để cập nhật vào CSDL.
Quá trình cập nhật được tiến hành qua hai bước chủ yếu như sau :
Bước 1 : cập nhật thủ công :
Đây là bước cập nhật thủ công trực tiếp vào các văn bản Winword từ các nguồn
khác nhau như sách, báo, tạp chí, văn bản pháp quy, báo cáo khoa học, hay từ thực
tiễn cuộc sống…
Bước 2 : cập nhật tự động từ internet :
Từ kết quả cập nhật ở bước 1, tiếp tục làm giàu CSDL của CVT một cách tự
động từ môi trường internet. Dựa vào các dấu hiệu nhận biết CVT trong một văn bản,
chúng tôi trích lọc ra các CVT mới để bổ sung vào CSDL. Chúng tôi phát triển máy
tìm kiếm CVT đã được giới thiệu nguyên lý trong [11]. Ý tưởng hoạt động như
sau : máy tìm kiếm CVT nhận một danh sách URL, gửi yêu cầu đến web server và
nhận lại một trang HTML tương ứng với mỗi URL, tương tự chức năng
View>Source trong trình duyệt Internet Explorer. Bước tiếp theo, hệ thống sẽ
phân tích lần lượt các thẻ HTML theo kiểu xử lý chuỗi để bóc tách nội dung văn bản
cần tìm, lọc ra CVT mới để lưu vào CSDL, nếu CVT này chưa có mặt trước đó. Thuật
toán mô tả hoạt động của máy tìm kiếm CVT trong môi trường internet như sau :

15
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080

Thuật toán :
Input : Địa chỉ URL
Output : Dữ liệu CVT nhận được bảng TUDONGCVT
Open các CSDL làm việc
trung gian Xác định các
URL làm việc
Lưu cất URL vào các CSDL làm việc
trung gian Khởi động bộ đếm CVT
Repeat
Open một tệp HTML
Read lần lượt nội dung HTML
Bóc tách dữ liệu (xoá bỏ khoảng trắng và các thẻ
HTML)

16
Lê Công Thái Sơn – Tiểu luận xây dựng CSDL chữ viết tắt cho dịch vụ 1080
Tìm CVT nhờ hiệ nhận biết CVT
các u
If Tìm thấy CVT Then
Kiểm tra đã có CVT trước đó hay chưa ?
If Đã có CVT trước đó Then
Tăng bộ đếm CVT
Else
Lưu cất CVT và đặt giá trị bộ đếm
tương ứng là 1 Trích chọn câu văn bản
có chứa CVT
End
If End
If
Until Khong còn tệp HTML

17
Sau khi thu thập các CVT xuất hiện trong các tệp HTML, cần tiếp tục phân lớp
CVT để bổ sung vào CSDL. Giai đoạn này cần có sự tham gia của các chuyên gia để
biên tập, hiệu chỉnh dữ liệu.
Chúng tôi xây dựng một trang web tra cứu CVT trực tuyến tiếng Việt, tiếng Anh để
phục vụ cho đài 1080 bưu điện và đông đảo NSD. Quá trình cập nhật có kiểm tra và
cảnh báo trùng lặp CVT hay trùng lặp nghĩa. Nội dung trang web trình bày nhiều nội
dung : chữ viết tắt, lịch sử hình thành, quy tắc tạo mới, tra cứu cập nhật CVT. Giao diện
cập nhật CVT được xây dựng như hình dưới đây.

Hình 2. Giao diện cập nhật dữ liệu cho CSDL chữ viết tắt.
3.3. Thống kê kết quả
Trước mắt, chúng tôi tập trung xử lý dữ liệu CVT tiếng Anh là chủ yếu. Đến thời
điểm này, chúng tôi thống kê được số lượng các CVT bằng tiếng Anh hiện có trong
CSDL như sau :

Bảng 1. Thống kê CSDL chữ viết tắt.


Cập nhật Cập nhật Tỷ lệ %
Stt Lĩnh vực Cộng
thủ công tự động cập nhật thủ công
1 Công nghệ thông tin và truyền thông 754 418 1172 64%
2 Chính phủ, tổ chức chính trị xã hội 301 265 566 53%
3 Khoa học công nghệ, kỹ thuật 273 210 483 56%
4 Quân sự 202 104 306 66%
5 Y học 253 64 317 80%
6 Giáo dục 301 147 448 67%
7 Tài chính, thương mại 403 175 578 70%
8 Tài nguyên môi trường 163 194 357 46%
9 Giao tiếp cộng đồng 121 16 137 88%
Tổng cộng 2771 1594 4366 63%

Nhìn vào kết quả thống kê chúng tôi nhận thấy dữ liệu CVT được cập nhật tự động
còn rất ít. Nhiều lĩnh vực (y học, tài chính, thương mại, giao tiếp cộng đồng…) có số
CVT được cập nhật tự động còn rất ít.
KẾT LUẬN
Xây dựng CSDL cho CVT góp phần phục vụ khai thác tốt hơn dịch vụ gia tăng
1080 của ngành Bưu chính-Viễn thông. Hơn nữa sử dụng CVT một cách nhất quán và
phổ biến để đi đến chuẩn hoá hệ thống CVT cho NSD, từng bước làm giàu hệ thống từ
vựng, góp phần phát triển ngôn ngữ. Việc đề xuất các quy tắc, đưa ra phương pháp
quản lý, xây dựng kho dữ liệu CVT phong phú, khai thác sử dụng thuận tiện, dễ dàng
cập nhật, tạo lập diễn đàn thảo luận, tạo mới CVT... là cần thiết và có ý nghĩa thực tiễn.
Những kết quả đạt được trong quá trình xây dựng và khai thác kho dữ liệu CVT
cho phép chúng tôi tiếp tục công việc nghiên cứu để hoàn thiện, từng bước đưa vào
phục vụ khai thác dịch vụ gia tăng 1080. Chúng tôi tiếp tục mở rộng kho dữ liệu CVT ở
nhiều lĩnh vực khác nhau, tăng số lượng CVT cập nhật tự động, mở rộng khả năng tra
cứu đa ngữ như tiếng Việt-Kinh, tiếng dân tộc thiểu số Việt Nam (Chăm, ÊĐê, Thái,
Kh’mer…), tiếng Anh, tiếng Pháp, tiếng Hoa… Đây là là hướng đi đúng đắn để giải
quyết vấn đề được nhiều người quan tâm.
LỜI CẢM ƠN
Em xin chân thành cảm ơn tập thể cán bộ Đài 1080, Bưu điện TP Đà Nẵng đã tạo
nhiều điều kiện thuận lợi trong quá trình tiếp cận xây dựng CSDL chữ viết tắt và thầy
Phan Tân Quốc đã hướng dẫn tận tình em trong quá trình viết tiểu luận.
TÀI LIỆU THAM KHẢO
[1] Nguyễn Tài Cẩn. Ngữ pháp tiếng việt. NXB Đại học và THCN, Hà Nội 1981.
[2] Lã Minh Hằng. Chữ Nôm trong bối cảnh văn hoá khu vực. Hội nghị Quốc tế về
chữ Nôm, ngày 12-13/11/2004, Thư viện Quốc gia Hà Nội.
[3] Ngô Thanh Nhàn, Ngô Trung Việt và nhóm Nôm Na. Quy trình Nôm Na.
Hội thảo Hè 2002 tại Đại học Maine.
[4] Phan Huy Khánh. Xây dựng cơ sở dữ liệu từ vựng đa ngữ sử dụng dạng thức
văn bản RTF Winword. Kỷ yếu Hội thảo Khoa học Quốc gia ICT. rda2003
HàNội, tr. 103-110.
[5] Phan Huy Khánh, Sử dụng công cụ lập trình macro VBA xây dựng các tiện ích
xử lý văn bản. Kỷ yếu Hội nghị Khoa học Lần thứ 3, Đại học Đà Nẵng 11/2004,
tr255-261.
[6] Nguyễn Thị Thu Thủy. Từ vựng tiếng Việt. Giáo trình đào tạo từ xa ĐH Cần
Thơ. Trang web (http://www.ctu.edu.vn/coursewares/supham/)
[7] Chim Văn Be. Ngữ pháp tiếng Việt. Giáo trình đào tạo từ xa ĐH Cần Thơ.
Trang web (http://www.ctu.edu.vn/coursewares/supham/)
[8] Nguyễn Thị Thu Thuỷ , Nguyễn Hữu Chỉnh Tổng quan về ngôn ngữ và ngôn
ngữ học. Giáo trình đào tạo từ xa ĐH Cần Thơ.
[9] Nguyễn Thanh Việt, Đỗ Kim Bằng. Thuật ngữ viết tắt Viễn thông. NXB Bưu điện,
1999.
[10] Từ điển giải nghĩa thuật ngữ Viễn thông. NXB Bưu điện – 2003
[11] Hoàng Hiệp, Xây dựng công cụ tìm kiếm bằng PHP và MySQL. Tạp chí Bưu
chính Viễn thông và CNTT, kỳ 2, 9/2004.
[12] Doctor Manuel Zahariev Acronyms. Simon Fraser University, Jun 2004.
[13] Trang web : http://www.vietlex.com
http://www.silmaril.ie/cgi-
bin/uncgi/acronyms/ http://ngonngu.net

You might also like