You are on page 1of 2

19/6/2020 Bài 6: Bảng mã Unicode và bộ gõ tiếng Việt

Tóm tắt lý thuyết


1. Giới thiệu về Bảng mã Unicode
Về cơ bản, máy tính chỉ xử lí dừ liệu dạng số. Các chữ và kí tự được lưu trữ bang cách quy
định một con số cho mỗi kí tự. Có rất nhiều bộ mã khác nhau được sử dụng để quy định
những con số này. Chẳng hạn như bảng mã chuẩn ASCII (American Standard Code for
Information Interchange - Mã chuẩn Hoa Kỳ trong trao đổi thông tin), và bảng mã ASCII
mở rộng. Bảng mã ASCII sử dụng 7 bit để mã hoá, cho phép mã hoá tối đa 128 (= 27) mã kí
tự và bảng mã ASCII mở rộng có thể mã hoá được 256 (= 28) mã kí tự bàng cách sử dụng
8 bit để mã hoá. Với số lượng 256 mã, bảng mã ASCII mở rộng vần chưa đủ chỗ cho các kí
tự quốc tế, do lượng kí tự trong các ngôn ngữ tượng hình (Trung Quốc, Thái Lan, Nhật Bản,
Ả Rập, Do Thái,...) quá nhiều. Vì vậy, người ta đã phát minh ra bảng mã chuẩn quốc tế
Unicode 16 bit dùng làm bảng mã chuẩn duy nhất cho tất cả các ngôn ngữ khác nhau trên
thế giới.
Bộ mã Unicode được phát triển bởi Liên đoàn Unicode. Liên đoàn Unicode là một tổ chức
phi lợi nhuận bao gồm rất nhiều thành viên, trong đó có cả những công ty đa quốc gia lớn
như Microsoft Adobe Systems, IBM, Novell, Sun Microsystems, Symantic, Google,... Kể từ
phiên bản đẩu tiên ra đời năm 1991, bộ mã Unicode dần được hoàn thiện qua nhiều phiên
bản, phiên bản mới nhất hiện nay là 6.1 (năm 2012).
Thiết kế ban đầu của Unicode chỉ là mở rộng không gian 8 bit của bộ mã ASCII lên thành
16 bit, do đó mã hoá được số mã tối đa là 216 (= 65536). Thực tế đòi hỏi cần có nhiều mã kí
tự hơn, do đó Unicode đưa ra cấu trúc bổ trí các điểm mã theo không gian gọi là mặt
phẳng. Không gian mã của Unicode gồm 17 mặt phẳng, mỗi mặt phang có thể chứa tới
65536 kí tự. Trong đó, mặt phẳng đầu tiên được gọi là mặt phang đa ngữ cơ bản, là nơi đa
số các kí hiệu cơ bản được gắn mã, và chỉ có 63488 mã sẵn có. Các mặt phẳng còn lại
được gọi là các mặt phẳng bổ sung. Hiện tại đã có 110000 kí tự được gán mã trong phiên
bản mới nhất 6.1 của bộ mã Unicode.
Tuy nhiên, hầu hết các máy tính hiện nay vẫn còn sử dụng bộ mã ASCII. Chúng chỉ có khả
năng nhận ra các mã nhỏ hơn 256 và phần lớn các phần mềm hiện nay chỉ hỗ trợ các dữ liệu
8 bit, nên người ta đã phải dề ra nhiều cơ chế dùng Unicode. Tuỳ thuộc vào khả năng lưu trữ,
sự tương thích với các chương trình nguồn, sự tương tác với các hệ thống khác, và sự hỗ trợ
của hệ thống máy tính mà mỗi người có thể chọn một cơ chế sử dụng bộ mã Unicode phù
hợp. Cơ chế ở đây là định dạng chuyển đổi Unicode (UTF-Unicode Transformation Format),
và các cơ chế chuyển đổi phổ biến là: UTF-8, UTF-18, UTF-32.
UTF-8: Mỗi kí tự sẽ được mã hoá thành 1, 2, 3 hay 4 chuỗi 8 bit để tương thích với bộ mã
ASCII.
UTF-16: Mỗi kí tự được biểu diễn bởi 1 hay 2 chuỗi 16 bit.
UTF-32: Mồi kí tự được biểu dien bởi một chuỗi bit cổ định có chiều dài 32 bit. 
Để soạn thảo các kí tự trong máy tính, bên cạnh việc chọn bộ mã, người sử dựng cũng cần
phải lựa chọn loại font chữ thích hợp để hiển thị kí tự theo dịnh dạng mong muốn. Font chữ là
một tập hợp hoàn chỉnh các chữ cái, các dấu câu, các con số, các kí tự đặc biệt,... theo một
kiểu định dạng, hình dạng, kích cỡ phù hợp và có thể phân biệt nhau.
Font Unicode: cung cấp các cấu hình cùa các kí tự trong bảng mã Unicode, số lượng font
Unicode khá nhiều; một số font Unicode được cài đặt sẵn vào các hệ điều hành. Người sử
dụng cũng có thể’tải về các font Unicode (đa số là miễn phí) trên các website và cài đặt thêm
vào máy tính.
Đe soạn thảo văn bản tiếng Việt, có thể sừ dụng rất nhiều bàng mã khác nhau, trong đó có
ba bảng mã phổ biến nhất là: Unicode, TCVN3 và VNI. TCVN3 là bảng mã theo tiêu chuẩn cũ
của Việt Nam, các font chữ trong bảng mã này có tên bắt đầu bàng chữ .Vn. Ví dụ .VnTime.
https://hoc247.net/tin-hoc-dai-cuong/bai-6-bang-ma-unicode-va-bo-go-tieng-viet-l9048.html 1/2
19/6/2020 Bài 6: Bảng mã Unicode và bộ gõ tiếng Việt

VNI là bảng mã do công ty VNI (Việt Nam International) sở hữu bản quyền, các , font chữ
trong bảng mã VNI có tên bắt đầu bằng VNI, ví dụ, VNI-Times.
Các font chừ TCVN3 và VNI có bộ kí tự hạn chế, chỉ phù hợp cho sử dụng để soạn thảo văn
bản tiếng Việt. Hạn chế của việc soạn thảo bằng font TCVN3 hoặc VNI là khi gửi văn bản
sang một máy tính không cài các font này thì không thể đọc được văn bản dó. Các văn bản
hiện nay thường được soạn thào băng cách sử dụng font Unicode đê khăc phục hạn chế này,
do đó nhiều font chữ Unicode đã được cài đặt sẵn trong các hệ điều hành ở các máy tính. 
Để soạn thảo văn bản tiếng Việt, cần phải sử dụng bộ gõ tiếng Việt. Bộ gõ tiếng Việt là một
loại phần mềm hỗ trợ soạn thảo văn bản tiếng Việt trên máy tính, thường cần có các font chữ
cho phép soạn thảo tiếng Việt cài đặt sẵn trong máy tính. Một số bộ gõ tiếng Việt phổ biến
như Vietkey, Unikey, WINVNKEY, MVIET, VietUNI,....
Có nhiều cách gõ dấu thanh trên máy tính khác nhau, có 3 kiểu phổ biến nhất là VIQR, VNI và
TELEX.
Bảng 1.2. Phân biệt các kiểu gõ dấu tiếng Việt trong các bộ gõ tiếng Việt
Kiể Dấu Dấu Dấu Dấu Dấu Dấu Chữ Chữ Dấ Chứ
u sắc huyền hỏi ngã nặng mũ ư ơ u ă đ
VIQ
' ` ? ~ . ^ + + ( đ
R
VNI 1 2 3 4 5 6 7 7 8 d9
TEL aa, ee, uw, ow,
s f r x j aw dd
EX oo w, [ ]
 
Trong các kiểu gõ trên thì TELEX là kiểu gõ phổ biến với người Việt Nam, thậm chí người ta
mặc định kiểu gõ tiếng Việt trên máy tính là TELEX.
Trong các bộ gõ tiếng Việt, ta cũng thường bắt gặp hai khái niệm Unicode tô hợp và Unicode
dựng sẵn. Đây là hai dạng khác nhau của một chuẩn chung do tổ chức Unicode quv định. Hai
dạng này hoàn toàn tương thích với nhau, có thể dùng lẫn lộn. Thông thường, người Việt Nam
hay dùng Unicode dựng sẵn hơn là Unicode tổ hợp. Trong Unikey, Unicode dựng sẵn được
viết gọn là Unicode, Unicode tổ hợp được viết là Composed Unicode.

https://hoc247.net/tin-hoc-dai-cuong/bai-6-bang-ma-unicode-va-bo-go-tieng-viet-l9048.html 2/2

You might also like