You are on page 1of 5

Tiêu chuẩn (.

doc) Word Document Format –


Định dạng văn bản Word của Microsoft phiên bản Word

Tổng quan về Word Document Format


Tiêu chuẩn (.doc) - Word Document Format – là một định dạng tập tin tài liệu
được sử dụng bởi Microsoft Word, cũng được sử dụng với hầu hết các phần mềm xử
lý văn bản. (.doc) là hậu tố của tập tin tài liệu. Một tập tin (.doc) có thể chứa định dạng
văn bản, hình ảnh, bảng biểu, đồ thị, biểu đồ, các thiết lập định dạng trang và in ấn.
Trong thời gian cuối những năm 1990 và đầu những năm 2000, các định dạng tài liệu
Word mặc định (.doc) đã trở thành một tiêu chuẩn cho định dạng tập tin tài liệu với
người dùng Microsoft Office. Có nhiều phiên bản khác nhau của "Word Document
Format" được sử dụng mặc định trong Word 97-2007.
Sự phát triển của Word Document Format trong Microsoft Word từ năm 1983
tới 2007 như sau:

Ngày
công
bố Phiên bản Mô tả
Phiên bản Word đầu tiên này chạy trên hệ điều hành MS-
1983 Word 1.0
DOS.
Word cho
1989 Phiên bản Microsoft Word đầu tiên chạy trên Windows.
Windows
Word cho
Word 2.0 trở nên khá phổ biến đối với người sử dụng trước
1991 Windows
khi có Word 6.0.
2.0
Word 6.0 dùng cho cả DOS và Windows. Phiên bản này đã
được dùng khá phổ biến trong suốt thời gian đó cùng với các
Word 6.0 ứng dụng khác của bộ ứng dụng văn phòng Microsoft Office
1993 cho phiên bản 4.3. Word 6.0 cho DOS cũng là bản cuối cùng của
Windows Word dành cho MS-DOS. Số 6 trong tên phiên bản ứng với
phiên bản WordPerfect cùng thời và phiên bản Word dùng
cho DOS.
Cùng với sự ra đời của Windows 95, một phiên bản 32-bit của
hệ điều hành Windows, Microsoft cho phát hành Word 95,
Word 95 còn được biết đến với cái tên Word 7.0. Về cơ bản, Word 7.0
1995 hay Word giống Word 6.0, nhưng nó hỗ trợ chế độ 32-bit của Windows
7.0 95, mà điển hình là hỗ trợ tên tập tin dài (long filename),
trong khi MS-DOS chỉ hỗ trợ tên tập tin dài đến 8 ký tự cho
phần tên và 3 ký tự cho phần mở rộng, gọi tắt là 8.3.
Đây là phiên bản phổ biến tiếp theo, thuộc gói sản phẩm
1997 Word 97
Microsoft Office 97.
Ngày
công
bố Phiên bản Mô tả
1999 Word 2000 Đi kèm với bộ phần mềm Microsoft Office 2000.
Đi kèm với bộ phần mềm Microsoft Office XP, còn được gọi
2001 Word XP
là Word 2002.
Office
2003 Đi cùng với gói công cụ văn phòng Microsoft Office 2003.
Word 2003
Đi kèm với Microsoft Office 2007. Phiên bản này có giao
diện hoàn toàn khác so với các phiên bản trước. Định dạng
Office văn bản mặc định được đổi thành .docx (theo chuẩn Office
2006
Word 2007 Open XML) thay vì .doc như các phiên bản trước. Vì vậy,
định dạng .docx không được hỗ trợ bởi các phiên bản Word
trước 2007.

Các định dạng nhị phân cho Microsoft Word 97 và các phiên bản sau này được
dựa trên một cấu trúc được gọi là một tập tin (.doc). Một tập tin word (.doc) gồm:
dòng chính (Main Stream), tóm tắt dòng thông tin, dòng bảng biểu (table stream),
dòng dữ liệu (data stream), tuỳ chỉnh lưu trữ XML (Extensible Markup Language
(XML) – Giao thức Ngôn ngữ đánh dấu mở rộng), không hoặc nhiều dòng đối tượng
có chứa các dữ liệu cá nhân cho đối tượng nhúng trong tài liệu Word.
Một định dạng tập tin nhị phân là định dạng tập tin bất kỳ có chứa dữ liệu chủ
yếu dạng nhị phân. Điều này bao gồm các chương trình biên soạn, hình ảnh, phương
tiện truyền thông, các tập tin nén và các tập tin có thể chứa thông tin dạng văn bản mà
được lưu trữ như dữ liệu nhị phân. Các định dạng tập tin nhị phân sử dụng các sản
phẩm Microsoft Office phù hợp. Định dạng không nhị phân có thể bao gồm văn bản
(.txt), (.html), (.xml) và các dẫn xuất của nó, giải thích kịch bản và tập tin mã nguồn.

Các thành phần chính của các định dạng tập tin (.doc)
- Word Document Stream: Các dòng Word Document là dòng chính trong một
tập tin (.doc) chứa tất cả các dữ liệu trong tập tin ngoại trừ cho các bảng, được lưu trữ
trong dòng 1Table hoặc dòng 0Table.
- FIB (File Infomation Block) bắt đầu tại offset:0x00 của dòng Word
Document. Nó chỉ rõ địa điểm của tất cả các dữ liệu khác trong hồ sơ. Các địa điểm
được chỉ định bởi một cặp số nguyên, số nguyên đầu tiên trong số đó xác định vị trí và
số nguyên thứ hai trong đó quy định cụ thể về kích thước. Những số nguyên xuất hiện
trong hạ tầng của FIB như FibRgFcLcb97, tên vị trí được bắt đầu với fc, tên kích
thước được bắt đầu với Lcb.

2
- Cấu trúc Clx: Cấu trúc Clx là một mảng của 0 hoặc nhiều cấu trúc Prc, trong
đó có chứa thuộc tính của thông tin, theo sau là một cấu trúc Pcdt, trong đó có một cấu
trúc PlcPcd.
- Ký tự: Một ký tự có thể là một ký tự văn bản hoặc một ký tự phi văn bản. Kích
thước của ký tự có thể thay đổi cho dù đó là ANCII (American Standard Code for
Information Interchange – Mã chuẩn trao đổi thông tin Hoa Kỳ), Unicode, hoặc một
ký tự điều khiển. Ký tự liền kề trong các tài liệu không nhất thiết phải liền kề trong các
tập tin nhị phân.
- Vị trí ký tự (CP: Character Position): Một vị trí ký tự là ký tự không dấu, số
nguyên, 32-bit cung cấp cho các vị trí chỉ số của một ký tự trong văn bản tài liệu.
- Cấu trúc Pcd: Một cấu trúc Pcd xác định vị trí của văn bản trong các tài liệu
Stream Word, cùng với một số đặc tính của văn bản.
- Cấu trúc Plc: Một cấu trúc Plc là một mảng của các CP, tiếp theo là một loạt
các yếu tố dữ liệu. Cấu trúc Plc khác nhau sẽ có tên gọi và chức năng khác nhau,
chẳng hạn như cấu trúc Plcbkf, trong đó bao gồm các dấu trang và con trỏ để đánh
dấu.
- Cấu trúc PlcPcd: Là bản đồ vị trí của các ký tự trong dòng (stream) để xác
định vị trí ký tự trong văn bản tài liệu.

Thuộc tính của tài liệu (DOCument)


- Tài liệu thành phần (Sub_document): Dòng logic riêng biệt của văn bản với
tính chất tương ứng với các tài liệu văn bản chính được duy trì. Phần đầu trang, cuối
trang, chú thích, ghi chú, chú thích văn bản và văn bản trong hộp văn bản được lưu giữ
trong các tài liệu phụ riêng biệt. Mỗi subdocument có CP riêng của mình. Nói cách
khác, cấu trúc dữ liệu được lưu trữ trong các tập tin Word là thành phần của các tài
liệu phụ.
- Trường thông tin: Một trường là một cấu trúc hai phần có thể được ghi vào
dòng CP của một tài liệu. Phần đầu tiên của cấu trúc có chứa mã trường. Trường
(Field) trong Word của Windows được sử dụng để chèn văn bản từ một tập tin bên
ngoài hoặc trích dẫn một phần khác của một tài liệu, để đánh dấu chỉ mục, bảng nội
dung mục, tạo ra các chỉ mục, bảng nội dung. Các vị trí CP: bắt đầu đánh dấu, phân
cách trường và đánh dấu cuối trường đều được ghi trong cấu trúc dữ liệu plcfld.
- Bookmark: Dấu liên kết định nghĩa tên người sử dụng với một loạt các văn
bản trong một tài liệu. Trong Word Window của một bookmark được đại diện bởi ba
cấu trúc dữ liệu song song: sttbBkmk, các plcbkf và plcbkl. Các sttbBkmk là một bảng

3
dạng chuỗi chứa tên của mỗi dấu. Các plcbkf ghi lại vị trí CP bắt đầu của mỗi mục.
Các plcbkl ghi lại vị trí CP giới hạn của một bookmark.
- Hình ảnh: Một hình ảnh được thể hiện trong các dòng văn bản tài liệu như là
một ký tự đặc biệt. Các vị trí tập tin của hình ảnh trong tập tin nhị phân Word được lưu
trữ trong chp.fcPic. Các fcPic là một byte vào dòng dữ liệu. Bắt đầu từ vị trí ghi lại
trong chp.fcPic, một cấu trúc dữ liệu tiêu đề, PIC sẽ được lưu trữ.
- Đối tượng nhúng: Các dữ liệu cho các đối tượng nhúng (objs) được lưu trữ
tương tự như hình ảnh (PIC). Để xác định vị trí dữ liệu cho đối tượng nhúng, quét plc
của mã trường, tiêu đề, chú thích...
Tất cả tập tin dữ liệu trong định dạng tập tin nhị phân Microsoft Office tồn tại
trong một hoặc nhiều dòng. Mỗi dòng chứa các cấu trúc dữ liệu để lưu trữ đặc tả dữ
liệu, chẳng hạn như người dùng, hệ thống thông tin, thuộc tính tập tin, định dạng thông
tin, nội dung văn bản và nội dung phương tiện truyền thông. Các cấu trúc dữ liệu được
biểu diễn như nhóm số thập lục phân và trình bày thông qua giao diện người dùng của
nó.
Trong khi đó, việc tổ chức cấu trúc dữ liệu là khác nhau trong cùng một dòng
(stream). Đơn vị phổ biến nhất của dữ liệu là một bản ghi. Một bản ghi thường chứa
một số đặc tả dữ liệu về các tập tin trong các hình thức của các lĩnh vực. Điều này bao
gồm một hoặc nhiều giá trị bổ sung để chỉ vị trí của các hồ sơ khác hoặc các dữ liệu
khác có liên quan. Văn bản được lưu trữ như là các giá trị số đại diện cho ANSI (Tiêu
chuẩn ANSI là bộ tiêu chuẩn Hoa Kỳ do tổ chức American National Standards
Institute: Viện tiêu chuẩn quốc gia Hoa Kỳ đưa ra) hay ký tự Unicode. Hình ảnh có thể
được lưu trữ như là con trỏ đến tập tin bên ngoài hoặc là hình ảnh nhúng trong các
định dạng tập tin nhị phân của riêng mình, chẳng hạn như (.gif), (.jpeg), (.png) hoặc
trong tập tin.

Ứng dụng
Microsoft Office Word 2003, Microsoft Word 2002, Microsoft Word 2000, và
Microsoft Word 97 đều sử dụng định dạng tập tin nhị phân (.doc) như là định dạng tập
tin mặc định của chúng. Định dạng (.doc) có nguồn gốc từ Microsoft Word, ứng dụng
xử lý văn bản khác như: OpenOffice.org Writer, IBM Lotus Symphony, Apple Pages
và AbiWord, cũng có thể tạo ra và đọc các file .doc, mặc dù có một số hạn chế. Bên
cạnh đó, chương trình dòng lệnh cho hệ điều hành giống Unix (Unix-like) có thể
chuyển đổi qua lại tập tin từ định dạng (.doc) sang văn bản dạng plain text hoặc các
định dạng tiêu chuẩn khác. Định dạng (.doc) được ứng dụng trong nhiều hệ điều hành:
Window, MAC OS, MAC OSX, MS-DOS. Ngoài ra, nó còn được phát triển trên các
nền tảng khác như: Atari ST (1988), OS/2, SCO Unix… Trong Thông tư số

4
22/2013/TT-BTTTT ngày 23/12/2013 của Bộ trưởng Bộ Thông tin và Truyền thông
Công bố Danh mục tiêu chuẩn kỹ thuật về ứng dụng công nghệ thông tin trong cơ
quan nhà nước quy định Bắt buộc áp dụng tiêu chuẩn (.doc) và được xếp vào nhóm
Tiêu chuẩn về truy cập thông tin.
Nguyễn Thị Thu Trang – Cục Tin học hóa

You might also like