You are on page 1of 5

1.

Thuật toán chuyển đổi kiểu chữ


Thuật toán này nhận diện và chuyển đổi một văn bản Tiếng Việt từ các kiểu
nhập văn bản (VN6909, VN1258, VNI, TCNV3, VIETWARE) sang định dạng
unicode vn6909.
Thuật toán:
• Đầu vào: chuỗi văn bản cần chuyển đổi kiểu
• Đầu ra: Chuỗi văn bản đã được chuyển về định dạng unicode vn6909
• Nội dung:
o Nhận diện kiểu chữ của đoạn văn bản đưa vào (1)
o Chuyển sang định dạng unicode vn6909 (2)
Thuật toán (1)
• Đầu vào: chuỗi văn bản cần nhận dạng
• Đầu ra: Kiểu gõ của chuỗi văn bản đó
• Nội dung:
o Khai báo mảng các chuỗi ký tự đặc biệt sử dụng khác nhau của các
loại kiểu gõ đã được nhận diện như trên.
o Đếm tần xuất trùng của văn bản so với các bảng mã đã khai báo
o Mã được nhận diện là mã có số ký tự trùng nhiều nhất với bảng mã
đã khai báo.
Ví dụ mảng khai báo sau đây dùng để nhận dạng kiểu nhập văn bản theo TCVN3
string[] tcvn3 ={
"µ", "¶", "•", "¸", "¹", "»", "¼", "½", "¾", "Ç"
, "Ñ", "ß", "å", "æ", "ñ", "÷", "ø", "×", "Ø", "Ü"
, "Þ", "þ", "Aµ", "A¶", "A•", "A¸", "A¹", "¡»", "¡¼"
, "¡½", "¡¾", "¡Æ", "¢Ç", "¢È", "¢É", "¢Ê", "¢Ë", "EÌ"
, "EÎ", "EÏ", "EÐ", "EÑ", "£Ò", "£Ó", "£Ô", "£Õ", "£Ö"
, "Oß", "Oá", "Oâ", "Oã", "Oä", "¤å", "¤æ", "¤ç", "¤è"
, "¤é", "¥ê", "¥ë", "¥ì", "¥í"\, "¥î", "Uï", "Uñ", "Uò"
, "Uó", "Uô", "¦õ", "¦ö", "¦÷", "¦ø", "¦ù", "I×", "IØ"
, "IÜ", "IÝ", "IÞ", "Yú", "Yû", "Yü", "Yý", "Yþ", "©"
, "¨", "ª", "®", "«", "¬","", "¢", "¡", "£", "§", "¤"
, "¥","¦"
};
Thuận toán (2)
• Đầu vào: chuỗi văn bản cần chuyển mã và mã của văn bản đã được nhận
dạng từ thuật toán (1)
• Đầu ra: Chuỗi văn bản đã được chuyển mã
• Nội dung:
o Khai báo mảng các ký tự mã nguồn (theo nhận diện) và mã đích
(vn6909)
o Lặp lại tất cả từng ký tự trong văn bản gốc
o Thay thế ký tự ở mã nguồn bằng ký tự ở mã đích
o Trả về kết quả là mã đã chuyển.
Ví dụ mảng ký tự mã nguồn của TCVN3
private char[] TCVN3_CHAR = {
'\u00FC', '\u00FB', '\u00FE', '\u00FA',
'\u00F9', '\u00F7', '\u00F6', '\u00F5', '\u00F8', '\u00F1',
'\u00F4', '\u00EE', '\u00EC', '\u00EB', '\u00EA', '\u00ED',
'\u00E9', '\u00E7', '\u00E6', '\u00E5', '\u00E8', '\u00E1',
'\u00E4', '\u00DE', '\u00D8', '\u00D6', '\u00D4', '\u00D3',
'\u00D2', '\u00D5', '\u00CF', '\u00CE', '\u00D1', '\u00C6',
'\u00BD', '\u00BC', '\u00AB', '\u00BE', '\u00CB', '\u00C9',
'\u00C8', '\u00C7', '\u00CA', '\u00B6', '\u00B9', '\u00AD',
'\u00A6', '\u00AC', '\u00A5', '\u00F2', '\u00DC', '\u00AE',
'\u00A8', '\u00A1', '\u00F3', '\u00EF', '\u00E2', '\u00BB',
'\u00E3', '\u00DF', '\u00DD', '\u00D7', '\u00AA', '\u00D0',
'\u00CC', '\u00B7', '\u00A9', '\u00B8', '\u00B5', '\u00A4',
'\u00A7', '\u00A3', '\u00A2'
};
2. Trích lọc văn bản từ các định dạng khác nhau
Việc trích lọc nội dung văn bản phụ thuộc vào định dạng tệp tin mà người dùng
định nghĩa cho phép nhận diện. Các tệp tin này phải được khai báo trước và có
cách đọc cũng như trích lọc khác nhau. Ứng dụng này định hướng để đọc nội dung
từ các loại văn bản sau đây:
• Tệp tin văn bản Microsoft Word với các phiên bản 2003 và 2007 tương
đương với phần mở rộng .doc và .docx
• Tệp tin văn bản Microsoft Power Point với các phiên bản 2003 và 2007
tương đương với phần mở rộng .ppt và .pptx
• Tệp tin văn bản Microsoft Excel với các phiên bản 2003 và 2007 tương
đương với phần mở rộng .xls và .xlsx
• Tệp tin văn bản với định dạng pdf
• Tệp tin html với các phần mở rộng html, htm và nội dung html từ địa chỉ
web
Thuật toán trích lọc văn bản từ tệp tin có định dạng HTML
• Đầu vào: Tệp tin văn bản với định dạng HTML
• Đầu ra: văn bản hoàn toàn gồm các kí tự
• Nội dung:
o Đọc nội dung văn bản đưa về định dạng chuỗi các ký tự.
o Hủy bỏ dòng trắng không được hiển thị trên HTML.
o Hủy bỏ khoảng trắng tab.
o Hủy bỏ các ký tự trắng liên tiếp trong HTML.
o Hủy bỏ thẻ HEAD.
o Hủy bỏ tất cả JavaScript.
o Thay thế các ký tự đặc biệt như &, <, >, "…
o Kiểm tra xem có ngắt dòng (<br>) hoặc khoản (<p>).
o Bước cuối cùng, loại bỏ tất cả các thẻ HTML và trả về hoàn toàn là các
ký tự.
Thuật toán chuyển từ tệp tin văn Microsoft Word về dạng văn bản.
• Đầu vào: Tệp tin văn bản với định dạng .doc, .docx
• Đầu ra: văn bản hoàn toàn gồm các kí tự
• Nội dung:
o Khai báo đối tượng Microsoft.Office.Interop.Word.Document
o Sử dụng phương thức ActiveWindow.Selection.WholeStory() để
đọc nội dung của văn bản.
o Nội dung văn bản text sẽ được khai thác qua thuộc tính
Content.Text;
Thuật toán chuyển từ tệp tin văn Microsoft Power Point về dạng văn bản.
• Đầu vào: Tệp tin văn bản với định dạng .ppt, .pptx
• Đầu ra: văn bản hoàn toàn gồm các kí tự
o Khai báo đối tượng
Microsoft.Office.Interop.PowerPoint.Presentation
o Duyệt qua từng trang trình diễn
 Duyệt qua từng đối tượng textbox trang
 Lấy nội dung văn bản thêm vào dữ liệu đã lấy
o Trả lại kết quả đã trích xuất được
Thuật toán chuyển từ nội dung từ địa chỉ URL về dạng văn bản.
• Đầu vào: nội dung của văn bản được lưu trên web thông qua địa chỉ URL
• Đầu ra: văn bản hoàn toàn gồm các kí tự
o Khai báo đối tượng WebClient dùng để khai thác dữ liệu qua các
trang web.
o Tải nội dung HTML từ địa chỉ web về và lưu vào một chuỗi ký
tự
o Xử lý loại bỏ các ký tự định dạng HTML như phần trích lọc
HTML
o Trả lại kết quả đã được loại bỏ định dạng
Thuật toán đọc hình ảnh từ văn bản Microsoft Word.
• Đầu vào: Tệp tin văn bản với định dạng .doc, .docx
• Đầu ra: mảng các hình ảnh
o Khai báo đối tượng Document dùng để đọc nội dung văn bản
Word.
o Duyệt qua tất cả các hình vẽ có trên tệp tin đã đọc
 Khai báo đối tượng Clipboard để chép nội dung hình ảnh
đã được đọc rồi sau đó ghi vào đối tượng hình ảnh Bitmap.
 Lưu dữ liệu vào mảng các hình ảnh
o Trả lại kết quả là mảng các hình ảnh