Professional Documents
Culture Documents
HCM
CAO HỌC KHÓA 30
Chuyên ngành: KHOA HỌC DỮ LIỆU
Đồ án môn học:
( XỬ LÝ NGÔN NGỮ TỰ NHIÊN )
CHỈNH SỬA VÀ KHÔI PHỤC DẤU THANH
TRONG VĂN BẢN TIẾNG VIỆT BẰNG
PHƯƠNG PHÁP HỌC SÂU
1 TỔNG QUAN: 2
1.1 Giới thiệu bài toán: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Các hướng tiếp cận: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Phạm vi bài toán thực hiện: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
i
Danh sách hình vẽ
1
Chương 1
TỔNG QUAN:
Nội dung được trình bày trong chương 1 bao gồm giới thiệu chung về bài toán, các hướng đã tiếp cận
và đề xuất giải pháp.
Từ sai từ đúng
chia sẽ chia sẻ
chỉnh sữa chỉnh sửa
chẵng lẻ chắng lẽ
có lẻ có lẽ
cổ máy cỗ máy
cặp bến cập bến
giúp đở giúp đỡ
kỹ niệm kỷ niệm
kiễm tra kiểm tra
nổ lực nỗ lực
năng nỗ năng nổ
rãnh rỗi rảnh rỗi
... ...
2
Xử lý ngôn ngữ tự nhiên
Tuy nhiên, trong từ điển cũng lưu trữ những từ ngữ hiếm khi được sử dụng nên trong một số
trường hợp VietPad vẫn có sai sót (độ chính xác khoảng 60-85% và phụ thuộc tùy theo văn bản
tương ứng)
• AMPAD(TAM,2008) cũng là một công cụ được xây dựng để phục hồi dấu thanh tiếng Việt.
Với ý tưởng sử dụng tần số thống kê của các từ không dấu và sử dụng thuật toán lựa chọn nhằm
đưa ra các từ có xác suất cao nhất (độ chính xác khoảng 80% hoặc cao hơn đối với các bình
luận chính trị và lĩnh vực khoa học, nhưng 50% đối với tài liệu chuyên ngành hoặc thơ có cấu
trúc)
• VietEditor(LAN,2005) cùng ý tưởng với Vietpad nhưng ở mức độ cải thiện hơn. Nó sử dụng
tập từ điển và lưu trữ các cụm từ thường được sử dụng giúp chương trình kiểm tra thêm để tìm
từ thích hợp nhất.
• Viaccent (Truyen et al., 2008) mô hình hướng đến tốc độ khôi phụ dấu trong văn bản. Ý
tưởng chính là sử dụng mô hình ngôn ngữ N-gram (được báo cáo ở the conference PRICAI 2008
(The Pacific Rim International Conference on Artificial Intelligence).
• The VnMark (Toan, 2008) đã sử dụng mô hình GUAGE N-Gram để tạo tệp từ điển, điều
này cho thấy khả năng xuất hiện hoặc sử dụng các cụm âm tiết trong văn bản tiếng Việt.
Nội dung của chương xoay quanh các khái niệm, kiến thức cơ bản liên quan đến đề tài.
2.1 Chính tả
Định nghĩa:
Chính tả: Được hiểu là "phép viết đúng" hoặc "lối viết hợp với chuẩn". Nói cách khác thì chính tả
là tiêu chuẩn chữ viết của một ngôn ngữ. Yêu cầu cơ bản của chính tả là phải thống nhất cách viết
cụ thể trên phạm vi toàn quốc và trong tất cả các loại hình văn bản viết... [2]
P (w1 w2 ...wm ) = P (w1 ) ∗ P (w2 |w1) ∗ P (w3 |w1 w2 ) ∗ ... ∗ P (wm |w1 w2 ...wm−1
Nhưng trong trường hợp này cần sử dụng lượng lớn vùng nhớ để lưu các xác suất của các chuỗi độ
dài nhỏ hơn m. Vì vậy, người ta đề xuất sử dụng xấp xỉ Markov bậc n. Thuật toán để tính xác suất
xuất hiện của xi có phân bố là: P (Xi = xi | Xi−2 = xi−2 , Xi−1 = xi−1 ) với các bước:
4
Xử lý ngôn ngữ tự nhiên
3. 3. Nếu xi = STOP thì ta trả vê ’ chuỗi x1 . . . xi . Ngược lại, ta gán i = i + 1 và quay lại bước 2 .
Mô hình ngôn ngữ N-gram là danh từ chung để chỉ các mô hình ngôn ngữ sử dụng dữ liệu đầu vào
dưới dạng N-gram (bao gồm N âm tiết).
Hình dung tương tự với Trigram Language Models
Hình 2.2: Mạng nơ-ron, được tổ chức theo lớp bao gồm một tập hợp các nút kết nối với nhau
2.4.1 RNN
Mạng nơ-ron hồi quy (RNN - Recurrent Neural Network) là một thuật toán được chú ý rất nhiều
trong thời gian gần đây bởi các kết quả tốt thu được trong lĩnh vực xử lý ngôn ngữ tự nhiên.
Ý tưởng chính của RNN là sử dụng chuỗi các thông tin. Trong các mạng nơ-ron truyền thống tất cả
các đầu vào và cả đầu ra là độc lập với nhau, chúng không liên kết thành chuỗi với nhau. Nhưng các
mô hình này không phù hợp trong rất nhiều bài toán.
Mô hình được gọi là hồi quy (Recurrent) bởi lẽ chúng thực hiện cùng một tác vụ cho tất cả các phần
tử của một chuỗi với đầu ra phụ thuộc vào cả các phép tính trước đó. Nói cách khác, RNN có khả
năng nhớ các thông tin được tính toán trước đó. Trên lý thuyết, mô hình có thể sử dụng được thông
tin của một văn bản rất dài, tuy nhiên thực tế thì nó chỉ có thể nhớ được một vài bước trước đó.
Mạng nơ-ron, được tổ chức theo lớp bao gồm một tập hợp các nút kết nối với nhau. Một RNN có
thề nhận vào một chuỗi có chiều dài bất kỳ và tạo ra một chuỗi nhãn có chiều dài tương ứng. Việc
tính toán bên trong được thực hiện như sau:
ot = softmax (V st )
Xử lý ngôn ngữ tự nhiên
• Tầng cổng quên (forget gate) giúp quyết định xem thông tin nào cần bỏ đi từ trạng thái tế bào.
Quyết định này được đưa ra bởi hàm sigmoid.
• Tầng cổng vào (input gate) sử dụng sigmoid để quyết định giá trị nào ta sẽ cập nhật.
Cuối cùng các giá trị đầu ra sẽ dựa vào trạng thái tế bào nhưng sẽ được tiếp tục sàng lọc rồi quyết
định phần nào của trạng thái tế bào được xuất ra.
2.6 Accuracy
Accuracy (Độ chính xác) là độ đo đơn giản nhất để đánh giá một mô hình phân lớp. Cách đánh giá
này đơn giản tính tỉ lệ giữa số điểm được dự đoán đúng và tổng số điểm trong tập dữ liệu kiểm thử.
Chương 3
Trong khuôn khổ đề tài này, nhóm chọn nghiên cứu bài toán tập trung về các thanh dấu của câu,
bằng việc bổ sung các dấu câu còn thiếu hoặc chỉnh sửa lại câu đó theo đúng chính tả.
3.1 Mô tả dữ liệu
Để đào tạo mô hình học sâu, nhóm sử dụng lượng lớn văn bản tiếng Việt bao gồm có thanh dấu và
không có thanh dấu. Lượng data này được thu thập được khỏang 23000 bài báo từ 2 trang tin tức
lớn của Việt Nam http://vnexpress.net/ và http://kenh14.vn/ (hy vọng) bao gồm nhiều thể loại văn
bản Việt Nam thông dụng. Trong đó với bộ dữ liệu được thu thập từ một số trang web sau đó chúng
tôi bỏ các thanh dấu, dấu câu, kể cả các dấu của ký tự ô chuyển thành o, ê chuyển thành e,...
và thêm vào dữ liệu huấn luyện nhằm tăng thêm tính cấu trúc văn bản.
9
Xử lý ngôn ngữ tự nhiên
nhưng vẫn tồn tại một tỉ lệ nhỏ các bài báo có lẫn các ngôn ngữ khác như Tiếng Anh, tiếng Trung,
tiếng Hàn,... Do đó trong quá trình tiền xử lý dữ liệu, tất cả các dạng này đều được loại bỏ.
Trong đó, chúng tôi thống kê từ dữ liệu đã được đề cập, bao gồm tất cả 1,5 triệu câu. Dựa theo kết
quả hình 3.3 cho thấy số lượng câu trong bộ dữ liệu có độ dài chủ yếu từ 0 - 200 ký tự, sau đó sử
dụng phương pháp N-gram để tạo các dữ liệu đầu vào cho mô hình. Theo mô hình tham khảo từ [4],
thì mô hình 5 gram hoặc 7 gram được sử dụng sẽ phù hợp hơn. Cụ thể, dựa theo kết quả từ hình 3.2,
chúng tôi có xấp xỉ 12 triệu 5-gram với các độ dài tương ứng 15-25 ký tự.
Hình 3.4: Kết quả thử nghiệm sau epoch đầu tiên
chính xác cũng chưa đáp ứng mong đợi, vì vậy có thể kết luận rằng cần huấn luyện thêm nhiều hơn.
Từ kết quả hình 3.5, nhận được đầu ra nhận được kết quả đúng ở epoch thứ 12 và hoàn chỉnh sau 22
epochs. Quan sát kỹ hơn, mô hình nhận tất cả phụ âm sau 4 epochs và tất cả các nguyên âm cơ bản
sau 6 epochs, độ chính xác được cải thiện lên 95% sau epoch thứ 50.
Cuối cùng, sau 300 epochs (hình 3.6 mô hình đạt độ chính xác 97% và hàm loss giảm xuống 0.07.
Do giới hạn về phần cứng của máy cũng như giới hạn về thời gian, quá trình huấn luyện được dừng lại.
phò thư tưong rà soat viec chò formosa thuê đất 70 nam đối với các dự án đang tồn tại và hoat đong
trên lãnh thổ Việt Nam không riềng Formosa sẽ cò kế hoạch kiểm tra rà soat đánh giá lại theo tinh
thần sai phạm la phải xữ lý
Ta nhận thấy mô hình không hoạt động tốt trên các từ không phải tiếng Việt (nhà máy Formosa
- Fomosa).
Hình 3.7: Kết quả sau khi huấn luyện trên đoạn đầu vào mới
Đoạn trên được input với các giá trị là từng dòng câu rời tương ứng kết quả mô hình hiển thị tại
hình 3.8.
Hình 3.8: Kết quả khi chạy thử nghiệm với nội dung truyện ngắn
Xử lý ngôn ngữ tự nhiên
[1] Phan Thị Hồng Xuân Một số giải pháp khắc phục lỗi chính tả của người sử dụng Tiếng Việt,
Tạp chí Khoa học ĐHQGHN: Nghiên cứu giáo dục, số 2 (2017) 68-74
[2] Lê A, Đỗ Xuân Thảo, Lê Hữu Tỉnh,Giáo trình tiếng Việt 2, NXB Đại học Sư phạm, 2014.
[3] Luan Nghia Pham, Viet Hong Tran, Vinh Van Nguyen Vietnamese Text Accent Restoration With
Statistical Machine Translation PACLIC-27
[4] Le Binh, vietnamese-accent-model
[5] Nguyen Van Cuong, Le Huy Khiem, Tran Minh Anh, Binh Thanh Nguyen, An Efficient Frame-
work for Vietnamese Sentiment Classification, SoMeT 2020.
[6] Pham Thi Thuy, Nguyen Thao Nhu, Pham Hong Quang, Cao Ky Han, Binh Thanh Nguyen, Viet-
namese Punctuation Prediction Using Deep Neural Networks, SOFSEM 2020, Cyprus, January
20-24 2020.
14