Professional Documents
Culture Documents
AIMESOFT20220304 AnhNT Kỹ Sư Xử Lý Ngôn Ngữ Tự Nhiên
AIMESOFT20220304 AnhNT Kỹ Sư Xử Lý Ngôn Ngữ Tự Nhiên
Câu 1.
Trong bộ gõ tiếng Nhật, để chuyển một dãy các kí tự Hiragana (chữ mềm) sang chữ Kanji, người
ta thường dùng một từ điển như sau
かんじ 感じ
かんじ 漢字
かんじ 幹事
へんかん 変換
へんかん 返還
Khi user nhập vào chuỗi ký tự かんじへんかん, chúng ta cần liệt kê các trường hợp có thể
convert được từ chuỗi ký tự này sang chữ Kanji tương ứng.
1) Để lưu trữ từ điển dạng như trên một cách hiệu quả, người ta thường dùng loại cấu trúc dữ
liệu nào?
2) Download file từ điển dict.txt (cách đọc Hiragana và Hán tự tương ứng cách nhau bằng dấu
cách), dùng cấu trúc dữ liệu ở câu 1 để lưu từ điển vào máy tính. (cho phép sử dụng thư viện)
Câu 2.
Pseudo code dưới đây mô tả thuật toán Naive Bayes cho bài toán phân loại văn bản. (Nguồn:
https://web.stanford.edu/~jurafsky/slp3/4.pdf)
Yêu cầu:
Chia dữ liệu theo tỷ lệ 80/20 trong đó 80% dùng để train mô hình và 20% dùng để đánh giá mô
hình.
2) Cài đặt hai function train/test mô tả trong pseudo-code trên bằng ngôn ngữ Python sau đó
huấn luyện trên tập train và đưa ra accuracy trên tập test. Tập train/test sinh ra ở phần 1).