You are on page 1of 2

BÀI TEST VÒNG 1

Kỹ sư Xử lý Ngôn ngữ Tự nhiên


Số: 20220304

Một số lưu ý dành cho bạn:


- Viết chương trình bài test bằng ngôn ngữ bạn sử dụng thành thạo nhất
- Thời hạn gửi bài: muộn nhất vào 23.59 (ICT) thứ Tư, ngày 09/03/2022.
- Gửi bài và mọi thắc mắc vui lòng liên hệ theo địa chỉ:
Email: jobs@aimesoft.com
Số điện thoại: 0989558851 (Mr Huy)

Câu 1.
Trong bộ gõ tiếng Nhật, để chuyển một dãy các kí tự Hiragana (chữ mềm) sang chữ Kanji, người
ta thường dùng một từ điển như sau

Cách đọc Từ Kanji

かんじ 感じ

かんじ 漢字

かんじ 幹事

へんかん 変換

へんかん 返還

Khi user nhập vào chuỗi ký tự かんじへんかん, chúng ta cần liệt kê các trường hợp có thể
convert được từ chuỗi ký tự này sang chữ Kanji tương ứng.

1) Để lưu trữ từ điển dạng như trên một cách hiệu quả, người ta thường dùng loại cấu trúc dữ
liệu nào?

2) Download file từ điển dict.txt (cách đọc Hiragana và Hán tự tương ứng cách nhau bằng dấu
cách), dùng cấu trúc dữ liệu ở câu 1 để lưu từ điển vào máy tính. (cho phép sử dụng thư viện)

Câu 2.
Pseudo code dưới đây mô tả thuật toán Naive Bayes cho bài toán phân loại văn bản. (Nguồn:
https://web.stanford.edu/~jurafsky/slp3/4.pdf)
Yêu cầu:

1) Sử dụng data sentiment analysis ở link:


https://raw.githubusercontent.com/minhpqn/nlp_100_drill_exercises/master/data/sentiment.txt

Chia dữ liệu theo tỷ lệ 80/20 trong đó 80% dùng để train mô hình và 20% dùng để đánh giá mô
hình.

2) Cài đặt hai function train/test mô tả trong pseudo-code trên bằng ngôn ngữ Python sau đó
huấn luyện trên tập train và đưa ra accuracy trên tập test. Tập train/test sinh ra ở phần 1).

You might also like