Professional Documents
Culture Documents
ĐỒ ÁN GIỮA KỲ MÔN
XỬ LÝ DỮ LIỆU LỚN
LỜI CẢM ƠN
Cảm ơn thầy đã trực tiếp giảng dạy chúng em môn học này.
ii
Tôi xin cam đoan đây là sản phẩm đồ án của riêng tôi / chúng tôi và được sự
hướng dẫn của TS Nguyễn Văn A;. Các nội dung nghiên cứu, kết quả trong đề tài này
là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây. Những số liệu trong
các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu
thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo.
Ngoài ra, trong đồ án còn sử dụng một số nhận xét, đánh giá cũng như số liệu
của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc.
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm
về nội dung đồ án của mình. Trường đại học Tôn Đức Thắng không liên quan đến
những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có).
TP. Hồ Chí Minh, ngày tháng năm
Tác giả
(ký tên và ghi rõ họ tên)
Trần Văn An
iii
TÓM TẮT
Trình bày tóm tắt vấn đề nghiên cứu, các hướng tiếp cận, cách giải quyết vấn đề
và một số kết quả đạt được, những phát hiện cơ bản trong vòng 1 -2 trang.
1
<header>
<title>Quotes to Scrape</title>
<main> <aside>
<section> <section>
<div> <span></span>
<span></span> <span></span>
</div> <span></span>
<section>
<div>
<span></span>
</div>
<section>
<div>
<span></span>
</div>
Footer
2
Đối với dữ liệu ở dạng văn bản em dùng NLTK được xử dụng khá phổ biến
trong xử lý ngôn ngữ tự nhiên(NLP).
NLTK chứa một mô-đun được gọi là tokenize() phân loại thêm thành hai danh
mục con:
Mã hóa từ: Chúng tôi sử dụng phương thức word_tokenize () để chia một câu
thành các mã thông báo hoặc từ
Mã hóa câu: Chúng tôi sử dụng phương thức sent_tokenize () để chia tài liệu
hoặc đoạn văn thành các câu
Trong bài toán dự đoán(Regression) tên của người nổi tiếng theo câu nói dựa
trên những đặc trưng mà chúng ta có được ở phần trước, bước tiếp theo chúng ta cần
chia tách dữ liệu và đưa vào mô hình.
Sau khi đã trích xuất đặc trưng chúng ta cần cập nhật từ vựng nội bộ dựa trên
danh sách các văn bản. Phương pháp này tạo chỉ mục từ vựng dựa trên tần suất xuất
hiện của từ. Vd: chúng ta có câu “This is a cat”. Nó sẽ tạo ra bộ từ điển
word_index[‘This’]=1,
Word_index[‘is’]=2 ..., trong đó mỗi từ sẽ có một index tương ứng.
Ở phương diện máy tính nó không thể hiểu được các từ như con người vậy nên
chúng ta cần phải chuyển sang ma trận ở dạng nhị phân(chế độ mạc định), nó cho biết
những từ nào từ bộ từ vựng đã học có trong văn bản đầu vào dựa vào các word_index.
8
Trong bài toán dự đoán này em dùng mô hình Decision Tree. Decision tree là
một mô hình có thể được áp dụng vào cả hai bài toán classification và regression.
Lý do mà em chọn decision tree là nó có thể làm việc với các đặc trưng (trong
các tài liệu về decision tree, các đặc trưng thường được gọi là thuộc tính – attribute)
dạng categorical, thường là rời rạc và không có thứ tự. Ví dụ, mưa, nắng hay xanh,
đỏ..., Decision tree cũng làm việc với dữ liệu có vector đặc trưng bao gồm cả thuộc
tính dạng categorical và liên tục (numeric). Một điểm đáng lưu ý nữa là decision tree ít
yêu cầu việc chuẩn hoá dữ liệu.
Sau khi đào tạo mô hình chúng ta nhập một câu bất kì và kiểm tra kết qủa.
Độ chính chính xác của mô hình dự đoán ta thu được là: 0.8