You are on page 1of 14

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM

TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG


KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN GIỮA KỲ MÔN
XỬ LÝ DỮ LIỆU LỚN

THU THẬP VÀ KHAI PHÁ


DỮ LIỆU

Người hướng dẫn: TS BÙI THANH HÙNG


Người thực hiện: TRẦN VĂN AN– 518H0127
Lớp : 18H50205
Khoá : 22

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2020


i

LỜI CẢM ƠN
Cảm ơn thầy đã trực tiếp giảng dạy chúng em môn học này.
ii

ĐỒ ÁN ĐƯỢC HOÀN THÀNH


TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

Tôi xin cam đoan đây là sản phẩm đồ án của riêng tôi / chúng tôi và được sự
hướng dẫn của TS Nguyễn Văn A;. Các nội dung nghiên cứu, kết quả trong đề tài này
là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây. Những số liệu trong
các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu
thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo.
Ngoài ra, trong đồ án còn sử dụng một số nhận xét, đánh giá cũng như số liệu
của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc.
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm
về nội dung đồ án của mình. Trường đại học Tôn Đức Thắng không liên quan đến
những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có).
TP. Hồ Chí Minh, ngày tháng năm
Tác giả
(ký tên và ghi rõ họ tên)

Trần Văn An
iii

PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN


Phần xác nhận của GV hướng dẫn
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
Tp. Hồ Chí Minh, ngày tháng năm
(kí và ghi họ tên)

Phần đánh giá của GV chấm bài


_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
Tp. Hồ Chí Minh, ngày tháng năm
(kí và ghi họ tên)
iv

TÓM TẮT

Trình bày tóm tắt vấn đề nghiên cứu, các hướng tiếp cận, cách giải quyết vấn đề
và một số kết quả đạt được, những phát hiện cơ bản trong vòng 1 -2 trang.
1

Phần I: Thu thập dữ liệu

<header>
<title>Quotes to Scrape</title>

<main> <aside>
<section> <section>
<div> <span></span>
<span></span> <span></span>
</div> <span></span>

<section>
<div>
<span></span>
</div>

<section>
<div>
<span></span>
</div>

Footer
2

Phần II: Khai phá dữ liệu

2.1. Xử lý dữ liệu – Data Imputation


2.1.1 Giới thiệu
Trong lĩnh vực khai phá dữ liệu (Data mining) dữ liệu đầu vào là một thành
phần rất quan trọng, vì vậy trước khi xử lý chúng ta cần giải quyết một số vấn đề rất
phổ biến trong dữ liệu đầu vào đó là kiểu dữ liệu, Missing data.
Trong Machine learning đưa vào những dữ liệu sạch sẽ giúp các mô hình chạy
hiệu quả, độ chính xác cao hơn quá trình này được gọi là Pre-processing.
2.1.2 Cách tiếp cận.
Chúng ta có những kiểu Missing Value sau:
+, Missing at Random - Dữ liệu khuyết ngẫu nhiên
+, Missing Completely at Random - Dữ liệu thiếu hoàn toàn ngẫu nhiên
+, Missing Not at Random - Dữ liệu khuyết không ngẫu nhiên:
Rất may trong bài này sau khi kiểm tra thì chúng ta không phát hiện missing value.
3

2.2 Khám phá dữ liệu – Data Exploration


2.2.1 Giới thiệu.
Công việc đầu tiên khi chúng ta bắt đầu vào quá trình phân tích dữ liệu đó là
khám phá, tìm hiểu về tập dữ liệu của chúng ta.
Để hiểu rõ hơn về dữ liệu chúng ta đang có các nhà phân tích thường sử dụng kỹ
thuật thống kê và trực quan hóa dữ liệu để mô tả các đặc điểm của tập dữ liệu, chẳng
hạn như kích thước, số lượng và độ chính xác, nhằm hiểu rõ hơn về bản chất của dữ
liệu.
2.2.2 Cách tiếp cận.
Trong bài này em xử dụng em đã xử dụng phương pháp thống kê theo năm sinh,
tuổi, số câu nói nổi tiếng, câu nói dài nhất, câu nói ngắn nhất.
4

- Thống kê số năm sinh của tác giả

- Thống kê tuổi của tác giả.


5

- Câu nói dài nhất

- Câu nói ngắn nhất

2.3 Trích xuất đặc trưng- Feature Extraction


2.3.1 Giới thiệu
Trong học máy, trích xuất đặc trưng(Feature Extraction) là một quá trình chọn
lọc một tập con chứa các thuộc tính liên quan để sử dụng trong quá trình xây dựng mô
hình, giúp đơn giản hóa mô hình, giảm số chiều dữ liệu, giảm thời gian huấn luyện.
Dữ liệu của chúng ta ở dạng văn bản nên mang trong mình rất nhiều thuộc tính,
mà các thuộc tính này khi đưa trực tiếp vào các mô hình dự đoán sẽ làm cho tốc độ
training của các mô hình bị giảm hiệu quả.
2.3.2 Cách tiếp cận
6

Đối với dữ liệu ở dạng văn bản em dùng NLTK được xử dụng khá phổ biến
trong xử lý ngôn ngữ tự nhiên(NLP).
NLTK chứa một mô-đun được gọi là tokenize() phân loại thêm thành hai danh
mục con:

 Mã hóa từ: Chúng tôi sử dụng phương thức word_tokenize () để chia một câu
thành các mã thông báo hoặc từ
 Mã hóa câu: Chúng tôi sử dụng phương thức sent_tokenize () để chia tài liệu
hoặc đoạn văn thành các câu

Ở đây em chọn mã hóa theo từ.

2.3.3 Đánh giá


Token hóa là một bước quan trọng trong quy trình NLP tổng thể. Chúng ta
không thể đơn giản nhảy vào phần xây dựng mô hình mà không làm sạch văn bản
trước.

2.4 Suy luận


2.4.1 Giới thiệu
Phần này chúng ta sẽ dựa trên những dữ dữ liệu đã tìm hiểu, phân tích, tổng quát
hóa ở những bước trước đã thu được sẽ đem đi để dự đoán, và đánh giá độ chính xác
của các mô hình.
2.4.2 Cách tiếp cận
7

Trong bài toán dự đoán(Regression) tên của người nổi tiếng theo câu nói dựa
trên những đặc trưng mà chúng ta có được ở phần trước, bước tiếp theo chúng ta cần
chia tách dữ liệu và đưa vào mô hình.

Sau khi đã trích xuất đặc trưng chúng ta cần cập nhật từ vựng nội bộ dựa trên
danh sách các văn bản. Phương pháp này tạo chỉ mục từ vựng dựa trên tần suất xuất
hiện của từ. Vd: chúng ta có câu “This is a cat”. Nó sẽ tạo ra bộ từ điển
word_index[‘This’]=1,
Word_index[‘is’]=2 ..., trong đó mỗi từ sẽ có một index tương ứng.

Ở phương diện máy tính nó không thể hiểu được các từ như con người vậy nên
chúng ta cần phải chuyển sang ma trận ở dạng nhị phân(chế độ mạc định), nó cho biết
những từ nào từ bộ từ vựng đã học có trong văn bản đầu vào dựa vào các word_index.
8

Tiếp theo sẽ tách dữ liệu train/test theo tỉ lệ 80/20.

Trong bài toán dự đoán này em dùng mô hình Decision Tree. Decision tree là
một mô hình có thể được áp dụng vào cả hai bài toán classification và regression.
Lý do mà em chọn decision tree là nó có thể làm việc với các đặc trưng (trong
các tài liệu về decision tree, các đặc trưng thường được gọi là thuộc tính – attribute)
dạng categorical, thường là rời rạc và không có thứ tự. Ví dụ, mưa, nắng hay xanh,
đỏ..., Decision tree cũng làm việc với dữ liệu có vector đặc trưng bao gồm cả thuộc
tính dạng categorical và liên tục (numeric). Một điểm đáng lưu ý nữa là decision tree ít
yêu cầu việc chuẩn hoá dữ liệu.

Sau khi đào tạo mô hình chúng ta nhập một câu bất kì và kiểm tra kết qủa.

Sau đây là kết quả mà mô hình dự đoán được:


9

Độ chính chính xác của mô hình dự đoán ta thu được là: 0.8

2.43 Đánh giá


Có thể thấy môn hình Decision Tree có độ chính xác khá cao trong bài toán dự
đoán này của chúng ta, ngoài ra cũng có một số mô hình nữa chúng ta có thể áp dụng
vào bài toán Regression như: KNN...

You might also like