Professional Documents
Culture Documents
Nho M 8 XA Y DU NG U NG DU NG WEBSITE TO NG HO P VA TO M TA T TIN TU C Ve 1 0 27092021
Nho M 8 XA Y DU NG U NG DU NG WEBSITE TO NG HO P VA TO M TA T TIN TU C Ve 1 0 27092021
ĐỀ TÀI:
Ngày nay, với sự phát triển mạnh mẽ của khoa học công nghệ. Công nghệ
Thông tin là một trong những ngành có vị thế dẫn đầu và có vai trò rất lớn trong sự
phát triển chung đó. Các ứng dụng của công nghệ thông tin được áp dụng trong mọi
lĩnh vực nghiên cứu khoa học cũng như trong mọi lĩnh vực của đời sống. Là một phần
của Công nghệ Thông tin, Công nghệ web đang có được sự phát triển mạnh mẽ và phổ
biến rất nhanh bởi những lợi ích mà nó mang lại cho cộng đồng là rất lớn.
Nhận thức được nhu cầu tìm hiểu thông tin, giải trí của xã hội, là sự ra đời của
hàng loạt website cho các mục đích thương mại, giải trí, tin tức... Để đáp ứng với việc
cập nhật thông tin hàng ngày, tình hình xã hội, chính trị, thời sự... thì website tin tức ra
đời là một nhu cầu tất yếu.
Vì thời gian ngày càng ít, nhưng thông tin thì lại rất nhiều. Nên đôi khi, chúng
ta không thể bao trọn được hết các thông tin mà chúng ta cần. Khiến cho việc nắm bắt
thông tin bị hạn chế. Do đó, từ vấn đề trên chúng em đã vận dụng ngôn ngữ Python,
Java, MySQL và công cụ Visual Studio Code để xây dựng ứng dụng Website Tổng hợp
và Tóm tắt Tin tức.
Với các công nghệ phát triển hiện nay, việc học máy là vấn đề không còn quá
khó khăn, nó cho phép chúng ta có thể dạy cho một cỗ máy có thể học hỏi và tự làm
được với yêu cầu đã được đề ra. Trong đề tài này, mô hình học máy mà bọn em muốn
sử dụng đó là mô hình xử lý dữ liệu ngôn ngữ ở mức độ văn bản. Sau khi được thu
thập và phân loại, văn bản sẽ được xử lý và trả về kết quả ở dạng những tin vắn tắt,
mang đầy đủ ý nghĩa và nội dung của bản tin gốc. Trong đó, yếu tố mang tính ảnh
hưởng đó chính là mô hình được hướng đến nhằm xử lý dữ liệu ngôn ngữ tự nhiên
NLP. Với mô hình này, các thư viện đã sẽ được đề cập ở phần sau, chúng em sẽ triển
khai và phát triển thêm những tính năng phù hợp hơn, tăng độ chính xác cũng như độ
tin cậy khi sử dụng mô hình. Bên cạnh đó là xử lý bản tin từ văn bản thành giọng nói,
giúp cho người dùng tiện lợi hơn rất nhiều trong việc cập nhật tin tức. Phát triển xa
hơn đó là áp dụng mô hình vào để có thể phát triển và xử lý các khối dữ liệu văn bản
lớn hơn như: sách, tài liệu hay các loại truyện, tiểu thuyết. Phần nào cho người đọc có
cái hình dung rõ hơn về tác phẩm mà mình muốn trải nghiệm. Cũng như giúp cho
người dùng được tiếp cận một cách nhanh chóng và khái quát vấn đề mình cần tìm
hiểu.
Nội dung tiếp theo của đề cương này được chia làm 03 phần như sau:
Chương 1: Tổng quan về ngôn ngữ, các công cụ hỗ trợ và tổng quan về
đề tài. Chương này sẽ giới thiệu nền tảng được ứng dụng và phát triển đề tài của chúng
em. Cách mà bọn em kết nối và tạo ra hệ thống để đem đến bản tin vắn tắt và gọn. Bên
cạnh đó là các định nghĩa các nguồn tin. Đem lại cái nhìn khát quát nhất của đề tài.
Chương 3: Trình bày về quá trình thực nghiệm và đánh giá các kết quả
thu được trong thực nghiệm. So sánh các kết quả này với các tập mẫu được chọn ra
ban đầu. Từ đó đánh giá và cải thiện thuật toán.
LỜI CAM ĐOAN
Lời cam đoan được viết tại đây. Xem cách viết lời cam đoan tại Mục Error:
Reference source not found.
MỤC LỤC
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT.............................................................................1
1.2 Tổng quan về các nội dung thông tin được sử dụng.........................................1
1.5 Tổng quan về thuật toán sử dụng tóm tắt văn bản............................................4
1.5.1 Thuật toán K-Means Clustering...................................................................4
1.5.2 Thuật toán LSA (Latent Semantic Analysis)................................................5
1.5.3 Thuật toán Text Rank...................................................................................7
KẾT LUẬN..................................................................................................................33
PHỤ LỤC.....................................................................................................................35
Xem Mục
i
DANH MỤC HÌNH VẼ
ii
DANH MỤC BẢNG BIỂU
iii
TÓM TẮT ĐỒ ÁN
Tóm tắt đồ án, có độ dài 1-2 trang, được trình bày tại đây. Chi tiết xem Mục Error:
Reference source not found.
iv
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT
Tóm tắt nội dung Chương 1 được trình bày tại đây, dài khoảng từ 5 đến 10 dòng.
Python là ngôn ngữ lập trình hướng đối tượng, cấp cao, mạnh mẽ, được tạo ra
bởi Guido van Rossum. Nó dễ dàng để tìm hiểu, Python hoàn toàn tạo kiểu động và sử
dụng cơ chế cấp phát bộ nhớ tự động. Python có cấu trúc dữ liệu cấp cao mạnh mẽ và
cách tiếp cận đơn giản nhưng hiệu quả đối với lập trình hướng đối tượng. Cú pháp
lệnh của Python là điểm cộng vô cùng lớn vì sự rõ ràng, dễ hiểu và cách gõ linh động
làm cho nó nhanh chóng trở thành một ngôn ngữ lý tưởng để viết script và phát triển
ứng dụng trong nhiều lĩnh vực, ở hầu hết các nền tảng.
Laravel là một PHP framework mã nguồn mở hoàn toàn miễn phí, được phát
triển bởi Taylor Otwell, phiên bản đầu tiên được cho ra mắt vào năm 2011. Laravel ra
đời với mục đích hỗ trợ phát triển các ứng dụng web dựa trên mô hình Model – View –
Controller (MVC).
Hiện tại có rất nhiều các trình hỗ trợ soạn thảo mã nguồn, cho phép mọi người
lập trình và chạy các mã nguồn. Visual Studio Code là một trong số đó. Với những
extention có thể tích hợp dễ dàng, giúp cho việc lập trình và thực thi mã nguồn tiện lợi,
hiệu quả. Đó là công cụ mạnh mẽ mà chúng em sẽ sử dụng xuyên suốt đề tài.
1.2 Tổng quan về các nội dung thông tin được sử dụng
Với các thông tin hiện tại, chúng ta đang có quá nhiều thông tin để phải chọn
lọc. Bên cạnh đó là nguồn thông tin cần phải được xác thực từ các bên chính thống. Vì
vậy, để phát triển bước đầu cho hệ thống, các nguồn thông tin được cung cấp đầu vào
sẵn từ trước, đến từ các báo có độ uy tín cao, thông tin xác thực từ các cơ quan có
thẩm quyền như: VnExpress.vn; Zing.vn; thanhnien.vn; Vietnamnet.vn; laodong.vn;
tuoitre.vn; dantri.com.vn.
1
1.3 Tổng quan về học máy
Học máy là một tập con của trí tuệ nhân tạo. Theo định nghĩa của Wikipedia thì,
học máy là một lĩnh vực nhỏ của khoa học máy tính, nó có khả năng tự học hỏi dựa
trên dữ liệu đưa vào mà không cần phải lập trình cụ thể.
Ý tưởng cơ bản của mọi quy trình học máy là xây dựng mô hình dựa trên một
số thuật toán để thực hiện một nhiệm vụ cụ thể như phân loại, phân lớp, hồi quy... Giai
đoạn huấn luyện được thực hiện dựa trên dữ liệu đầu vào và mô hình được xây dựng
để dự đoán đầu ra. Kết quả đầu ra phụ thuộc mục tiêu ban đầu và việc thực hiện. Chi
tiết quy trình học máy gồm các bước như sau:
Quy trình học máy cơ bản được chia làm các giai đoạn sau:
− Thu thập dữ liệu (gathering data): Quá trình thu thập dữ liệu phụ thuộc
vào loại dự án mà chúng ta mong muốn xây dựng, ví dụ nếu chúng ta muốn xây dựng
dự án học máy mà sử dụng dữ liệu thực để chúng ta có thể xây dựng một hệ thống IoT
từ các dữ liệu cảm biến khác nhau. Dữ liệu chúng ta có thể thu thập từ các nguồn dữ
liệu khác nhau như một tập tin, cơ sở dữ liệu, cảm biến ...
− Tiền xử lý dữ liệu (data pre-processing): Tiền xử lý dữ liệu là một trong
những giai đoạn quan trọng trong học máy, nó giúp xây dựng mô hình học máy chính
xác. Tiền xử lý dữ liệu là một quá trình làm sạch dữ liệu thô, dữ liệu được thu thập từ
nhiều nguồn trong thế giới thực và được chuyển thành một tập dữ liệu sạch. Dữ liệu
2
thô ban đầu có một số đặc điểm như dữ liệu bị thiếu sót, không nhất quán, nhiễu vì vậy
dữ liệu này phải được xử lý trước khi đưa vào học máy.
− Xây dựng mô hình phù hợp cho loại dữ liệu (researching model): Mục
tiêu chính của chúng ta là xây dựng mô hình thực hiện tốt nhất dựa trên một số thuật
toán phân loại và phân lớp.
− Huấn luyện và kiểm thử mô hình trên dữ liệu (training and testing
model): để huấn luyện một mô hình, ban đầu chúng ta chia mô hình thành 03 giai đoạn
bao gồm: dữ liệu huấn luyện (training data), dữ liệu xác nhận (validation data) và dữ
liệu kiểm thử (testing data). Để huấn luyện bộ phân lớp ta sử dụng tập hợp dữ liệu
huấn luyện (training data set), để tinh chỉnh các tham số ta sử dụng tập hợp xác nhận
(validation set) và sau đó kiểm tra hiệu suất của bộ phân loại chưa biết sử dụng tập hợp
dữ liệu kiểm thử (test data set). Một lưu ý quan trọng là trong quá trình huấn luyện bộ
phân lớp là dữ liệu kiểm thử không được sử dụng để huấn luyện.
− Đánh giá (evaluation): Đánh giá mô hình là một phần quan trọng
trong quy trình phát triển mô hình, nó giúp tìm ra mô hình tốt nhất để đại diện cho dữ
liệu của chúng ta và mô hình được chọn sẽ hoạt động tốt như thế nào trong tương lai.
NLTK hay Natural Language Toolkit - Bộ công cụ ngôn ngữ tự nhiên, là một
thư viện được viết bằng Python hỗ trợ xử lý ngôn ngữ tự nhiên. Bằng cách cung cấp
các cơ chế và kỹ thuật xử lý ngôn ngữ phổ biến, nó giúp cho việc xử lý ngôn ngữ tự
nhiên trở lên dễ dàng và nhanh chóng hơn. Được viết bởi Steven Bird và Edward
Loper, làm việc tại Khoa Máy Tính, Đại Học Pennsylvania, Hoa Kỳ và năm 2001.
Ngoài việc hỗ trợ xử lý ngôn ngữ, NLTK còn có các mô phỏng đồ hoạ và dữ liệu mẫu
hữu ích. NLTK cung cấp các xử lý như classification, tokenization, stemming, tagging,
3
parsing, và semantic reasoning... Những ứng dụng này chúng ta sẽ dần được tìm hiểu ở
những bài viết sau. Ngoài việc phục vụ xử lý ngôn ngữ tự nhiên, NLTK còn được sử
dụng trong Machine Learning với tác dụng làm sạch dữ liệu, xử lý dữ liệu đầu vào cho
các thuật toán Machine Learning.
1.5 Tổng quan về thuật toán sử dụng tóm tắt văn bản
Kmeans là một thuật toán học máy không giám sát – Unsupervised Learning.
Đầu vào của thuật toán phân cụm nói chung là các điểm dữ liệu và đầu ra là các điểm
với cụm tương ứng của nó sao cho các điểm thuộc cùng một cụm có nhiều mối quan
hệ, liên kết với nhau hơn nhiều so với các điểm khác cụm.
4
Với thuật toán Kmeans ta cần truyền thêm tham số là số cụm. Kmeans sử dụng
Euclid để xác định sự giống nhau giữa hai điểm dữ liệu, hai điểm càng gần nhau thì độ
tương tự giữa hai điểm này càng cao.
Dựa trên ý tưởng như vậy, Kmeans sử dụng hàm để tính tổng khoảng cách từ 1
điểm tới tâm cụm tương ứng của nó và tối ưu dựa trên thuật toán lặp. Với ý tưởng đơn
giản, dễ triển khai nhưng lại đem lại kết quả tốt trên nhiều bài toán. Hiện tại Kmeans
vẫn luôn nằm trong top những thuật toán Machine Learning phổ biến nhất.
Sau khi xử lý và chuẩn hoá dữ liệu đầu vào, việc chọn số cụm là việc khó khăn.
Với khả năng xử lý và tối ưu nhất cho một bài báo, thì số cụm được sử dụng trong hệ
thống là 5 cụm tương đương với bài báo sau khi được tóm tắt có độ dài là 5 câu.
Bước 1: Khởi tạo 5 điểm dữ liệu trong bộ dữ liệu và tạm thời coi nó là tâm của
các cụm dữ liệu của chúng ta.
Bước 2: Với mỗi điểm dữ liệu trong bộ dữ liệu, tâm cụm của nó sẽ được xác
định là 1 trong 5 tâm cụm gần nó nhất.
Bước 3: Sau khi tất cả các điểm dữ liệu đã có tâm, tính toán lại vị trí của tâm
cụm để đảm bảo tâm của cụm nằm ở chính giữa cụm.
Bước 4: Bước 2 và bước 3 sẽ được lặp đi lặp lại cho tới khi vị trí của tâm cụm
không thay đổi hoặc tâm của tất cả các điểm dữ liệu không thay đổi.
LSA là một trong những kỹ thuật Xử lý Ngôn ngữ Tự nhiên (NLP) phổ biến
nhất, nó sẽ cố gắng xác định các chủ đề trong văn bản bằng cách phân tích các thành
phần trong văn bản bằng toán học. LSA là một kỹ thuật học tập không giám sát dựa
trên hai yếu tố chính:
- Giả thuyết phân bố, cho rằng các từ có nghĩa giống nhau thường xuyên
xuất hiện cùng nhau.
- Phân rã giá trị đơn lẻ.
5
LSA lấy các tài liệu văn bản có ý nghĩa và tái tạo chúng thành n phần khác
nhau, trong đó mỗi phần thể hiện một cách khác nhau để so sánh ý nghĩa của chúng
trong văn bản. Như việc biểu đạt một câu nói: “Hôm nay tôi không khoẻ!” bằng một
câu nói với ý nghĩa hoàn toàn giống nó những cách nói khác là: “Hôm nay tôi cảm
thấy mệt!”. Thuật toán LSA sẽ phân chia các từ của văn bản thành một bảng gồm các ý
nghĩa tiềm ẩn của từ trong văn bản gốc.
LSA là một thuật toán thuộc mô hình chủ đề, phân loại topic. Ý tưởng của thuật
toán dựa trên phép phân tích suy biến ma trận biểu diễn văn bản đầu vào (A) để xác
định không gian tuyến tính con của A mà vẫn giữ được hầu hết những biến động của
ma trận A. Nói cách khác, thuật toán này đi giảm chiều ma trận dữ liệu đầu vào sử
dụng phép phân tích ma trận.
Mỗi dòng của U sẽ biểu diễn phân phối của văn bản và mỗi dòng của V là phân
phối của mỗi từ theo t topics ẩn.
6
- Để tìm ra 2 văn bản có giống nhau hoặc 2 từ giống nhau chúng ta sẽ tính
tương quan của các véc tơ dòng tương ứng với các văn bản của ma trận U hoặc các véc
tơ dòng tương ứng với từ của ma trận V.
Phép phân tích này giảm được khá nhiều chiều đối với trường hợp bộ văn bản
lớn. Tuy nhiên nó vẫn tồn tại những nhược điểm đó là:
- Các tính toán hoàn toàn dựa trên phân tích ma trận.
- Các topic được xác định dựa trên các phép chiếu tuyến tính nên mối
quan hệ giữa topic-document và topic-term là tuyến tính.
- Chi phí tinh toán của mô hình rất tốn kém nếu kích thước dữ liệu lớn
TextRank được bắt nguồn từ thuật toán PageRank, thuật toán nhằm xếp hạng
các trang web của Google. Thuật toán này chỉ định giá trị nhất định cho mỗi thành
phần của một tập hợp các văn bản liên kết với nhau, ví dụ như World Wide Web. Mục
đích "đo" tầm quan trọng tương đối của các liên kết trong tập hợp đó. Áp dụng cho bất
kỳ tập hợp văn bản nào có trích dẫn đối ứng và liên kết cụ thể. Giá trị (weight) mà nó
gán cho bất kỳ thành phần E được gọi là PageRank của E và ký hiệu là PR(E).
7
Giá trị PageRank hình thành từ thuật toán toán học dựa trên webgraph: các
trang world wide web được coi như các đỉnh và các đường link là các cạnh. Khi hình
thành webgraph người ta có tính đến những trang của các cơ quan có thẩm quyền như
cnn.com hay usa.gov. Giá trị xếp hạng cho thấy tầm quan trọng của từng trang cụ thể.
Mỗi đường link tới trang web sẽ được tính như một sự hỗ trợ làm tăng thêm giá trị
Pagerank.
Giá trị Pagerank của trang được định nghĩa đệ quy và phụ thuộc vào số lượng
và giá trị của các trang mà có link dẫn đến trang đó (incoming links).Một trang web có
chứa nhiều link liên kết từ các trang web có giá trị PageRank cao thì giá trị PageRank
của trang đó cũng sẽ cao.Có rất nhiều bài viết đã được xuất bản ra công chúng dựa trên
nghiên cứu gốc của Page và Brin.
Dựa trên ý tưởng này, thuật toán TextRank ra đời nhằm xếp hạng các câu trong
một văn bản dựa trên độ tương tự giữa các câu. Mỗi đỉnh sẽ là một câu, cạnh nối là độ
tương tự giữa hai câu. Từ đó xác định được các đỉnh với rank cao nhất - các câu quan
trọng nhất.
1.5.3.3
8
CHƯƠNG 2. THIẾT KẾ VÀ XÂY DỰNG HỆ THỐNG
Tóm tắt Chương 2 được trình bày tại đây, dài khoảng từ 5 đến 10 dòng.
Thay đổi thông Cập nhật thông Xoá & Sửa nội Cập nhật Thu thập dữ Tạo nội dung bài
Xử lý dữ liệu
tin tin dung bài viết thành viên liệu viết
9
2.1.2 Biểu đồ Use Case tổng quát
10
2.1.3 Xác định actor và chức năng
1 Guest Là đối tượng Đăng kí, tìm kiếm bài viết, xem
chưa có tài thông tin trang web.
khoản trong
hệ thống.
3 User Là đối tượng Đăng nhập, tìm kiếm bài viết, xem
đã có tài thông tin trên website, bình luận về
khoản trong bài viết, lưu thông tin bài viết, gợi ý
hệ thống bài viết theo sở thích.
11
2.1.4 Biểu đồ Use case chi tiết
12
2.1.4.3 Biểu đồ UC quản lý tin tức
Actor Guest
13
Pre-conditions Chưa có tài khoản
14
Special Requiements
Actor User
15
3. Use Case đăng xuất
Special Requiements
Actor User
16
tin
2. Hệ thống hiển thị Menu
Alternative Flows
17
4.1 Use Case thay đổi mật khẩu
Actor User
Actor User
18
2. Hệ thống hiển thị from thay đổi
3. Điền đầy đủ thông tin vào form
Alternative Flows Nếu người dùng điền sai, thiếu thông
tin hệ thống sẽ báo lỗi và gửi lại form
thay đổi
Pre-conditions
Alternative Flows
Special Requiements
1.
19
viết theo tiêu đề và các nhãn bài viết
Pre-conditions
Basic Flows 1. Hệ thống sẽ hiển thị 1 form với các
tiêu chí muốn tìm kiếm
2. Người dùng nhập thông tin trên
form và bấm nút tìm kiếm, hệ thống
sẽ truy vấn database và hiển thị kết
quả tìm kiếm
Alternative Flows Nếu người dùng nhập sai hay thiếu
tiêu chí nào thì hệ thống sẽ không
hiển thị kết quả
Actor User
20
Alternative Flows
Special Requiements
Actor Admin
Actor Admin
Alternative Flows
21
Special Requiements Là tài khoản Admin
Actor Admin
Actor Admin
22
Alternative Flows
Actor Admin
23
Post-conditions Cập nhật thông tin bài viết
Actor Admin
Post-conditions Bài viết sẽ không còn hiển thị trên hệ
thống
24
2.2.1 Các chức năng chính
2.2.1.1 Admin có phần đăng nhập quản lý bài viết(thêm sửa xóa)
2.2.1.2 Hiển thị ra trang chủ các bài viết theo sắp xếp thời gian mới nhất
2.2.1.3 Hiển thị ra trang chủ các bài viết theo sắp xếp thời gian mới nhất
Có 3 loại User:
Các nội dung sau khi được xử lý sẽ được phân loại và trình bày trên trang web,
tuỳ theo các thẻ được gắn nhãn từ trước, các bài báo sẽ được phân loại vào các chỉ
mục xác định từ trước
Các bài viết sẽ được trình bày ngắn gọn có cấu trúc gồm:
25
26
2.3 Chuẩn bị dữ liệu đầu vào
Các nội dung được lấy từ các nguồn chính thống như: tuoitre.vn; VnExpress.vn;
Zing.vn; thanhnien.vn; Vietnamnet.vn; laodong.vn; dantri.com.vn
Các nội dung của báo điện tử thường sẽ có cấu trúc như sau:
Ví dụ:
27
Hình 2.6: Hình ảnh từ báo VnExpress
28
2.2.1.3.2 Phân tích và bóc tách dữ liệu từ mã nguồn
Với các thành phần được liệt kê ở trên, đối với mỗi trang web sẽ có một cấu
trúc mã nguồn khác nhau. Vì vậy, trong tài liệu này xin chỉ đề cập đến việc phân tích
và bóc tách dữ liệu từ mã nguồn của trang tuoitre.vn.
Các bài viết sẽ được hiện thị ở trang chủ và các trang con của nó ở dạng tiêu đề
kèm theo link bài viết bằng thẻ <a> và có thuộc tính href chứa link đến bài viết đó. Sử
dụng thư viện bs4 và request của Python để xử lý theo các bước:
Mã nguồn:
# Nạp thư viện
import requests
news = requests.get(‘https://tuoitre.vn’)
29
# Tìm tất cả các thẻ <a> và lấy thuộc tính href chứa link trỏ đến bài
viết
Các bài viết đều có chung 1 mẫu và không thay đổi nhiều tuỳ bài viết, từ đó có
thể xác định chính xác những thẻ nào chứa các thành phần như: tiêu đề, thời gian đăng
bài, mô tả bài viết, ảnh đại diện bài viết và nội dung bài viết. Vẫn sử dụng thư viện bs4
để tách được các thành phần này ra khỏi mã nguồn và đưa về trạng thái văn bản thuần
tiền xử lý.
Mã nguồn:
# Lấy tiêu đề bài viết
image = body.img['src']
Văn bản đầu vào có thể chứa nhiều ký tự thừa, dấu câu thừa, khoảng trắng thừa,
các từ viết tắt, viết hoa, ... điều này có thể làm ảnh hưởng tới các bước ở sau này nên
chúng ta cần phải xử lý văn bản thu được. Chúng ta sẽ biến đổi văn bản về các chữ cái
thường và loại bỏ các khoảng trắng thừa.
30
2.2.1.4Bóc tách dữ liệu
Văn bản sẽ được tách ra từ các thẻ html bởi thư viện bs4. Từ đó, loại bỏ được
các thành phần dư thừa như tên thẻ và các thành phần khác của file html.
Văn bản được loại bỏ các ký tự đặc biệt, các ký tự xuống dòng và các ký tự
không có nhiều ý nghĩa. Khi đó văn bản vẫn có thể không thay đổi nhiều và có khả
năng giữ nguyên nội dung ban đầu của văn bản.
Để phục vụ cho phương pháp tóm tắt ở bước tiếp theo, cần chuyển các câu văn
(độ dài ngắn khác nhau) thành các vector số thực có độ dài cố định, sao cho vẫn phải
đảm bảo được "độ khác nhau" về ý nghĩa giữa 2 câu cũng tương tự như độ sai khác
giữa 2 vector tạo ra.
Với việc áp dụng 3 thuật toán trên để xử lý văn bản, kết quả trả ra là các đoạn
văn có nội dung tương tự nhau, nhưng chúng cần phải được xác định độ giống nhau so
với văn bản gốc, từ đó sẽ quyết định nội dung được sử dụng là của thuật toán nào.
Việc này cũng cho phép cho việc xử lý nội dung các bài báo ở các trang khác
nhau có thể được lọc ra và loại bỏ các bài viết bị trùng lặp nội dung, tránh gây tiêu tốn
tài nguyên của hệ thống.
31
CHƯƠNG 3. KẾT QUẢ THỰC NGHIỆM
Được in một mặt hoặc hai mặt nhằm tiết kiệm không gian lưu trữ.
Được đóng bìa mềm và có bìa bóng kính. Lưu ý: không dùng bìa cứng.
Quyển phải có chữ ký của sinh viên sau Lời cam đoan và của giảng viên hướng
dẫn.
Sinh viên nộp bản mềm đồ án TTCS theo Giảng viên hướng dẫn. Mỗi sinh viên
hoặc nhóm sinh viên phải nộp đủ toàn bộ các nội dung được làm trong đồ án TTCS
(quyển file mềm dạng .docx và .pdf; project bao gồm cả mã nguồn và hướng dẫn cài
đặt). Tất cả đặt trong cùng 1 thư mục và được đặt tên theo:
manhom_tendetai_tengvhd_nam.rar. Sinh viên hoặc nhóm sinh viên nộp cho GVHD
dưới dạng link tới file đã gửi lên cloud (google, microsoft, v.v.) hoặc copy cho GVHD.
Thực hiện một nhiệm vụ nào đó để hoàn thành quá trình học tập. Sinh viên tự
tìm điều kiện làm việc để hoàn thành đồ án. Do đó, sinh viên có quyền khai
thác và sử dụng đồ án của mình vào những việc khác. Đồng thời, Khoa Công
nghệ thông tin có toàn quyền sử dụng các kết quả của đồ án và cam kết
chia sẻ các kết quả trong bản đồ án cho tất cả những ai quan tâm và có yêu
cầu.
Thực hiện một đề tài, một nhiệm vụ trong ý đồ chiến lược, trong chương trình
khoa học và lao động sản xuất của giảng viên hướng dẫn, của cơ sở đào tạo
32
(trung tâm, viện nghiên cứu, các công ty, v.v.), của cơ sở đào tạo cung cấp các
phương tiện và điều kiện làm việc khác (máy móc, sách vở, điện thoại, truy cập
internet, máy in, dụng cụ thiết bị thí nghiệm, kinh phí, v.v.). Trong trường hợp
này, toàn bộ bản quyền của đồ án không thuộc về sinh viên. Sinh viên chỉ là
một người tham gia thực hiện nên không được tuỳ tiện sử dụng ở những nơi
khác với mục đích khác. Khi sinh viên thực hiện một đề tài theo hình thức này,
vai trò của giảng viên hướng dẫn là định hướng, cung cấp các tài liệu tham khảo
(nếu có), tạo điều kiện cơ sở vật chất (chỗ ngồi, máy tính, máy in, vật tư tiêu
hao, phương tiện thông tin liên lạc, internet v.v.) để hoàn thành công việc.
33
KẾT LUẬN
34
TÀI LIỆU THAM KHẢO
[3] J. M. Airey, J. H. Rohfl, F. Brooks Jr., “Towards Image Realism with Interactive
Update Rates in Complex Virtual Building Environments,” Comptuer Graphics,
Vol. 24, No. 2, pp. 41-50, 1990.
[4] S. Brandt, G. Nutt, T. Berk, M. Humphrey, “Soft Real time Application Execution
with Dynamic Quality of Service Assurance,” in Proceedings of the Sixth
IEEE/IFIP International Workshop on Quality of Service, Hawaii, USA, May
1998, pp. 154-163.
[5] K. Riley, “Language theory: Applications versus practice,” presented at the Conf.
of the Modern Language Association, Boston, MA, December 27-30, 1990.
35
PHỤ LỤC
ĐỒ ÁN MÔN HỌC
THỰC TẬP CƠ SỞ
Đề tài:
Hà Nội, 10-2021
ĐỒ ÁN MÔN HỌC
THỰC TẬP CƠ SỞ
Đề tài:
Hà Nội, 10-2021
Nhận xét khác (về thái độ và tinh thần làm việc của sinh viên)
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
Ngày: … / … / 20…
Người nhận xét
(Ký và ghi rõ họ tên)