Báo Cáo 1

Uploaded by

Thương Phạm

0% found this document useful (0 votes)

6 views2 pages

báo cáo

Original Title

Báo cáo 1

Copyright

Available Formats

DOCX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

báo cáo

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

6 views2 pages

Báo Cáo 1

Uploaded by

Thương Phạm

báo cáo

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 2

Search inside document

Xây dựng mô hình tóm tắt văn bản Tiếng Việt với mô hình TextRank:

1. Khai phá dữ liệu và tiền xử lý:

Dữ liệu được lấy từ https://github.com/ThanhChinhBK/vietnews vơí 3 tập dữ
liệu train, validion, test.

Trong đó thì cột original là cột văn bản gốc còn cột summary là cột văn bản đã
được tóm tắt.
Đối với dữ liệu vietnew gồm các folder như chính trị, giáo dục, xã hội,… là các
file .txt

Trong quá trình tiền xử lý dữ liệu gồm có:

Trong xử lý ngôn ngữ tự nhiên bước tiền xử lý thường để giảm kích thước của
từ vựng. Các kí tự đặc biệt thường không mang nhiều ý nghĩa trong việc phân
tích (trừ phân tích cảm xúc). Tạo ra biểu diễn tinh gọn giúp mô hình tập trung
vào nhưng yếu tố chính và tăng tính đồng nhất dữ liệu đầu vào
 Tách từ và loại bỏ các từ dừng:
Sử dụng thư viện pyvi để tách từ trong văn bản gốc và loại bỏ từ dùng những
từ phổ biến và không quan trọng trong quyết định ý nghĩa của văn bản. Ở đây dùng từ
điển: chúng ta tiến hành filter văn bản, loại bỏ những từ xuất hiện trong từ điển
StopWords.

 Loại bỏ các ký tự đặc biệt và dấu cách thừa:

Vector hóa câu dùng word2vec:

Trích rút câu quan trọng sử dụng TextRank:

Đánh giá trên rouge: (đánh giá trên tập dữ liệu) ~ tính trung bình:
[0.4250003755385766, 0.2715199875516351, 0.39675560313066105]

1 Huong Dan Viet Tong Quan TL BT1 YTCC
Document5 pages
1 Huong Dan Viet Tong Quan TL BT1 YTCC
Selly Suhou
No ratings yet
Kỹ năng báo cáo học thuật
Document59 pages
Kỹ năng báo cáo học thuật
21129784
No ratings yet
Baocao Nhom05
Document13 pages
Baocao Nhom05
Nguyễn Thảo Ly
No ratings yet
Tailieunhanh 78 Fair2020 Paper 79 6238
Document5 pages
Tailieunhanh 78 Fair2020 Paper 79 6238
Thương Phạm
No ratings yet
Huong Dan Endnote x7
Document27 pages
Huong Dan Endnote x7
Pyen Nguyen
No ratings yet
VietNamNet 1
Document37 pages
VietNamNet 1
Quay Tín Trần
No ratings yet
SoICT-Hướng Dẫn Viết Quyển Bằng Latex
Document39 pages
SoICT-Hướng Dẫn Viết Quyển Bằng Latex
GIANG
No ratings yet
Hướng Dẫn Sử Dụng Endnode X8.0.2 Build 10858
Document11 pages
Hướng Dẫn Sử Dụng Endnode X8.0.2 Build 10858
Hà Hoàng Linh
No ratings yet
Huong Dan NVIVO PDF
Document55 pages
Huong Dan NVIVO PDF
Ta Thi Kim Ngan
No ratings yet
Khai phá dữ liệu
Document25 pages
Khai phá dữ liệu
Vu Tien Duc
No ratings yet
Phương pháp luận nghiên cứu khoa học
Document16 pages
Phương pháp luận nghiên cứu khoa học
Long Bùi
No ratings yet
Phuong Phap Viet Tong Quan Tai Lieu
Document4 pages
Phuong Phap Viet Tong Quan Tai Lieu
Nguyễn Trường Sinh
No ratings yet
Mẫu 13 Khcn Qđhtbsđt
Document7 pages
Mẫu 13 Khcn Qđhtbsđt
Tâm Thể Khoa
No ratings yet
Tìm kiếm, trích xuất, và Lưu trữ dữ liệu
Document75 pages
Tìm kiếm, trích xuất, và Lưu trữ dữ liệu
Huy HA
No ratings yet
BaoCao NLP New
Document44 pages
BaoCao NLP New
hieu
No ratings yet
Co So Du Lieu Co Ban
Document43 pages
Co So Du Lieu Co Ban
Rhino Vương
No ratings yet
3 - Huong Dan Viet de Cuong Luan An
Document15 pages
3 - Huong Dan Viet de Cuong Luan An
plinhchi1703
No ratings yet
M07 KIPOSDigital BienTapTuLieuSo v833
Document29 pages
M07 KIPOSDigital BienTapTuLieuSo v833
Nguyen Vinh Tan
No ratings yet
Slide TH-C T-P Aimesoft (Autosaved) (Autosaved)
Document45 pages
Slide TH-C T-P Aimesoft (Autosaved) (Autosaved)
Thương Phạm
No ratings yet
QUY ĐỊNH TRÌNH BÀY BÀI TIỂU LUẬN
Document5 pages
QUY ĐỊNH TRÌNH BÀY BÀI TIỂU LUẬN
Từ Minh Hoàng
No ratings yet
Tailieu HuongDan TTTN 2932021
Document16 pages
Tailieu HuongDan TTTN 2932021
nguyen nguyen
No ratings yet
7080 - Qui Dịnh Biên Soan Dề Tài NCKH SV
Document7 pages
7080 - Qui Dịnh Biên Soan Dề Tài NCKH SV
Khanh Vũ Phương Lê
No ratings yet
GiaotrinhTHHH - phần 1
Document29 pages
GiaotrinhTHHH - phần 1
Phương Uyên
No ratings yet
Kiểm Thử Trên Python: Trường Đại Học Công Nghệ Tp. Hcm
Document22 pages
Kiểm Thử Trên Python: Trường Đại Học Công Nghệ Tp. Hcm
Trường
No ratings yet
Text Summarization
Document29 pages
Text Summarization
Linh Nguyen Ly Khanh
No ratings yet
GiaotrinhTHHH - phần 1
Document29 pages
GiaotrinhTHHH - phần 1
minh thao le thi
No ratings yet
Baocao
Document14 pages
Baocao
An Trần
No ratings yet
Hướng Dẫn Làm Bài Tiểu Luận Cuối Kỳ
Document4 pages
Hướng Dẫn Làm Bài Tiểu Luận Cuối Kỳ
trongnghia662507
No ratings yet
Kythuat Trich Dan TLTK Tudong
Document8 pages
Kythuat Trich Dan TLTK Tudong
B19DCVT368 - Ngô Quang Thái
No ratings yet
PHỤ LỤC HƯỚNG DẪN LÀM TIỂU LUẬN
Document7 pages
PHỤ LỤC HƯỚNG DẪN LÀM TIỂU LUẬN
Oo Tudexuong Oo
No ratings yet
Bài điều kiện số 2
Document6 pages
Bài điều kiện số 2
Phạm Thị Ngọc Bích
No ratings yet
FA22 MKT101 GA Guideline
Document7 pages
FA22 MKT101 GA Guideline
Emlie Nguyễn
No ratings yet
Code Tách Câu, Tách T
Document41 pages
Code Tách Câu, Tách T
Nguyễn Hoàng Anh Thư
No ratings yet
TSR101 Bai3 v1.0015108208
Document21 pages
TSR101 Bai3 v1.0015108208
Huỳnh Đăng Thành
No ratings yet
NỘI DUNG TIỂU LUẬN
Document5 pages
NỘI DUNG TIỂU LUẬN
Dương Thu Ngân
No ratings yet
Đoc, Ghi FIle
Document22 pages
Đoc, Ghi FIle
tuantmp228
No ratings yet
Cach Su Dung Mendeley
Document5 pages
Cach Su Dung Mendeley
Ánh Nguyễn
No ratings yet
Bài Tập 1
Document8 pages
Bài Tập 1
Zero Nguyễn
No ratings yet
Quy định trình bày NCKH
Document16 pages
Quy định trình bày NCKH
study.dltrung
No ratings yet
Quoc Chia Se Literature Review
Document3 pages
Quoc Chia Se Literature Review
minhthu7a12004
No ratings yet
Đ Án C++
Document13 pages
Đ Án C++
giacmocuoicung
No ratings yet
Chuong 6 - PYTHON - Working With File
Document22 pages
Chuong 6 - PYTHON - Working With File
Thang Truong
No ratings yet
Ky Nang Trich Dan Mendeley
Document35 pages
Ky Nang Trich Dan Mendeley
Khả Phúc
No ratings yet
Hướng dẫn dùng NVIVO nghiên cứu định tính
Document18 pages
Hướng dẫn dùng NVIVO nghiên cứu định tính
Nguyễn Phong
No ratings yet
Cấu trúc luận văn
Document6 pages
Cấu trúc luận văn
dũng nguyễn xuân
No ratings yet
14.7hoi Thao Giao Duc Thai Nguyen - Huong Dan Viet Bai Bao Theo Dang IMRAD 2023-Template
Document6 pages
14.7hoi Thao Giao Duc Thai Nguyen - Huong Dan Viet Bai Bao Theo Dang IMRAD 2023-Template
Lienhoa
No ratings yet
TNU JST HuongdanTG Templete VI 2021
Document6 pages
TNU JST HuongdanTG Templete VI 2021
Thanh Tung Nguyen
No ratings yet
2.2 HD Viet Luan Van Thu Cap QLBV 2020
Document18 pages
2.2 HD Viet Luan Van Thu Cap QLBV 2020
Huynh Hoang Kien B1909521
No ratings yet
Bài Thu Ho CH Chương 3
Document23 pages
Bài Thu Ho CH Chương 3
duongthuytram.vd2
No ratings yet
2.huong Dan Viet Luan Van Theo Huong Nghien Cuu Tong Quan-Final
Document16 pages
2.huong Dan Viet Luan Van Theo Huong Nghien Cuu Tong Quan-Final
Tiến Đạt Bùi
No ratings yet
Chương 6 Xu Ly Du Lieu
Document26 pages
Chương 6 Xu Ly Du Lieu
nguyenhoangkieuny
No ratings yet
Cơ sở dữ liệu
Document80 pages
Cơ sở dữ liệu
mojsoft
No ratings yet
Báo Cáo
Document48 pages
Báo Cáo
Phú Lê
No ratings yet
Chương 2
Document29 pages
Chương 2
ĐứcNhiên
No ratings yet
Thực Hành Viết Luận Văn Thần Học
From Everand
Thực Hành Viết Luận Văn Thần Học
Le Phan
No ratings yet
Six Sigma
From Everand
Six Sigma
Phong Nguyễn Như
Rating: 5 out of 5 stars
5/5 (1)
Thống Kê Trong Công Nghiệp
From Everand
Thống Kê Trong Công Nghiệp
Phong Nguyễn Như
Rating: 5 out of 5 stars
5/5 (1)
Quản Lý Chuỗi Giá Trị
From Everand
Quản Lý Chuỗi Giá Trị
Phong Nguyễn Như
Rating: 5 out of 5 stars
5/5 (1)
Điều độ dự án mờ
From Everand
Điều độ dự án mờ
Phong Nguyễn Như
Rating: 5 out of 5 stars
5/5 (1)
Ra quyết định mờ
From Everand
Ra quyết định mờ
Phong Nguyễn Như
Rating: 5 out of 5 stars
5/5 (1)
hàm số
Document3 pages
hàm số
Thương Phạm
No ratings yet
Dissertation Paper (1)
Document106 pages
Dissertation Paper (1)
Thương Phạm
No ratings yet
Chương 2 Hàm số (Repaired)
Document12 pages
Chương 2 Hàm số (Repaired)
Thương Phạm
No ratings yet
CỦNG CỐ TOÁN 9- TẬP 2 Về nhà
Document113 pages
CỦNG CỐ TOÁN 9- TẬP 2 Về nhà
Thương Phạm
No ratings yet
CHƯƠNG I CĂN BẬC HAI, CĂN BẬC BA
Document14 pages
CHƯƠNG I CĂN BẬC HAI, CĂN BẬC BA
Thương Phạm
No ratings yet
Negative
Document3 pages
Negative
Thương Phạm
No ratings yet
đề 2
Document6 pages
đề 2
Thương Phạm
No ratings yet
17-Lam Quan Tuong (125-132) 017
Document8 pages
17-Lam Quan Tuong (125-132) 017
Thương Phạm
No ratings yet
Slide TH-C T-P Aimesoft
Document26 pages
Slide TH-C T-P Aimesoft
Thương Phạm
No ratings yet