Professional Documents
Culture Documents
Nhom2 DOMAIN-SPORTS
Nhom2 DOMAIN-SPORTS
DOMAIN
SPORTS
THÀNH VIÊN: NGUYỄN HOÀNG GIANG
VÕ BÙI ĐĂNG KHOA
PHẠM VIỆT HOÀNG THI
Mô tả về đề tài
Thể thao là một món ăn tinh thần không thể
thiếu trong cuộc sống hiện đại của chúng ta, vì
thế nhu cầu tìm kiếm những thông tin xoay
quanh về chủ đề thể thao một cách nhanh
chóng và chính xác là rất cao. Nhận biết được
nhu cầu đó, nhóm quyết định xây dựng website
tìm kiếm thông tin các bài báo về chủ đề thể
thao.
Giới thiệu đề tài
Crawl các trang báo về 1 tuần Crawl 3000 trang về Crawl 3000 trang về Crawl 3000 trang về
thể thao ở trang web môn thể thao bóng đá, môn thể thao tennis, môn thể thao đơn, ...
www.24h.com.vn bóng chuyền, ... bóng rỗ, ...
Create Web Interface 1 tuần Build System Web Interface Web Interface
NỘI DUNG CHÍNH
01 02
Indexing
03
Crawling Data Retriving Website
Handling asynchrous, Indexing data from Evaluate search
Crawl data and write to database to elastic engine and build a
database search, settings and simple search web
mapping document.
I. Crawling - Các bước Crawling
- Cấu trúc của Document
Các bước Crawling
Event(string):
Description(string):
keyword liên quan
mô tả thêm về bài
đến bài báo.
báo.
Created_at(datetime): Source(string):
ngày xuất bản. nguồn trích dẫn.
II. Indexing and
Retrieving - Indexing
- Evalution
- API elasticsearch
Indexing
-Tạo index
-Tạo mappings
Precision at K với
k =1.2, b=0.75
Precision at K với
k =1.2, b=0.8
Precision at K với k =1.2, b=0.4
Evaluation