Professional Documents
Culture Documents
Giảng viên:
Nguyễn Tiến Huy
Nhóm 5:
Nguyễn Trường Sơn
21C11029 Hoàng Minh Thanh
21C11005 Trần Hữu Nghĩa
1. Introduction
2. Related Work
Contents 3. Main
4. Experiments
5. Conclusion
6. Q & A
1. Giới thiệu
Giới thiệu
• Condenser
• Condenser pre-train hướng tới cấu trúc bi-encoder
• Với dữ liệu ít
• Condenser mang lại sự cải thiện so với LM
• Có thể so sánh hiệu suất với các model pre-
trained có các tác vụ cụ thể
• Với dữ liệu lớn
• Condenser tối ưu hóa dễ hơn, vượt trội hơn so với pre
-trained trước sử dụng kỹ thuật phức tạp
2. Related work
2. Related work
Bi-Encoders để tính
độ tương đồng giữa
queries và data trong
không gian vector.
Model này được biểu
diễn dữ liệu ( văn
bản,hình ảnh, video,
…) dưới dạng vector
2. Related work
Cross-Encoder không
tạo ra các embeddings
vector cho dữ liệu mà
thay vào đó sử dụng cơ
chế phân loại cho các
cặp dữ liệu. Đầu vào của
mô hình luôn bao gồm
một cặp dữ liệu, ví dụ
hai câu và xuất ra một
giá trị từ 0 đến 1 cho
thấy sự tương đồng giữa
hai câu này .
2. Related work
2. Related work
2. Related work
Corpus
Values V Hệ số chuẩn
hóa
16
Cơ chế Attention
Attention mechanism
Attention mechanism
Attention mechanism
Attention mechanism
Attention mechanism
v2 v3
v1
Pipeline cho Question Answering
BERT – Cross Encoder
Cross-Encoder và Bi-Encoder
Dense Retrieval
Condenser ý tưởng
● Bi-directional attention (Transformer Encoder)
● Bi-direction language modeling task (MLM)
● Language model prediction cần phải phụ thuộc vào
CLS biểu diễn đặc
Condenser
Early Backbone:
● Input: Embeddings
Late Backbone:
● Input: Output từ early layers
Condenser: Head Layers
Input:
● CLS vector từ late layers
● Token vectors từ early layers
A "Short Circuit"
Condenser: Masked Language
Modeling Pre-training
Pre-training với MLM Objective
Dựa trên head layer output
Condenser: CLS in Late Backbone
Layers
Layer cuối tiếp tục được refine token biểu diễn
Tuy nhiên chỉ CLS token được pass vào thông
tin mới
CLS chủ động tổng hợp input sequence
information
Condenser: Related Architectures
Condenser:
https://colab.research.google.com/drive/1ZtxZI8
8hB1jGl00y2eixsmvNG-5Zc9SL?usp=sharing
Retrieval
● Open QA
Natural Question
Trivia QA
● Large Scale Supervised IR
MS-MARCO
● Attention Analysis
Condenser có dễ dàng training hơn không?
Ranking
Experiment: Open QA
Improved Fine-tuning
Condenser Pre-training
Experiment: Supervised IR
Goal
● Make fine-tuning easier
ICT and related methods
● Tasks may be too simple
● Better task is desired
Direct Fine-tuning for Dense Retrieval