Professional Documents
Culture Documents
Giảng viên:
Nguyễn Tiến Huy Nhóm 5:
Nguyễn Trường Sơn 21C11029 Hoàng Minh Thanh
21C11005 Trần Hữu Nghĩa
1. Introduction
2. Related Work
Contents 3. Main
4. Experiments
5. Conclusion
6. Q & A
1. Giới thiệu
Giới thiệu
• Condenser
• Condenser pre-train hướng tới cấu trúc bi-encoder
• Với dữ liệu ít
• Condenser mang lại sự cải thiện so với LM
• Có thể so sánh hiệu suất với các model pre-
trained có các tác vụ cụ thể
• Với dữ liệu lớn
• Condenser tối ưu hóa dễ hơn, vượt trội hơn so với pre
-trained trước sử dụng kỹ thuật phức tạp
2. Related work
2. Related work
❑ Bi-Encoders để tính
độ tương đồng giữa
queries và data trong
không gian vector.
Model này được biểu
diễn dữ liệu ( văn
bản,hình ảnh,
video,…) dưới dạng
vector
2. Related work
❑ Cross-Encoder không
tạo ra các embeddings
vector cho dữ liệu mà
thay vào đó sử dụng cơ
chế phân loại cho các
cặp dữ liệu. Đầu vào của
mô hình luôn bao gồm
một cặp dữ liệu, ví dụ
hai câu và xuất ra một
giá trị từ 0 đến 1 cho
thấy sự tương đồng giữa
hai câu này .
2. Related work
2. Related work
2. Related work
Corpus
Values V Hệ số chuẩn
hóa
16
Cơ chế Attention
Attention mechanism
Attention mechanism
Attention mechanism
Attention mechanism
Attention mechanism
v2 v3
v1
Pipeline cho Question Answering
BERT – Cross Encoder
Cross-Encoder và Bi-Encoder
Dense Retrieval
❑ Condenser ý tưởng
● Bi-directional attention (Transformer Encoder)
● Bi-direction language modeling task (MLM)
● Language model prediction cần phải phụ thuộc vào
CLS biểu diễn đặc
Condenser
❑ Early Backbone:
● Input: Embeddings
❑ Late Backbone:
● Input: Output từ early layers
Condenser: Head Layers
❑ Input:
● CLS vector từ late layers
● Token vectors từ early layers
❑ A "Short Circuit"
Condenser: Masked Language
Modeling Pre-training
❑ Pre-training với MLM Objective
❑ Dựa trên head layer output
Condenser: CLS in Late Backbone
Layers
❑ Layer cuối tiếp tục được refine token biểu diễn
❑ Tuy nhiên chỉ CLS token được pass vào thông tin
mới
❑ CLS chủ động tổng hợp input sequence
information
Condenser: Related Architectures
❑ Condenser:
https://colab.research.google.com/drive/1ZtxZI8
8hB1jGl00y2eixsmvNG-5Zc9SL?usp=sharing
❑ Retrieval
● Open QA
Natural Question
Trivia QA
● Large Scale Supervised IR
MS-MARCO
● Attention Analysis
Condenser có dễ dàng training hơn không?
Ranking
Experiment: Open QA
Improved Fine-tuning
Condenser Pre-training
Experiment: Supervised IR
❑ Goal
● Make fine-tuning easier
❑ ICT and related methods
● Tasks may be too simple
● Better task is desired
Direct Fine-tuning for Dense Retrieval