Professional Documents
Culture Documents
Big Data - Bloomberg - VI
Big Data - Bloomberg - VI
BÁO CÁO
BloombergGPT: Mô hình ngôn ngữ tài chính
-----------------------------------
Nhóm: 50
THÀNH VIÊN
3 Lê Thanh Di - Chương 3
Nội dung
CHƯƠNG 1
GIỚI THIỆU
Machine Translated by Google
Hiệu suất của các hệ thống học máy đã tăng lên đáng kể, mở ra nhiều
khả năng mới cho các ứng dụng học máy
Machine Translated by Google
Hiệu suất tăng đáng kể trong thời đại học sâu (CNN, RNN): Các thuật toán này cho phép
hệ thống học máy đạt được hiệu suất cao hơn đáng kể so với các hệ thống học máy
truyền thống.
Hiệu suất tiếp tục tăng trong thời đại của các mô hình lớn (GPT-4, BardAi,...): Những
mô hình này có kích thước khổng lồ, với hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ tham
số. Kích thước khổng lồ này cho phép các mô hình này đạt được hiệu suất cao hơn đáng
kể so với các mô hình học máy truyền thống.
Tăng chi phí của hệ thống học máy: Sự gia tăng hiệu suất của hệ thống học máy đi kèm
với việc tăng chi phí. Điều này là do hệ thống máy học cần nhiều sức mạnh tính toán
hơn để hoạt động.
Machine Translated by Google
CHƯƠNG 2
CÔNG TRÌNH
Machine Translated by Google
Kiến trúc
• Mô hình BloombergGPT là mô hình ngôn ngữ giải mã dựa trên kiến trúc BLOOM
(chỉ sử dụng bộ giải mã). •
Thông số kỹ
thuật • Dựa theo định luật tỉ lệ Chinchilla, với L=70, mô hình có 40 đầu,
mỗi đầu có kích thước 192, dẫn đến tổng kích thước ẩn là D=7680 và tổng
cộng 50,6 tỷ tham số.
• Quá trình đào tạo sử dụng tổng cộng 512 GPU A100 40GB.
Nhúng từ đầu vào: Đây là nơi văn bản đầu vào được chuyển đổi thành các vectơ số, mỗi
vectơ đại diện cho một từ.
Sự chú ý của nhiều đầu: Đây là nơi mô hình chú ý đến các phần khác nhau của chuỗi đầu
vào, tùy thuộc vào ngữ cảnh. Nó thực hiện điều này bằng cách học nhiều mức độ chú ý khác
nhau, do đó có tên là "nhiều đầu".
Chuyển tiếp nguồn cấp dữ liệu: Đây là nơi mô hình áp dụng phép biến đổi phi tuyến tính
cho đầu ra của lớp chú ý.
Thêm/Norm: Đây là nơi mô hình thêm kết nối còn lại và áp dụng chuẩn hóa lớp.
Xác suất đầu ra và softmax: Đây là nơi mô hình đưa ra xác suất của từ tiếp theo trong
chuỗi bằng cách sử dụng hàm softmax.
Machine Translated by Google
Phần nhúng đầu vào: Mỗi mã thông báo đầu vào được ánh xạ tới một vectơ trong không gian nhúng:
=
Ở đâu:
•
là vectơ nhúng cho mã thông báo i
•
là ma trận nhúng
Mã hóa vị trí: Để đưa thông tin vị trí vào, chúng tôi thêm thuật ngữ mã hóa vị trí
để nhúng:
'= +
Ở đâu có thể được tính bằng cách sử dụng hàm sin và cosin dựa trên vị trí mã thông báo:
= tội lỗi
0,5
Ở đâu:
•
là thứ nguyên nhúng
•
là ma trận tham số có thể học được
Machine Translated by Google
' '
Chú ý nhiều đầu: Nó liên quan đến ba ma trận: Truy vấn: = ; Phím: = . ;
'
Giá trị: = Điểm chú ý giữa truy vấn và mỗi khóa được tính:
Điểm chú ý được sử dụng để tính trọng số cho các vectơ giá trị tương ứng: = .
Tổng có trọng số này biểu thị vectơ ngữ cảnh cho mã thông báo i.
Nhiều đầu chú ý được sử dụng song song, mỗi đầu chú ý tìm hiểu các khía cạnh khác nhau của ngữ cảnh.
Đầu ra của các đầu sau đó được nối và chiếu:
= ℎ 1 , … ,ℎ
= ℎ
Machine Translated by Google
Lớp con vị trí và Lớp con chuyển tiếp nguồn cấp dữ liệu: Đầu ra chú ý được xử lý thêm thông qua lớp
= + +
= +
Ở đâu:
Đầu ra: Đầu ra bộ giải mã cuối cùng thu được bằng cách chiếu đầu ra của lớp con cuối cùng thông qua
Số lớp 13
1 NHÚNG Văn bản đầu vào được chuyển đổi thành từ nhúng
2 SỰ ĐIỀU KHIỂN
Mô hình xử lý các phần khác nhau của chuỗi đầu vào bằng
cách sử dụng sự chú ý của nhiều đầu.
3 BIẾN ĐỔI
Mô hình áp dụng phép biến đổi phi tuyến tính cho đầu ra của
lớp chú ý, sử dụng lớp chuyển tiếp nguồn cấp dữ liệu.
4 BÌNH THƯỜNG
Mô hình thêm kết nối còn lại và áp dụng chuẩn hóa lớp.
5 ĐẦU RA
Mô hình đưa ra xác suất của từ tiếp theo trong chuỗi
bằng cách sử dụng hàm softmax.
Machine Translated by Google
CHƯƠNG 3
ĐÀO TẠO
Machine Translated by Google
Thông số mô hình
Machine Translated by Google
Không cải thiện tình trạng mất nhà phát triển sau bước ~20k
Thay đổi: Xóa chương trình giảng dạy tạm thời (trộn các phần)
Vấn đề V1: Sau ~ 12k bước, định mức độ dốc bắt đầu tăng. Thỉnh
v1.1 Khởi động lại từ bước 10.8k, xáo trộn hoàn toàn dữ
hơn (6e-5), grad_clip nhỏ hơn (0,3) mà không cần khởi động lại
Tại thời điểm này, chúng tôi tin rằng v1 không thể cứu vãn được
Machine Translated by Google
•
query_key_layer_scaling
• khởi động kích thước lô hai giai đoạn (1024->2048)
Machine Translated by Google
CHƯƠNG 4
SỰ ĐÁNH GIÁ
Machine Translated by Google
Machine Translated by Google
•
Kịch bản ngôn ngữ
- Mất Dev trên (1) iid Set, (2) non iid Set
Giám sát đào tạo
- bộ nhỏ có độ che phủ cao
Đây là điều thực sự quan trọng và việc đánh giá sau đào tạo sẽ tương quan với kết