You are on page 1of 31

Machine Translated by Google

Đại học Công nghiệp Thành phố Hồ Chí Minh


-----------------------------------

BÁO CÁO
BloombergGPT: Mô hình ngôn ngữ tài chính
-----------------------------------

Nhóm: 50

Chủ đề: Giới thiệu lớp BigData


Tên: DHKHDL16A Giảng viên:
TS. Nguyễn Chí Kiên
Machine Translated by Google

THÀNH VIÊN

1 Nguyễn Văn Hậu - Chương 1

2 Cao Phan Khánh Duy - Chương 2

3 Lê Thanh Di - Chương 3

4 Nguyễn Trần Lâm - Chương 4

5 Quách Xuân Nam - Code


Machine Translated by Google

Nội dung

Chương 1 chương 2 Chương 3 Chương 4

Giới thiệu Kiến trúc Đào tạo Sự đánh giá


Machine Translated by Google

CHƯƠNG 1
GIỚI THIỆU
Machine Translated by Google

Lịch sử phát triển của hệ thống ML

Hiệu suất của các hệ thống học máy đã tăng lên đáng kể, mở ra nhiều
khả năng mới cho các ứng dụng học máy
Machine Translated by Google

Lịch sử phát triển của hệ thống ML


Dưới đây là một số điểm đáng chú ý từ biểu đồ:

Hiệu suất tăng đáng kể trong thời đại học sâu (CNN, RNN): Các thuật toán này cho phép
hệ thống học máy đạt được hiệu suất cao hơn đáng kể so với các hệ thống học máy
truyền thống.

Hiệu suất tiếp tục tăng trong thời đại của các mô hình lớn (GPT-4, BardAi,...): Những
mô hình này có kích thước khổng lồ, với hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ tham
số. Kích thước khổng lồ này cho phép các mô hình này đạt được hiệu suất cao hơn đáng
kể so với các mô hình học máy truyền thống.

Tăng chi phí của hệ thống học máy: Sự gia tăng hiệu suất của hệ thống học máy đi kèm
với việc tăng chi phí. Điều này là do hệ thống máy học cần nhiều sức mạnh tính toán
hơn để hoạt động.
Machine Translated by Google

CHƯƠNG 2
CÔNG TRÌNH
Machine Translated by Google

Cái nhìn đầu tiên về thiết kế của BloombergGPT

Kiến trúc

• Mô hình BloombergGPT là mô hình ngôn ngữ giải mã dựa trên kiến trúc BLOOM
(chỉ sử dụng bộ giải mã). •

Model này có 70 lớp khối giải mã Transformer .



Nó có một lớp chuẩn hóa bổ sung sau khi nhúng mã thông báo.

Thông số kỹ

thuật • Dựa theo định luật tỉ lệ Chinchilla, với L=70, mô hình có 40 đầu,
mỗi đầu có kích thước 192, dẫn đến tổng kích thước ẩn là D=7680 và tổng
cộng 50,6 tỷ tham số.

• Quá trình đào tạo sử dụng tổng cộng 512 GPU A100 40GB.

• Thời gian đào tạo là 139.200 bước (~53 ngày).


Machine Translated by Google

Kiến trúc của BLOOM


Machine Translated by Google

Các thành phần của mô hình

Nhúng từ đầu vào: Đây là nơi văn bản đầu vào được chuyển đổi thành các vectơ số, mỗi
vectơ đại diện cho một từ.

Sự chú ý của nhiều đầu: Đây là nơi mô hình chú ý đến các phần khác nhau của chuỗi đầu
vào, tùy thuộc vào ngữ cảnh. Nó thực hiện điều này bằng cách học nhiều mức độ chú ý khác
nhau, do đó có tên là "nhiều đầu".

Chuyển tiếp nguồn cấp dữ liệu: Đây là nơi mô hình áp dụng phép biến đổi phi tuyến tính
cho đầu ra của lớp chú ý.

Thêm/Norm: Đây là nơi mô hình thêm kết nối còn lại và áp dụng chuẩn hóa lớp.

Xác suất đầu ra và softmax: Đây là nơi mô hình đưa ra xác suất của từ tiếp theo trong
chuỗi bằng cách sử dụng hàm softmax.
Machine Translated by Google

Chỉ dành cho bộ giải mã


Machine Translated by Google

Chỉ dành cho bộ giải mã


Machine Translated by Google

Chỉ dành cho bộ giải mã

Phần nhúng đầu vào: Mỗi mã thông báo đầu vào được ánh xạ tới một vectơ trong không gian nhúng:
=
Ở đâu:

là vectơ nhúng cho mã thông báo i

là ma trận nhúng

Mã hóa vị trí: Để đưa thông tin vị trí vào, chúng tôi thêm thuật ngữ mã hóa vị trí
để nhúng:
'= +

Ở đâu có thể được tính bằng cách sử dụng hàm sin và cosin dựa trên vị trí mã thông báo:

= tội lỗi
0,5

Ở đâu:

là thứ nguyên nhúng

là ma trận tham số có thể học được
Machine Translated by Google

Chỉ dành cho bộ giải mã

' '
Chú ý nhiều đầu: Nó liên quan đến ba ma trận: Truy vấn: = ; Phím: = . ;
'
Giá trị: = Điểm chú ý giữa truy vấn và mỗi khóa được tính:

Điểm chú ý được sử dụng để tính trọng số cho các vectơ giá trị tương ứng: = .

Tổng có trọng số này biểu thị vectơ ngữ cảnh cho mã thông báo i.

Nhiều đầu chú ý được sử dụng song song, mỗi đầu chú ý tìm hiểu các khía cạnh khác nhau của ngữ cảnh.
Đầu ra của các đầu sau đó được nối và chiếu:
= ℎ 1 , … ,ℎ

= ℎ
Machine Translated by Google

Chỉ dành cho bộ giải mã

Lớp con vị trí và Lớp con chuyển tiếp nguồn cấp dữ liệu: Đầu ra chú ý được xử lý thêm thông qua lớp

con vị trí và lớp con chuyển tiếp nguồn cấp dữ liệu:

= + +
= +
Ở đâu:

• F là mạng truyền thẳng phi tuyến tính

• LayerNorm là hoạt động chuẩn hóa lớp

Đầu ra: Đầu ra bộ giải mã cuối cùng thu được bằng cách chiếu đầu ra của lớp con cuối cùng thông qua

một lớp tuyến tính và áp dụng softmax:


=
Phân phối xác suất này cho từ tiếp theo trong chuỗi có thể được sử dụng cho các tác vụ khác nhau như

tạo văn bản hoặc mô hình hóa ngôn ngữ.


Machine Translated by Google

Thiết kế của BloombergGPT


Kích thước mô hình
50 tỷ thông số

Kích thước tập dữ liệu 100 tỷ từ

Kích thước đầu vào/đầu ra 1024

Số lớp 13

Số lần chuyển đổi trên mỗi lớp 1024

Phần cứng Nhiều GPU

Tỷ lệ học siêu tham số quan trọng nhất

Độ chính xác về số 32bit

Kích thước từ vựng: 1M, Code thông báo


Mã thông báo
nhiều từ đến cụm từ và câu.

Tài liệu văn bản về tài chính, kinh


Thành phần dữ liệu
doanh, kinh tế
Machine Translated by Google

Mô hình hoạt động như thế nào

1 NHÚNG Văn bản đầu vào được chuyển đổi thành từ nhúng

2 SỰ ĐIỀU KHIỂN
Mô hình xử lý các phần khác nhau của chuỗi đầu vào bằng
cách sử dụng sự chú ý của nhiều đầu.

3 BIẾN ĐỔI
Mô hình áp dụng phép biến đổi phi tuyến tính cho đầu ra của
lớp chú ý, sử dụng lớp chuyển tiếp nguồn cấp dữ liệu.

4 BÌNH THƯỜNG
Mô hình thêm kết nối còn lại và áp dụng chuẩn hóa lớp.

5 ĐẦU RA
Mô hình đưa ra xác suất của từ tiếp theo trong chuỗi
bằng cách sử dụng hàm softmax.
Machine Translated by Google

CHƯƠNG 3
ĐÀO TẠO
Machine Translated by Google

Thông số mô hình
Machine Translated by Google

Lựa chọn tập dữ liệu

Dữ liệu công khai: The Pile (Gao et


al., 2020) – 22 miền đa dạng; C4
(Raffel và cộng sự, 2019) – Thu thập
thông tin chung sạch hơn; Wikipedia
từ tháng 7 năm 2022

Dữ liệu riêng tư: Nội dung web; Dây

tin tức và bảng điểm; Hồ sơ của SEC


Edgar ; Thông cáo báo chí
Machine Translated by Google

BloombergGPT 50b (v0 + v1)


Vấn đề V0: Mức độ mất tập luyện giảm dần sau khoảng 10 nghìn bước.

Không cải thiện tình trạng mất nhà phát triển sau bước ~20k

Thay đổi: Xóa chương trình giảng dạy tạm thời (trộn các phần)

Vấn đề V1: Sau ~ 12k bước, định mức độ dốc bắt đầu tăng. Thỉnh

thoảng bị nhảy mất dev

Cố gắng khắc phục v1: •

v1.1 Khởi động lại từ bước 10.8k, xáo trộn hoàn toàn dữ

liệu còn lại, giảm LR (8e-5) • v1.2: LR nhỏ

hơn (6e-5), grad_clip nhỏ hơn (0,3) mà không cần khởi động lại

• v1.3: v1.1 + fp32 ở đầu LM - giảm LR

• v1.4: v1.3 + v1.2 + cuộn lại nhỏ hơn

Tại thời điểm này, chúng tôi tin rằng v1 không thể cứu vãn được
Machine Translated by Google

BloombergGPT 50b (v2)


Nhiều thay đổi về siêu tham số giúp ổn định và sửa lỗi:

v1.4: fp32 trong đầu LM+max lr=6e-5+grad clip = 0,3+trộn dữ liệu hoàn toàn

hạt giống khác nhau (ví dụ: khởi tạo và sắp xếp dữ liệu khác nhau)

• LayerNorm sau khi nhúng



Tốc độ học tập dài hơn ấm lên

• Loại bỏ sự phân rã trọng lượng của Lớp Định mức

• Sử dụng khả năng thay đổi kích thước init megatron


query_key_layer_scaling
• khởi động kích thước lô hai giai đoạn (1024->2048)
Machine Translated by Google

CHƯƠNG 4
SỰ ĐÁNH GIÁ
Machine Translated by Google
Machine Translated by Google

Hai loại đánh giá


Đánh giá chủ đề chung
• BIG-Bench Hard

• Hiểu ngôn ngữ đa nhiệm lớn (MMLU) • Đọc hiểu


Kịch bản ngôn ngữ

Đánh giá lĩnh vực tài chính

• FPB, FiQA, Tiêu đề, ConvFinQA

• Tình cảm, NER, NED+NED


Machine Translated by Google

Các loại đánh giá khác nhau


Điều này là tốn kém để chạy!

- Mất Dev trên (1) iid Set, (2) non iid Set
Giám sát đào tạo
- bộ nhỏ có độ che phủ cao

- Công chúng: Ghế lớn, Kiến thức, Đọc hiểu,


Nhiệm vụ ngôn ngữ

- Công khai trong miền: QA, NER, tình cảm;


Đánh giá sau đào tạo
- Riêng tư trong miền: Sentiment, NER, NED

Đây là điều thực sự quan trọng và việc đánh giá sau đào tạo sẽ tương quan với kết

quả tích cực ở đây.


Đánh giá cụ thể Làm việc với quản lý sản phẩm, phát triển UX/UI, Hướng dẫn mọi người cách sử
các ứng dụng dụng mô hình
Machine Translated by Google

BIG-Băng ghế cứng

BIG-Băng ghế bao gồm 214


Nhiệm vụ NLP để chuẩn hóa
LLM

BIG-Bench Hard là tập


hợp con gồm 23 nhiệm vụ

đầy thử thách


Machine Translated by Google

Hiểu ngôn ngữ đa nhiệm lớn


Machine Translated by Google

Kết quả MMLU


Machine Translated by Google

Miền tài chính: Bộ dữ liệu công cộng


Machine Translated by Google

Miền tài chính: Bộ dữ liệu nội bộ của Bloomberg

You might also like