Big Data - Bloomberg - VI

Machine Translated by Google
Đại học Công nghiệp Thành phố Hồ Chí Minh

-----------------------------------
BÁO CÁO
BloombergGPT: Mô hình ngôn ngữ tài chính
-----------------------------------
Nhóm: 50
Chủ đề: Giới thiệu lớp BigData

Tên: DHKHDL16A Giảng viên:
TS. Nguyễn Chí Kiên
THÀNH VIÊN
1 Nguyễn Văn Hậu - Chương 1
2 Cao Phan Khánh Duy - Chương 2
3 Lê Thanh Di - Chương 3
4 Nguyễn Trần Lâm - Chương 4
5 Quách Xuân Nam - Code

Nội dung
Chương 1 chương 2 Chương 3 Chương 4
Giới thiệu Kiến trúc Đào tạo Sự đánh giá

CHƯƠNG 1
GIỚI THIỆU
Lịch sử phát triển của hệ thống ML
Hiệu suất của các hệ thống học máy đã tăng lên đáng kể, mở ra nhiều
khả năng mới cho các ứng dụng học máy
Lịch sử phát triển của hệ thống ML

Dưới đây là một số điểm đáng chú ý từ biểu đồ:
Hiệu suất tăng đáng kể trong thời đại học sâu (CNN, RNN): Các thuật toán này cho phép
hệ thống học máy đạt được hiệu suất cao hơn đáng kể so với các hệ thống học máy
truyền thống.
Hiệu suất tiếp tục tăng trong thời đại của các mô hình lớn (GPT-4, BardAi,...): Những
mô hình này có kích thước khổng lồ, với hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ tham
số. Kích thước khổng lồ này cho phép các mô hình này đạt được hiệu suất cao hơn đáng
kể so với các mô hình học máy truyền thống.
Tăng chi phí của hệ thống học máy: Sự gia tăng hiệu suất của hệ thống học máy đi kèm
với việc tăng chi phí. Điều này là do hệ thống máy học cần nhiều sức mạnh tính toán
hơn để hoạt động.
CHƯƠNG 2
CÔNG TRÌNH
Cái nhìn đầu tiên về thiết kế của BloombergGPT
Kiến trúc
• Mô hình BloombergGPT là mô hình ngôn ngữ giải mã dựa trên kiến trúc BLOOM
(chỉ sử dụng bộ giải mã). •
Model này có 70 lớp khối giải mã Transformer .

•
Nó có một lớp chuẩn hóa bổ sung sau khi nhúng mã thông báo.
Thông số kỹ
thuật • Dựa theo định luật tỉ lệ Chinchilla, với L=70, mô hình có 40 đầu,
mỗi đầu có kích thước 192, dẫn đến tổng kích thước ẩn là D=7680 và tổng
cộng 50,6 tỷ tham số.
• Quá trình đào tạo sử dụng tổng cộng 512 GPU A100 40GB.
• Thời gian đào tạo là 139.200 bước (~53 ngày).

Kiến trúc của BLOOM

Các thành phần của mô hình
Nhúng từ đầu vào: Đây là nơi văn bản đầu vào được chuyển đổi thành các vectơ số, mỗi
vectơ đại diện cho một từ.
Sự chú ý của nhiều đầu: Đây là nơi mô hình chú ý đến các phần khác nhau của chuỗi đầu
vào, tùy thuộc vào ngữ cảnh. Nó thực hiện điều này bằng cách học nhiều mức độ chú ý khác
nhau, do đó có tên là "nhiều đầu".
Chuyển tiếp nguồn cấp dữ liệu: Đây là nơi mô hình áp dụng phép biến đổi phi tuyến tính
cho đầu ra của lớp chú ý.
Thêm/Norm: Đây là nơi mô hình thêm kết nối còn lại và áp dụng chuẩn hóa lớp.
Xác suất đầu ra và softmax: Đây là nơi mô hình đưa ra xác suất của từ tiếp theo trong
chuỗi bằng cách sử dụng hàm softmax.
Chỉ dành cho bộ giải mã


Phần nhúng đầu vào: Mỗi mã thông báo đầu vào được ánh xạ tới một vectơ trong không gian nhúng:
=
Ở đâu:
•
là vectơ nhúng cho mã thông báo i
•
là ma trận nhúng
Mã hóa vị trí: Để đưa thông tin vị trí vào, chúng tôi thêm thuật ngữ mã hóa vị trí
để nhúng:
'= +
Ở đâu có thể được tính bằng cách sử dụng hàm sin và cosin dựa trên vị trí mã thông báo:
= tội lỗi
0,5
Ở đâu:
•
là thứ nguyên nhúng
•
là ma trận tham số có thể học được
' '
Chú ý nhiều đầu: Nó liên quan đến ba ma trận: Truy vấn: = ; Phím: = . ;
'
Giá trị: = Điểm chú ý giữa truy vấn và mỗi khóa được tính:
Điểm chú ý được sử dụng để tính trọng số cho các vectơ giá trị tương ứng: = .
Tổng có trọng số này biểu thị vectơ ngữ cảnh cho mã thông báo i.
Nhiều đầu chú ý được sử dụng song song, mỗi đầu chú ý tìm hiểu các khía cạnh khác nhau của ngữ cảnh.
Đầu ra của các đầu sau đó được nối và chiếu:
= ℎ 1 , … ,ℎ
= ℎ
Lớp con vị trí và Lớp con chuyển tiếp nguồn cấp dữ liệu: Đầu ra chú ý được xử lý thêm thông qua lớp
con vị trí và lớp con chuyển tiếp nguồn cấp dữ liệu:
= + +
= +
Ở đâu:
• F là mạng truyền thẳng phi tuyến tính
• LayerNorm là hoạt động chuẩn hóa lớp
Đầu ra: Đầu ra bộ giải mã cuối cùng thu được bằng cách chiếu đầu ra của lớp con cuối cùng thông qua
một lớp tuyến tính và áp dụng softmax:

=
Phân phối xác suất này cho từ tiếp theo trong chuỗi có thể được sử dụng cho các tác vụ khác nhau như
tạo văn bản hoặc mô hình hóa ngôn ngữ.

Thiết kế của BloombergGPT

Kích thước mô hình
50 tỷ thông số
Kích thước tập dữ liệu 100 tỷ từ
Kích thước đầu vào/đầu ra 1024
Số lớp 13
Số lần chuyển đổi trên mỗi lớp 1024
Phần cứng Nhiều GPU
Tỷ lệ học siêu tham số quan trọng nhất
Độ chính xác về số 32bit
Kích thước từ vựng: 1M, Code thông báo

Mã thông báo
nhiều từ đến cụm từ và câu.
Tài liệu văn bản về tài chính, kinh

Thành phần dữ liệu
doanh, kinh tế
Mô hình hoạt động như thế nào
1 NHÚNG Văn bản đầu vào được chuyển đổi thành từ nhúng
2 SỰ ĐIỀU KHIỂN
Mô hình xử lý các phần khác nhau của chuỗi đầu vào bằng
cách sử dụng sự chú ý của nhiều đầu.
3 BIẾN ĐỔI
Mô hình áp dụng phép biến đổi phi tuyến tính cho đầu ra của
lớp chú ý, sử dụng lớp chuyển tiếp nguồn cấp dữ liệu.
4 BÌNH THƯỜNG
Mô hình thêm kết nối còn lại và áp dụng chuẩn hóa lớp.
5 ĐẦU RA
Mô hình đưa ra xác suất của từ tiếp theo trong chuỗi
bằng cách sử dụng hàm softmax.
CHƯƠNG 3
ĐÀO TẠO
Thông số mô hình
Lựa chọn tập dữ liệu
Dữ liệu công khai: The Pile (Gao et

al., 2020) – 22 miền đa dạng; C4
(Raffel và cộng sự, 2019) – Thu thập
thông tin chung sạch hơn; Wikipedia
từ tháng 7 năm 2022
Dữ liệu riêng tư: Nội dung web; Dây
tin tức và bảng điểm; Hồ sơ của SEC

Edgar ; Thông cáo báo chí
BloombergGPT 50b (v0 + v1)

Vấn đề V0: Mức độ mất tập luyện giảm dần sau khoảng 10 nghìn bước.
Không cải thiện tình trạng mất nhà phát triển sau bước ~20k
Thay đổi: Xóa chương trình giảng dạy tạm thời (trộn các phần)
Vấn đề V1: Sau ~ 12k bước, định mức độ dốc bắt đầu tăng. Thỉnh
thoảng bị nhảy mất dev
Cố gắng khắc phục v1: •
v1.1 Khởi động lại từ bước 10.8k, xáo trộn hoàn toàn dữ
liệu còn lại, giảm LR (8e-5) • v1.2: LR nhỏ
hơn (6e-5), grad_clip nhỏ hơn (0,3) mà không cần khởi động lại
• v1.3: v1.1 + fp32 ở đầu LM - giảm LR
• v1.4: v1.3 + v1.2 + cuộn lại nhỏ hơn
Tại thời điểm này, chúng tôi tin rằng v1 không thể cứu vãn được
BloombergGPT 50b (v2)

Nhiều thay đổi về siêu tham số giúp ổn định và sửa lỗi:
•
v1.4: fp32 trong đầu LM+max lr=6e-5+grad clip = 0,3+trộn dữ liệu hoàn toàn
•
hạt giống khác nhau (ví dụ: khởi tạo và sắp xếp dữ liệu khác nhau)
• LayerNorm sau khi nhúng

•
Tốc độ học tập dài hơn ấm lên
• Loại bỏ sự phân rã trọng lượng của Lớp Định mức
• Sử dụng khả năng thay đổi kích thước init megatron
•
query_key_layer_scaling
• khởi động kích thước lô hai giai đoạn (1024->2048)
CHƯƠNG 4
SỰ ĐÁNH GIÁ
Hai loại đánh giá

Đánh giá chủ đề chung
• BIG-Bench Hard
• Hiểu ngôn ngữ đa nhiệm lớn (MMLU) • Đọc hiểu
•
Kịch bản ngôn ngữ
Đánh giá lĩnh vực tài chính
• FPB, FiQA, Tiêu đề, ConvFinQA
• Tình cảm, NER, NED+NED

Các loại đánh giá khác nhau

Điều này là tốn kém để chạy!
- Mất Dev trên (1) iid Set, (2) non iid Set
Giám sát đào tạo
- bộ nhỏ có độ che phủ cao
- Công chúng: Ghế lớn, Kiến thức, Đọc hiểu,

Nhiệm vụ ngôn ngữ
- Công khai trong miền: QA, NER, tình cảm;

Đánh giá sau đào tạo
- Riêng tư trong miền: Sentiment, NER, NED
Đây là điều thực sự quan trọng và việc đánh giá sau đào tạo sẽ tương quan với kết
quả tích cực ở đây.

Đánh giá cụ thể Làm việc với quản lý sản phẩm, phát triển UX/UI, Hướng dẫn mọi người cách sử
các ứng dụng dụng mô hình
BIG-Băng ghế cứng
BIG-Băng ghế bao gồm 214

Nhiệm vụ NLP để chuẩn hóa
LLM
BIG-Bench Hard là tập

hợp con gồm 23 nhiệm vụ
đầy thử thách

Hiểu ngôn ngữ đa nhiệm lớn

Kết quả MMLU

Miền tài chính: Bộ dữ liệu công cộng

Miền tài chính: Bộ dữ liệu nội bộ của Bloomberg

Big Data - Bloomberg - VI

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Big Data - Bloomberg - VI

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Đại học Công nghiệp Thành phố Hồ Chí Minh

Chủ đề: Giới thiệu lớp BigData

1 Nguyễn Văn Hậu - Chương 1

2 Cao Phan Khánh Duy - Chương 2

4 Nguyễn Trần Lâm - Chương 4

5 Quách Xuân Nam - Code

Chương 1 chương 2 Chương 3 Chương 4

Giới thiệu Kiến trúc Đào tạo Sự đánh giá

Lịch sử phát triển của hệ thống ML

Lịch sử phát triển của hệ thống ML

Cái nhìn đầu tiên về thiết kế của BloombergGPT

Model này có 70 lớp khối giải mã Transformer .

• Thời gian đào tạo là 139.200 bước (~53 ngày).

Kiến trúc của BLOOM

Các thành phần của mô hình

Chỉ dành cho bộ giải mã

Chỉ dành cho bộ giải mã

Chỉ dành cho bộ giải mã

Chỉ dành cho bộ giải mã

Chỉ dành cho bộ giải mã

con vị trí và lớp con chuyển tiếp nguồn cấp dữ liệu:

• F là mạng truyền thẳng phi tuyến tính

• LayerNorm là hoạt động chuẩn hóa lớp

một lớp tuyến tính và áp dụng softmax:

tạo văn bản hoặc mô hình hóa ngôn ngữ.

Thiết kế của BloombergGPT

Kích thước tập dữ liệu 100 tỷ từ

Kích thước đầu vào/đầu ra 1024

Số lần chuyển đổi trên mỗi lớp 1024

Phần cứng Nhiều GPU

Tỷ lệ học siêu tham số quan trọng nhất

Độ chính xác về số 32bit

Kích thước từ vựng: 1M, Code thông báo

Tài liệu văn bản về tài chính, kinh

Mô hình hoạt động như thế nào

Lựa chọn tập dữ liệu

Dữ liệu công khai: The Pile (Gao et

Dữ liệu riêng tư: Nội dung web; Dây

tin tức và bảng điểm; Hồ sơ của SEC

BloombergGPT 50b (v0 + v1)

thoảng bị nhảy mất dev

Cố gắng khắc phục v1: •

liệu còn lại, giảm LR (8e-5) • v1.2: LR nhỏ

• v1.3: v1.1 + fp32 ở đầu LM - giảm LR

• v1.4: v1.3 + v1.2 + cuộn lại nhỏ hơn

BloombergGPT 50b (v2)

• LayerNorm sau khi nhúng

• Loại bỏ sự phân rã trọng lượng của Lớp Định mức

• Sử dụng khả năng thay đổi kích thước init megatron

Hai loại đánh giá

• Hiểu ngôn ngữ đa nhiệm lớn (MMLU) • Đọc hiểu

Đánh giá lĩnh vực tài chính

• FPB, FiQA, Tiêu đề, ConvFinQA

• Tình cảm, NER, NED+NED

Các loại đánh giá khác nhau

- Công chúng: Ghế lớn, Kiến thức, Đọc hiểu,

- Công khai trong miền: QA, NER, tình cảm;

quả tích cực ở đây.

BIG-Băng ghế cứng

BIG-Băng ghế bao gồm 214

BIG-Bench Hard là tập

đầy thử thách