LLMOpsのためのCI CD環境構築ウェビナー

1
Akira Shibata Keisuke Kamata
Country Manager Machine Learning Engineer

Weights & Biases Weights & Biases
About company
W&Bは2017年にSFで創業 $200m in Funding | $200Mを超える資金調達
Chris Van Pelt, CISO

Angels & Advisors | アドバイザー
Co-Founder & CISO
Figure Eight, Powerset Richard Socher — Chief Scientist, Salesforce
Greg Brockman — CTO, OpenAI
Nat Friedman — CEO, GitHub
Tom Preston-Werner — Founder, GitHub
Anthony Goldbloom — Founder and CEO, Kaggle
Lukas Biewald, CEO
Vladlen Koltun — Chief Scientist, Intel
Co-Founder & CEO
Figure Eight, Powerset, OpenAI
Team Background | チームの出身会社

Figure Eight (acquired by Appen)
● OpenAI ● Meta ● Stanford
Shawn Lewis, CTO ● Google ● Github ● Harvard
● Waymo ● Domino ● Berkeley
Co-Founder & CTO
Beep, Google ● Microsoft ● JP Morgan ● Twitter
● DataRobot ● Alteryx ● Databricks
世界をリードするMLチームが私たちのお客様です
OpenAIは深層学習と自然言語処理を TRIではコンピュータビジョンを使って Genentechは深層学習を使って感染

使って、超高性能なチャットボットを開完全自動運転車の開発を進めてい病に有効な新しい抗生物質を
発していますます探しています
「W&Bは、一人の研究者のインサイトを
「W&Bは早いペースで最先端の開発「W&Bのおかげで、私たちは意味の
チームに波及させ、一台のマシンに閉
を大規模に行うチームにはなくてはある科学研究により多くの時間を費
じ込めず、何千台にスケールさせること
ができます。」ならないインフラです。」やすことができます。」
WOJCIECH ZAREMBA Adrien Gaidon Stephen Ra
Co-founder of OpenAI Toyota Research Institute Machine Learning Lead
あらゆるインダストリーのMLOps Best practice toolに
Confidential
最先端のAI開発企業 - 大規模言語モデル（LLM）・生成系AI
製造・自動運転ヘルスケア・ライフサイエンス HPC ゲーム
金融メディア小売・流通
ハイテク
モデルライフサイクルを支えるWeights & Biases
Experiments Artifacts Tables
Launch Models Automation Weave Monitoring
Sweeps Reports Prompt
モデル開発評価・デプロイメントモニタリング
データ収集
データサーバー
エンジニアエンジニア
探索的解析モデル・サービス
推論API実装システム実装 MLOps
監視
データサイシステムエンジニア
データ準備エンティストエンジニア
異常・ドリフト
リスク評価結合テスト
検知
モデリング・監査担当
チューニング MLエンジニア監査担当
モデルリリースサービスインビジネス評価
結果の共有とプロダクト
評価マネージャー
プロダクトプロダクト
マネージャーマネージャー
バージョン管理と継続開発
AIの開発でありがちな課題
● 実験結果を手元のスプレッドシートで管理しているが、手に負えなくなってきた
● すごいモデルができた！けれど誰も結果を再現することができない
● モデルがなぜおかしな結果を出しているのか自分だけでは解決できない
● 自分の見つけたインサイトをチームメンバーに効果的に伝えたい
● ハイパーパラメータをいじったことはあるけれどチューニングまでは・・・
● 構築した開発ワークフローを継続開発の観点から自動化したい
8
Weights & Biasesの実行環境
Training script / notebook W&B Dashboard
wandb.init()
…
wandb.log({“my_metric”: 0.5”})
…
wandb.log_artifact(my_model)
…
wandb.finish()
Announcements
https://fullyconnected.jp
https://fullyconnected.jp
今週から公開！
W&B Japan
コミュニティー
wandb.me/jp-slack
Wandbotα日本語版
も使える
Wandb Report Challenge🏆!!
応募方法
1 記事をFully ConnectedのReportで作成
#report-shareに作成したReportをshare!
2 @hereとmentionをつけてください
● 素晴らしいreportはwandb fully connectedのオ

フィシャルページにも投稿！
● 素晴らしいreportを書かれた方を、年に1度（今年
は年末を予定）
Fully Connected Report Championとして
表彰し、豪華なスワッグをプレゼントします
※ 投稿量だけではなく、中身も重視します
LLMOps
LLMアプリケーション
Liu et al. TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR EVALUATING LARGE LANGUAGE MODELS’ ALIGNMENT
LLMアプリケーション +α
● タンパク質の構造推定
● 結合推定
● 局在の予測
…
https://github.com/facebookresearch/esm
Pictur: https://twitter.com/alexrives/status/1561693284912828420?s=20
LLMアプリケーション開発フロー
1 基盤モデルの構築
データ準備アーキテクチャ構築モデリング
● データ収集 ● モデルのアーキテクチャ ● 並列化処理

● データクレンジング開発 ● ハイパーパラメータ探索
● トークン化 ● 少数パラメーターでの実
験
開発の方針決定プロダクション
● コスト
● 開発時間デプロイ・とインテグモニタリングと
● 計算リソース 2 特定タスクへのファインチューニングレーション継続的な開発
● 開発基盤
● 人的リソース・専門性データ準備基盤モデルの選択ファインチューニング
● 推論APIの実装 ● モデル・サービス監視
● ライセンス ● リスク評価 ● フィードバック収集
● データ収集 ● 対象タスクで性能評価 ● 並列化処理
● リスク ● モデルリリース ● データ解析・異常検知
● データクレンジング ● モデルのサイズ決定 ● ハイパーパラメータ探索
● 精度 ● システム・アプリケーショ ● ビジネス評価
● トークン化 ● ライセンス・コスト確認 ● インストラクショチューニン
● 再現可能性、などンの実装 ● 継続的なモデルの更新
グ
● 結合テスト
● 報酬関数構築と強化学習
1 2 3 ● サービスイン
どこから開始するのかを決
定する 3 LLMチェインの構築・プロンプトエンジニアリング
LLMチェインの設計データ準備アプリケーション構築
● LLMチェインの設計 ● 独自データの集約 ● LLMチェインの構築

● モデルの選択 ● データクレンジング ● プロンプトエンジニアリン
● 評価系の構築 ● ベクトル DBの作成グ
● 品質・脆弱性評価
概要と目次：
・学習済みLLMモデルの構築と購入の比較
2
・スケーリング法則
0
・ハードウェア
・データセットの収集
・データセットの前処理
・事前学習のステップ
・モデル評価
・バイアスと有害性
・インストラクションチューニング
・人間のフィードバックによる強化学習
モデルの抽象度と評価方法
1 基盤モデルの構築
データ準備アーキテクチャ構築モデリング
基盤モデル ● Val_Loss
● データ収集 ● モデルのアーキテクチャ ● 並列化処理
● データクレンジング開発 ● ハイパーパラメータ探索
● トークン化 ● 少数パラメーターでの実
験
● 評価タスク
2 特定タスクへのファインチューニング
● 資格試験・入試
データ準備基盤モデルの選択ファインチューニング
● データ収集 ● 対象タスクで性能評価 ● 並列化処理汎用的タスク

● データクレンジング ● モデルのサイズ決定 ● ハイパーパラメータ探索
● トークン化 ● ライセンス・コスト確認 ● インストラクショチューニン
グ
● 報酬関数構築と強化学習 ● Model Base
3 独自データからの知識統合
LLMチェインの設計データ準備アプリケーション構築

ダウンストリーム
● LLMチェインの設計 ● 独自データの集約 ● LLMチェインの構築
● モデルの選択 ● データクレンジング ● プロンプトエンジニアリンタスク ● Human
● 評価系の構築 ● ベクトル DBの作成グ
● 品質・脆弱性評価
PaLM 2 Technical Reportの評価データセット例
分類
評価データセット
（PaLM 2 TR*より）
● Chinese: HSK ● Common European Framework of Reference for Languages
言語能力テスト ● Japanese: J-Test ● …
● MMLU ● Winograd
● DROP ● SQuAD v2
● TriviaQA ● RACE
● Natural Questions ● PIQA
分類 & QA ● Web Quesitons ● OpenBookQA
● LAMBADA ● SuperGLUE
● StoryCloze ● ANLI
● TyDi QA
● HellaSwag ● CommonsenseQA
● AI2 Reasoning Challenge ● XCOPA
● WinoGrande ● BIG-Bench Hard
推論 ● GSM-8K ● MATH
● StrategyQA ● MGSM
●
● HumanEval
コーディング ● MBPP
● ARCADE
● WMT 2021
翻訳 ● FRMT
● XLSum ● Multilingual Representational Bias
● WikiLingua ● BBQ Bias Benchmark for QA
自然言語生成 ● XSum ● RealToxicityPrompts
● ParlAI Dialogue Safety
* PaLM 2 Technical Report, Google, 2023

開発に向けて必要なプラットフォーム
● 試行錯誤が伴う領域である
が故に、チームとしてのア
データ収集
基盤モデルの構
・クレンジンモデル構築セット管理が重要
築
グ ● 検討・実施するべき項目が
多く、毎回手動で実行してい
ると時間がかかるため、自
特定タスクへのデータ収集
デプロイ監視動化できるところは自動化し
ファインチューニ・クレンジンモデル構築評価プロダクション
ンググ
テスト・評価データ収集て開発プロセスを短縮化す
ることが求められる
LLMチェインのデータ収集 LLM

構築・プロンプト・クレンジンチェイン評価
エンジニアリンググ構築
開発が
複雑！新しいバージョンのモニタリング
データ管理評価に時間
リリースにダッシュボードが
が複雑！がかかる！
モデル管理時間がかかる！欲しい！
が複雑！
過去の記録やコードの管理が煩雑！
修正をするポイントが多すぎる！
過去のプロジェクトを再現できない
大規模モデルの開発
Fine-tuning
W&B Launchを用いた自動評価
評価データリーダーボード
評価 / 実験管理
/ モデル管理（評価結果）
データ管理実験管理 Report上でリーダー

● Hugging Face ジョブを作成ボード運営
● artifacts on W&B server
Experiments Reports
Artifacts
計算資源
Nejumi Leaderboard
Launch
GPUで自動実行プロ
セスを構築
LLM Chainの構築
プロンプトエンジニアリング
Question Embedding Docs
model
Similarity
Prompt search
template
K
neighbors
PROMPT Document Store
/ Vector DB
Sampling
Answer LLM
WandBot..
29
今週から公開！
W&B Japan
コミュニティー
wandb.me/jp-slack
Wandbotα日本語版も使える!
私が気になるのは、評価です。私がReplitのCEOであるAmjadと話をしていた
Weights & Biases CEO ときに、彼らがProductionに入れた言語モデルは、Vibes（直感的な感覚）によ
Lukas Biewald るテストしか行っていないということを聞きました。つまり、それが前のバージョ
ンよりも良くなったか悪くなったかを見るだけだということです。実際、そうした
やり方をあちこちで見かけますが、改善の方法はあると思っています。あなた
はそれについてどのように考えていますか？また、その問題を解決するため
にどのようしたいと考えていますか？
"The Vibes"（直感的な感覚）はちょっと馬鹿げて聞こえるかもしれませんが、
全く馬鹿げたことではないということです。多くの人々から、アウトプットを実際 LangChain CEO
にみることで、何が良くて何が悪いのか、何がうまくいかない可能性があるの Harrison Chase
か、という直感を得ていると聞いています。
そのために、何が内部で行われているのかを可視化するのは非常に有益で、
Weights and Biasesは最近この領域でたくさんのことをやっていますね、本
当にそれは役に立つと思います
Production Monitoring
Monitoring
Q&A

LLMOpsのためのCI CD環境構築ウェビナー

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

LLMOpsのためのCI CD環境構築ウェビナー

Uploaded by

Copyright:

Available Formats

1

Akira Shibata Keisuke Kamata

Country Manager Machine Learning Engineer

Chris Van Pelt, CISO

Team Background | チームの出身会社

OpenAIは深層学習と自然言語処理を TRIではコンピュータビジョンを使って Genentechは深層学習を使って感染

製造・自動運転ヘルスケア・ライフサイエンス HPC ゲーム

Experiments Artifacts Tables

Launch Models Automation Weave Monitoring

Sweeps Reports Prompt

モデル開発評価・デプロイメントモニタリング

Training script / notebook W&B Dashboard

● 素晴らしいreportはwandb fully connectedのオ

データ準備アーキテクチャ構築モデリング

● データ収集 ● モデルのアーキテクチャ ● 並列化処理

● LLMチェインの設計 ● 独自データの集約 ● LLMチェインの構築

● データ収集 ● 対象タスクで性能評価 ● 並列化処理汎用的タスク

LLMチェインの設計データ準備アプリケーション構築

* PaLM 2 Technical Report, Google, 2023

LLMチェインのデータ収集 LLM

データ管理実験管理 Report上でリーダー

You might also like

LLMOpsのためのCI CD環境構築ウェビナー

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

LLMOpsのためのCI CD環境構築ウェビナー

Uploaded by

Copyright:

Available Formats

1

Akira Shibata Keisuke Kamata

Country Manager Machine Learning Engineer

Chris Van Pelt, CISO

Team Background | チームの出身会社

OpenAIは深層学習と自然言語処理を TRIではコンピュータビジョンを使って Genentechは深層学習を使って感染

製造・自動運転 ヘルスケア・ライフサイエンス HPC ゲーム

Experiments Artifacts Tables

Launch Models Automation Weave Monitoring

Sweeps Reports Prompt

モデル開発 評価・デプロイメント モニタリング

Training script / notebook W&B Dashboard

● 素晴らしいreportはwandb fully connectedのオ

データ準備 アーキテクチャ構築 モデリング

● データ収集 ● モデルのアーキテクチャ ● 並列化処理

● LLMチェインの設計 ● 独自データの集約 ● LLMチェインの構築

● データ収集 ● 対象タスクで性能評価 ● 並列化処理 汎用的タスク

LLMチェインの設計 データ準備 アプリケーション構築

* PaLM 2 Technical Report, Google, 2023

LLMチェインの データ収集 LLM

データ管理 実験管理 Report上でリーダー

You might also like

製造・自動運転ヘルスケア・ライフサイエンス HPC ゲーム

モデル開発評価・デプロイメントモニタリング

データ準備アーキテクチャ構築モデリング

● データ収集 ● 対象タスクで性能評価 ● 並列化処理汎用的タスク

LLMチェインの設計データ準備アプリケーション構築

LLMチェインのデータ収集 LLM

データ管理実験管理 Report上でリーダー