Professional Documents
Culture Documents
金融 メディア 小売・流通
ハイテク
モデルライフサイクルを支えるWeights & Biases
データ収集
データ サーバー
エンジニア エンジニア
探索的解析 モデル・サービス
推論API実装 システム実装 MLOps
監視
データサイ システム エンジニア
データ準備 エンティスト エンジニア
異常・ドリフト
リスク評価 結合テスト
検知
モデリング・ 監査担当
チューニング MLエンジニア 監査担当
モデルリリース サービスイン ビジネス評価
結果の共有と プロダクト
評価 マネージャー
プロダクト プロダクト
マネージャー マネージャー
バージョン管理と継続開発
AIの開発でありがちな課題
● 実験結果を手元のスプレッドシートで管理しているが、手に負えなくなってきた
● すごいモデルができた!けれど誰も結果を再現することができない
● モデルがなぜおかしな結果を出しているのか自分だけでは解決できない
● 自分の見つけたインサイトをチームメンバーに効果的に伝えたい
● ハイパーパラメータをいじったことはあるけれどチューニングまでは・・・
● 構築した開発ワークフローを継続開発の観点から自動化したい
8
Weights & Biasesの実行環境
wandb.init()
…
wandb.log({“my_metric”: 0.5”})
…
wandb.log_artifact(my_model)
…
wandb.finish()
Announcements
https://fullyconnected.jp
https://fullyconnected.jp
今週から公開!
W&B Japan
コミュニティー
wandb.me/jp-slack
Wandbotα日本語版
も使える
Wandb Report Challenge🏆!!
応募方法
1 記事をFully ConnectedのReportで作成
#report-shareに作成したReportをshare!
2 @hereとmentionをつけてください
● 素晴らしいreportを書かれた方を、年に1度(今年
は年末を予定)
Fully Connected Report Championとして
表彰し、豪華なスワッグをプレゼントします
※ 投稿量だけではなく、中身も重視します
LLMOps
LLMアプリケーション
Liu et al. TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR EVALUATING LARGE LANGUAGE MODELS’ ALIGNMENT
LLMアプリケーション +α
● タンパク質の構造推定
● 結合推定
● 局在の予測
…
https://github.com/facebookresearch/esm
Pictur: https://twitter.com/alexrives/status/1561693284912828420?s=20
LLMアプリケーション開発フロー
1 基盤モデルの構築
どこから開始するのかを決
定する 3 LLMチェインの構築・プロンプトエンジニアリング
LLMチェインの設計 データ準備 アプリケーション構築
・学習済みLLMモデルの構築と購入の比較
2
・スケーリング法則
0
・ハードウェア
・データセットの収集
・データセットの前処理
・事前学習のステップ
・モデル評価
・バイアスと有害性
・インストラクションチューニング
・人間のフィードバックによる強化学習
モデルの抽象度と評価方法
1 基盤モデルの構築
データ準備 アーキテクチャ構築 モデリング
基盤モデル ● Val_Loss
● データ収集 ● モデルのアーキテクチャ ● 並列化処理
● データクレンジング 開発 ● ハイパーパラメータ探索
● トークン化 ● 少数パラメーターでの実
験
● 評価タスク
2 特定タスクへのファインチューニング
● 資格試験・入試
データ準備 基盤モデルの選択 ファインチューニング
3 独自データからの知識統合
● HellaSwag ● CommonsenseQA
● AI2 Reasoning Challenge ● XCOPA
● WinoGrande ● BIG-Bench Hard
推論 ● GSM-8K ● MATH
● StrategyQA ● MGSM
●
● HumanEval
コーディング ● MBPP
● ARCADE
● WMT 2021
翻訳 ● FRMT
● XLSum ● Multilingual Representational Bias
● WikiLingua ● BBQ Bias Benchmark for QA
自然言語生成 ● XSum ● RealToxicityPrompts
● ParlAI Dialogue Safety
開発が
複雑! 新しいバージョンの モニタリング
データ管理 評価に時間
リリースに ダッシュボードが
が複雑! がかかる!
モデル管理 時間がかかる! 欲しい!
が複雑!
過去の記録やコードの管理が煩雑!
修正をするポイントが多すぎる!
過去のプロジェクトを再現できない
大規模モデルの開発
Fine-tuning
W&B Launchを用いた自動評価
評価データ リーダーボード
評価 / 実験管理
/ モデル管理 (評価結果)
Experiments Reports
Artifacts
計算資源
Nejumi Leaderboard
Launch
GPUで自動実行プロ
セスを構築
LLM Chainの構築
プロンプトエンジニアリング
Question Embedding Docs
model
Similarity
Prompt search
template
K
neighbors
PROMPT Document Store
/ Vector DB
Sampling
Answer LLM
WandBot..
29
今週から公開!
W&B Japan
コミュニティー
wandb.me/jp-slack
Wandbotα日本語版も使える!
私が気になるのは、評価です。私がReplitのCEOであるAmjadと話をしていた
Weights & Biases CEO ときに、彼らがProductionに入れた言語モデルは、Vibes(直感的な感覚)によ
Lukas Biewald るテストしか行っていないということを聞きました。つまり、それが前のバージョ
ンよりも良くなったか悪くなったかを見るだけだということです。実際、そうした
やり方をあちこちで見かけますが、改善の方法はあると思っています。あなた
はそれについてどのように考えていますか?また、その問題を解決するため
にどのようしたいと考えていますか?
"The Vibes"(直感的な感覚)はちょっと馬鹿げて聞こえるかもしれませんが、
全く馬鹿げたことではないということです。多くの人々から、アウトプットを実際 LangChain CEO
にみることで、何が良くて何が悪いのか、何がうまくいかない可能性があるの Harrison Chase
か、という直感を得ていると聞いています。
そのために、何が内部で行われているのかを可視化するのは非常に有益で、
Weights and Biasesは最近この領域でたくさんのことをやっていますね、本
当にそれは役に立つと思います
Production Monitoring
Monitoring
Q&A