You are on page 1of 34

1

Akira Shibata Keisuke Kamata

Country Manager Machine Learning Engineer


Weights & Biases Weights & Biases
About company
W&Bは2017年にSFで創業 $200m in Funding | $200Mを超える資金調達

Chris Van Pelt, CISO


Angels & Advisors | アドバイザー
Co-Founder & CISO
Figure Eight, Powerset Richard Socher — Chief Scientist, Salesforce
Greg Brockman — CTO, OpenAI
Nat Friedman — CEO, GitHub
Tom Preston-Werner — Founder, GitHub
Anthony Goldbloom — Founder and CEO, Kaggle
Lukas Biewald, CEO
Vladlen Koltun — Chief Scientist, Intel
Co-Founder & CEO
Figure Eight, Powerset, OpenAI

Team Background | チームの出身会社


Figure Eight (acquired by Appen)
● OpenAI ● Meta ● Stanford
Shawn Lewis, CTO ● Google ● Github ● Harvard
● Waymo ● Domino ● Berkeley
Co-Founder & CTO
Beep, Google ● Microsoft ● JP Morgan ● Twitter
● DataRobot ● Alteryx ● Databricks
世界をリードするMLチームが私たちのお客様です

OpenAIは深層学習と自然言語処理を TRIではコンピュータビジョンを使って Genentechは深層学習を使って感染


使って、超高性能なチャットボットを開 完全自動運転車の開発を進めてい 病に有効な新しい抗生物質を
発しています ます 探しています
「W&Bは、一人の研究者のインサイトを
「W&Bは早いペースで最先端の開発 「W&Bのおかげで、私たちは意味の
チームに波及させ、一台のマシンに閉
を大規模に行うチームにはなくては ある科学研究により多くの時間を費
じ込めず、何千台にスケールさせること
ができます。」 ならないインフラです。」 やすことができます。」
WOJCIECH ZAREMBA Adrien Gaidon Stephen Ra
Co-founder of OpenAI Toyota Research Institute Machine Learning Lead
あらゆるインダストリーのMLOps Best practice toolに
Confidential
最先端のAI開発企業 - 大規模言語モデル(LLM)・生成系AI

製造・自動運転 ヘルスケア・ライフサイエンス HPC ゲーム

金融 メディア 小売・流通

ハイテク
モデルライフサイクルを支えるWeights & Biases

Experiments Artifacts Tables

Launch Models Automation Weave Monitoring

Sweeps Reports Prompt

モデル開発 評価・デプロイメント モニタリング

データ収集
データ サーバー
エンジニア エンジニア
探索的解析 モデル・サービス
推論API実装 システム実装 MLOps
監視
データサイ システム エンジニア
データ準備 エンティスト エンジニア
異常・ドリフト
リスク評価 結合テスト
検知
モデリング・ 監査担当
チューニング MLエンジニア 監査担当
モデルリリース サービスイン ビジネス評価
結果の共有と プロダクト
評価 マネージャー
プロダクト プロダクト
マネージャー マネージャー

バージョン管理と継続開発
AIの開発でありがちな課題

● 実験結果を手元のスプレッドシートで管理しているが、手に負えなくなってきた

● すごいモデルができた!けれど誰も結果を再現することができない
● モデルがなぜおかしな結果を出しているのか自分だけでは解決できない

● 自分の見つけたインサイトをチームメンバーに効果的に伝えたい

● ハイパーパラメータをいじったことはあるけれどチューニングまでは・・・

● 構築した開発ワークフローを継続開発の観点から自動化したい

8
Weights & Biasesの実行環境

Training script / notebook W&B Dashboard

wandb.init()

wandb.log({“my_metric”: 0.5”})

wandb.log_artifact(my_model)

wandb.finish()
Announcements
https://fullyconnected.jp
https://fullyconnected.jp
今週から公開!

W&B Japan
コミュニティー

wandb.me/jp-slack
Wandbotα日本語版
も使える
Wandb Report Challenge🏆!!
応募方法

1 記事をFully ConnectedのReportで作成

#report-shareに作成したReportをshare!
2 @hereとmentionをつけてください

● 素晴らしいreportはwandb fully connectedのオ


フィシャルページにも投稿!

● 素晴らしいreportを書かれた方を、年に1度(今年
は年末を予定)
Fully Connected Report Championとして
表彰し、豪華なスワッグをプレゼントします
※ 投稿量だけではなく、中身も重視します
LLMOps
LLMアプリケーション

Liu et al. TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR EVALUATING LARGE LANGUAGE MODELS’ ALIGNMENT
LLMアプリケーション +α
● タンパク質の構造推定
● 結合推定
● 局在の予測

https://github.com/facebookresearch/esm
Pictur: https://twitter.com/alexrives/status/1561693284912828420?s=20
LLMアプリケーション開発フロー
1 基盤モデルの構築

データ準備 アーキテクチャ構築 モデリング

● データ収集 ● モデルのアーキテクチャ ● 並列化処理


● データクレンジング 開発 ● ハイパーパラメータ探索
● トークン化 ● 少数パラメーターでの実

開発の方針決定 プロダクション
● コスト
● 開発時間 デプロイ・とインテグ モニタリングと
● 計算リソース 2 特定タスクへのファインチューニング レーション 継続的な開発
● 開発基盤
● 人的リソース・専門性 データ準備 基盤モデルの選択 ファインチューニング
● 推論APIの実装 ● モデル・サービス監視
● ライセンス ● リスク評価 ● フィードバック収集
● データ収集 ● 対象タスクで性能評価 ● 並列化処理
● リスク ● モデルリリース ● データ解析・異常検知
● データクレンジング ● モデルのサイズ決定 ● ハイパーパラメータ探索
● 精度 ● システム・アプリケーショ ● ビジネス評価
● トークン化 ● ライセンス・コスト確認 ● インストラクショチューニン
● 再現可能性、など ンの実装 ● 継続的なモデルの更新

● 結合テスト
● 報酬関数構築と強化学習
1 2 3 ● サービスイン

どこから開始するのかを決
定する 3 LLMチェインの構築・プロンプトエンジニアリング
LLMチェインの設計 データ準備 アプリケーション構築

● LLMチェインの設計 ● 独自データの集約 ● LLMチェインの構築


● モデルの選択 ● データクレンジング ● プロンプトエンジニアリン
● 評価系の構築 ● ベクトル DBの作成 グ
● 品質・脆弱性評価
概要と目次:

・学習済みLLMモデルの構築と購入の比較
2
・スケーリング法則
0
・ハードウェア
・データセットの収集
・データセットの前処理
・事前学習のステップ
・モデル評価
・バイアスと有害性
・インストラクションチューニング
・人間のフィードバックによる強化学習
モデルの抽象度と評価方法
1 基盤モデルの構築
データ準備 アーキテクチャ構築 モデリング
基盤モデル ● Val_Loss
● データ収集 ● モデルのアーキテクチャ ● 並列化処理
● データクレンジング 開発 ● ハイパーパラメータ探索
● トークン化 ● 少数パラメーターでの実

● 評価タスク
2 特定タスクへのファインチューニング
● 資格試験・入試
データ準備 基盤モデルの選択 ファインチューニング

● データ収集 ● 対象タスクで性能評価 ● 並列化処理 汎用的タスク


● データクレンジング ● モデルのサイズ決定 ● ハイパーパラメータ探索
● トークン化 ● ライセンス・コスト確認 ● インストラクショチューニン

● 報酬関数構築と強化学習 ● Model Base

3 独自データからの知識統合

LLMチェインの設計 データ準備 アプリケーション構築


ダウンストリーム
● LLMチェインの設計 ● 独自データの集約 ● LLMチェインの構築
● モデルの選択 ● データクレンジング ● プロンプトエンジニアリン タスク ● Human
● 評価系の構築 ● ベクトル DBの作成 グ
● 品質・脆弱性評価
PaLM 2 Technical Reportの評価データセット例
分類
評価データセット
(PaLM 2 TR*より)
● Chinese: HSK ● Common European Framework of Reference for Languages
言語能力テスト ● Japanese: J-Test ● …
● MMLU ● Winograd
● DROP ● SQuAD v2
● TriviaQA ● RACE
● Natural Questions ● PIQA
分類 & QA ● Web Quesitons ● OpenBookQA
● LAMBADA ● SuperGLUE
● StoryCloze ● ANLI
● TyDi QA

● HellaSwag ● CommonsenseQA
● AI2 Reasoning Challenge ● XCOPA
● WinoGrande ● BIG-Bench Hard
推論 ● GSM-8K ● MATH
● StrategyQA ● MGSM

● HumanEval
コーディング ● MBPP
● ARCADE
● WMT 2021
翻訳 ● FRMT
● XLSum ● Multilingual Representational Bias
● WikiLingua ● BBQ Bias Benchmark for QA
自然言語生成 ● XSum ● RealToxicityPrompts
● ParlAI Dialogue Safety

* PaLM 2 Technical Report, Google, 2023


開発に向けて必要なプラットフォーム
● 試行錯誤が伴う領域である
が故に、チームとしてのア
データ収集
基盤モデルの構
・クレンジン モデル構築 セット管理が重要

グ ● 検討・実施するべき項目が
多く、毎回手動で実行してい
ると時間がかかるため、自
特定タスクへの データ収集
デプロイ 監視 動化できるところは自動化し
ファインチューニ ・クレンジン モデル構築 評価 プロダクション
ング グ
テスト・評価 データ収集 て開発プロセスを短縮化す
ることが求められる

LLMチェインの データ収集 LLM


構築・プロンプト ・クレンジン チェイン 評価
エンジニアリング グ 構築

開発が
複雑! 新しいバージョンの モニタリング
データ管理 評価に時間
リリースに ダッシュボードが
が複雑! がかかる!
モデル管理 時間がかかる! 欲しい!
が複雑!

過去の記録やコードの管理が煩雑!
修正をするポイントが多すぎる!
過去のプロジェクトを再現できない
大規模モデルの開発
Fine-tuning
W&B Launchを用いた自動評価
評価データ リーダーボード
評価 / 実験管理
/ モデル管理 (評価結果)

データ管理 実験管理 Report上でリーダー


● Hugging Face ジョブを作成 ボード運営
● artifacts on W&B server

Experiments Reports
Artifacts

計算資源

Nejumi Leaderboard

Launch

GPUで自動実行プロ
セスを構築
LLM Chainの構築
プロンプトエンジニアリング
Question Embedding Docs
model

Similarity
Prompt search
template

K
neighbors
PROMPT Document Store
/ Vector DB

Sampling

Answer LLM
WandBot..

29
今週から公開!
W&B Japan
コミュニティー

wandb.me/jp-slack
Wandbotα日本語版も使える!
私が気になるのは、評価です。私がReplitのCEOであるAmjadと話をしていた
Weights & Biases CEO ときに、彼らがProductionに入れた言語モデルは、Vibes(直感的な感覚)によ
Lukas Biewald るテストしか行っていないということを聞きました。つまり、それが前のバージョ
ンよりも良くなったか悪くなったかを見るだけだということです。実際、そうした
やり方をあちこちで見かけますが、改善の方法はあると思っています。あなた
はそれについてどのように考えていますか?また、その問題を解決するため
にどのようしたいと考えていますか?

"The Vibes"(直感的な感覚)はちょっと馬鹿げて聞こえるかもしれませんが、
全く馬鹿げたことではないということです。多くの人々から、アウトプットを実際 LangChain CEO
にみることで、何が良くて何が悪いのか、何がうまくいかない可能性があるの Harrison Chase
か、という直感を得ていると聞いています。
そのために、何が内部で行われているのかを可視化するのは非常に有益で、
Weights and Biasesは最近この領域でたくさんのことをやっていますね、本
当にそれは役に立つと思います
Production Monitoring
Monitoring
Q&A

You might also like