どのような要素が対話エージェントを有用にするのか?

'対話エージェントの有用な要素は何ですか?'

ChatGPTの技術:RLHF、IFT、CoT、レッドチーミング、およびその他

この記事は、中国語の簡体字で翻訳されています。

数週間前、ChatGPTが登場し、一連の不明瞭な頭字語(RLHF、SFT、IFT、CoTなど)が公衆の議論を巻き起こしました。これらの不明瞭な頭字語は何であり、なぜそれらが重要なのでしょうか?私たちはこれらのトピックに関する重要な論文を調査し、これらの作品を分類し、達成された成果からの要点をまとめ、まだ示されていないことを共有します。

まず、言語モデルに基づく会話エージェントの現状を見てみましょう。ChatGPTは最初ではありません。実際、OpenAIよりも前に、MetaのBlenderBot、GoogleのLaMDA、DeepMindのSparrow、およびAnthropicのAssistant(このエージェントの完璧な帰属なしでの継続的な開発はClaudeとも呼ばれています)など、多くの組織が言語モデルの対話エージェントを公開しています。一部のグループは、オープンソースのチャットボットを構築する計画を発表し、ロードマップを公開しています(LAIONのOpen Assistant)。他のグループも確実に同様の作業を進めており、まだ発表していないでしょう。

以下の表は、これらのAIチャットボットを公開アクセス、トレーニングデータ、モデルアーキテクチャ、および評価方向の詳細に基づいて比較しています。ChatGPTには文書化された情報がないため、代わりにChatGPTの基礎となったと信じられているOpenAIの指示fine-tunedモデルであるInstructGPTの詳細を共有します。

トレーニングデータ、モデル、およびファインチューニングには多くの違いがあることが観察されますが、共通点もあります。これらのチャットボットの共通の目標は、ユーザーの指示に従うことです。たとえば、ChatGPTに詩を書くように指示することなどです。

予測テキストから指示の従属へ

通常、ベースモデルの言語モデリング目標だけでは、モデルがユーザーの指示に対して有益な方法で従うことを学ぶには十分ではありません。モデル開発者は、指示の細かいチューニング(IFT)を使用して、ベースモデルを、感情、テキスト分類、要約などの古典的なNLPタスクのデモンストレーションによって微調整し、非常に多様なタスクセットにおける指示の書かれた方針を学びます。これらの指示のデモンストレーションは、指示、入力、および出力の3つの主要なコンポーネントで構成されています。入力はオプションです。一部のタスクでは、ChatGPTの例のように指示のみが必要です。入力と出力が存在する場合、インスタンスが形成されます。特定の指示に対して複数の入力と出力が存在する場合もあります。以下に[Wang et al.、’22]からの例を示します。

IFTのデータは通常、人間によって書かれた指示と言語モデルを用いた指示のインスタンスのコレクションからなります。ブートストラップのために、LMは(上記の図のように)いくつかの例を使用してフューショット設定でプロンプトされ、新しい指示、入力、および出力を生成するように指示されます。各ラウンドで、モデルは人間によって選択されたサンプルとモデルによって生成されたサンプルの両方からプロンプトを受け取ります。データセットの作成における人間とモデルの貢献の割合はスペクトラムです。以下の図を参照してください。

一方は完全にモデル生成されたIFTデータセットであり、例えばUnnatural Instructions(Honovich et al.、’22)です。もう一方は手作りの指示の大規模な共同作業であり、Super-natural instructions(Wang et al.、’22)などです。これらの間には、Self-instruct(Wang et al.、’22)のような、高品質のシードデータセットを使用してブートストラップする方法もあります。IFTのデータセットを収集するもう1つの方法は、さまざまなタスク(プロンプトを含む)の既存の高品質なクラウドソーシングNLPデータセットを統一スキーマや多様なテンプレートを使用して指示としてキャストすることです。この研究の一環には、T0(Sanh et al.、’22)、自然言語指示データセット(Mishra et al.、’22)、FLAN LM(Wei et al.、’22)、およびOPT-IML(Iyer et al.、’22)が含まれます。

安全に指示に従う

ただし、指示の細かいチューニングされたLMは、常に********有益な********応答を生成するわけではありません。この種の行動の例には、「申し訳ありませんが、理解できません」というような常に無益な応答を返すものや、機微なトピックに対するユーザーの入力に対して安全でない応答を生成するものがあります。このような行動を緩和するために、モデル開発者は監督付きのファインチューニング(SFT)を使用し、ベース言語モデルを有益性と無害性の高品質な人間による注釈データで微調整します。例えば、Sparrow論文(付録F)からの表を参照してください。

SFTとIFTは非常に密接に関連しています。命令チューニングは、教師付きファインチューニングのサブセットと見なすことができます。最近の文献では、SFTフェーズは通常、IFTの後に行われる教示特有のトピックではなく、安全性のトピックに利用されてきました。将来的には、このタクソノミーと区別は、より明確なユースケースと方法論に成熟していくべきです。

GoogleのLaMDAも、ルール(付録A)に基づいた安全性の注釈を持つ対話データセットでファインチューニングされています。これらのルールは通常、モデル作成者によって事前に定義され、有害性、差別、誤情報などの幅広いトピックを含んでいます。

モデルのファインチューニング

一方、Open AIのInstructGPT、DeepMindのSparrow、およびAnthropicのConstitutional AIは、人間の好みの注釈を使用した設定である「人間のフィードバックからの強化学習(RLHF)」を使用しています。RLHFでは、モデルの応答セットが人間のフィードバックに基づいてランク付けされます(例:他のテキストブラーブよりも好ましいテキストブラーブを選択するなど)。次に、注釈付きの応答に基づいて好みモデルがトレーニングされ、RLオプティマイザーに対してスカラー報酬を返すようになります。最後に、対話エージェントは、強化学習を介して好みモデルをシミュレートするようにトレーニングされます。詳細については、弊社以前のRLHFに関するブログ記事をご覧ください。

思考の連鎖(CoT)プロンプト(Wei et al.、’22)は、対話エージェントからステップバイステップの推論を引き出すことで、出力を生成する命令デモンストレーションの特殊なケースです。CoTでファインチューニングされたモデルは、ステップバイステップの推論の人間の注釈を使用した命令データセットを使用します。この有名なプロンプト、「**************************一緒にステップバイステップで考えましょう**************************」の起源です。以下の例は、Chung et al.、’22から引用されたものです。オレンジの色が命令を、ピンクの色が入力と出力を示し、青の色がCoTの推論を示しています。

CoTでファインチューニングされたモデルは、Chung et al.、’22で示されているように、常識、算術、記号論理推論を必要とするタスクで非常に優れたパフォーマンスを発揮しています。

また、CoTでファインチューニングされたモデルは、Bai et al.、’22によって示されるように、繊細なプロンプトに対して「申し訳ありません、この質問には対応できません」という回答を生成することなく、有害性のない非常に効果的なパフォーマンスを発揮しています。詳細な例については、彼らの論文の付録Dを参照してください。

要点:

  1. 命令ファインチューニングには、事前トレーニングデータに比べて非常にわずかなデータの割合(数百のオーダー)しか必要ありません。
  2. 教師付きファインチューニングは、モデルの出力を安全で有益にするために人間の注釈を使用します。
  3. CoTでのファインチューニングは、ステップバイステップの思考を必要とするタスクにおけるモデルのパフォーマンスを改善し、繊細なトピックに対して回避的な振る舞いを抑制します。

対話エージェントの次のステップ

このブログでは、対話エージェントが有用になる要素についての既存の研究の多くをまとめています。しかし、まだ多くの未解決の問題があります。以下にいくつか挙げます。

  1. 人間のフィードバックからの学習においてRLはどれだけ重要ですか?IFTまたはSFTで高品質のデータをトレーニングすることでRLHFのパフォーマンスを得ることはできますか?
  2. SparrowのようなSFT + RLHFとLaMDAのようなSFTの安全性を比較すると、どのような違いがありますか?
  3. IFT、SFT、CoT、RLHFがあるため、どれだけの事前トレーニングが必要ですか?トレードオフは何ですか?人々が使用すべき最適なベースモデルは何ですか(公開されているものと非公開のものの両方)?
  4. この論文で参照されているモデルの多くは、レッドチームで注意深くエンジニアリングされており、エンジニアは明らかにされた問題に基づいて将来のトレーニング(プロンプトと方法)に影響を与えるために特定の障害モードを検索します。これらの方法の効果を系統的に記録し、再現する方法はありますか?

PS:このブログにおいて抜け漏れや間違いがある場合は、お知らせください。

****************引用****************

Rajani et al.、「What Makes a Dialog Agent Useful?」、Hugging Face Blog、2023年。

BibTeXの引用:

@article{rajani2023ift,
  author = {Rajani, Nazneen and Lambert, Nathan and Sanh, Victor and Wolf, Thomas},
  title = {What Makes a Dialog Agent Useful?},
  journal = {Hugging Face Blog},
  year = {2023},
  note = {https://huggingface.co/blog/dialog-agents},
}

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

デビッド・スミス(別名「デビッド・データ」)は、TheVentureCityのチーフデータオフィサーであり、ソフトウェア駆動型のス...

機械学習

「Prolificの機械学習エンジニア兼AIコンサルタント、ノラ・ペトロヴァ – インタビューシリーズ」

『Nora Petrovaは、Prolificの機械学習エンジニア兼AIコンサルタントですProlificは2014年に設立され、既にGoogle、スタンフ...

人工知能

『ジュリエット・パウエル&アート・クライナー、The AI Dilemma – インタビューシリーズの著者』

『AIのジレンマ』は、ジュリエット・パウエルとアート・クライナーによって書かれましたジュリエット・パウエルは、著者であ...

データサイエンス

「2023年にデータサイエンスFAANGの仕事をゲットする方法は?」

データサイエンスは非常に求められる分野となり、FAANG(Facebook、Amazon、Apple、Netflix、Google)企業での就職は大きな成...

人工知能

ベイリー・カクスマー、ウォータールー大学の博士課程候補 - インタビューシリーズ

カツマー・ベイリーは、ウォータールー大学のコンピュータ科学学部の博士課程の候補者であり、アルバータ大学の新入教員です...

データサイエンス

アステラソフトウェアのCOO、ジェイ・ミシュラ - インタビューシリーズ

ジェイ・ミシュラは、急速に成長しているエンタープライズ向けデータソリューションの提供企業であるAstera Softwareの最高執...