スタンフォード大学とDeepMindの研究者が、大規模な言語モデル(LLMs)をプロキシ報酬関数として使用するアイデアを提案しました

スタンフォード大学とDeepMindの研究者がLLMsをプロキシ報酬関数として使用するアイデアを提案

コンピューティングとデータの発展に伴い、自律エージェントは力を増しています。エージェントが学習するポリシーに対して人間が何らかの意見を持ち、それが自分の目標と一致しているかを確認する必要性は、これを踏まえるとますます明白になっています。

現在、ユーザーは1)目的のアクションに対する報酬関数を作成するか、2)詳細なラベル付きデータを提供するかのいずれかを行っています。どちらの戦略も困難を伴い、実際には実装されることはないでしょう。報酬のハッキングに脆弱なエージェントは、競合するゴールの間にバランスを取る報酬関数の設計が難しい状況にあります。しかし、報酬関数は注釈付きの例から学習することができます。ただし、個々のユーザーの嗜好や目標の微妙さを捉えるためには膨大な量のラベル付きデータが必要であり、高コストがかかります。さらに、報酬関数は再設計するか、異なる目標を持つ新しいユーザーポピュレーションのためにデータセットを再収集する必要があります。

スタンフォード大学とDeepMindによる最新の研究では、ユーザーが好みを共有するのがより自然な方法で報酬関数を作成し、わずかなインスタンスのみを使用してそれらの好みを定義するための費用対効果の高いアプローチを設計することを目指しています。彼らの研究では、インターネットからの大量のテキストデータでトレーニングされ、極めて少数のトレーニング例でも文脈で学習することが得意な大規模言語モデル(LLM)を使用しています。研究者によれば、LLMは人間の行動に関する重要な常識的な事前知識を大規模なデータセットから取り込むため、文脈的な学習に優れています。

研究者たちは、ユーザーが提供するデータを使用してRLエージェントのトレーニングにプロンプト付きLLMを利用する方法を調査しています。提案された方法では、会話形式のインターフェースを使用してユーザーが目標を定義します。目標を定義する際には、「汎用性」といった数個のインスタンスや、共通の知識であれば1つの文を使用することがあります。プロンプトとLLMを使用して報酬関数を定義し、RLエージェントをトレーニングします。RLエピソードの軌跡とユーザーのプロンプトをLLMに入力し、軌跡がユーザーの目的を満たしているかどうかのスコア(例えば、「Yes」または「0」)をRLエージェントの整数報酬として出力します。LLMをプロキシ報酬関数として使用する利点の1つは、ユーザーが望ましい動作の数十の例を提供する必要がなく、言語を通じて直感的に好みを指定できることです。

ユーザーは、提案されたエージェントが異なる目標でトレーニングされたエージェントよりも目標に合致していると報告しています。共通の目標に関する事前知識を利用することで、LLMはゼロショットのプロンプトに対して生成される目標に合致した報酬信号の割合を、通常の順序の行列ゲームの場合には平均48%、シャッフルされた順序の場合には36%増加させます。最終的なゲーム、ディールまたはノーディールの交渉課題、およびマトリックスゲームでは、チームはいくつかのプロンプトのみを使用してプレーヤーをガイドします。パイロットスタディでは10人の実際の人物が使用されました。

LLMは、ワンショットの状況でも共通の目標を認識し、それらの目標と一致する強化信号を送信することができます。したがって、目的に合致したRLエージェントをトレーニングするためには、1つの正しい結果のみを検出するLLMを使用することができます。その結果、ラベルを使用してトレーニングされるエージェントよりも正確なものになる可能性が高くなります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

ランダムフォレストの解釈

近年、大型言語モデルについて大いに盛り上がりがありますが、それは従来の機械学習手法が絶滅の運命を辿るべきだということ...

AI研究

ソルボンヌ大学の研究者は、画像、ビデオ、音声、言語のタスクに対する統合AIモデル「UnIVAL」を紹介しました

一般的なモデルを作成するための大きな進歩の一つは、大規模な言語モデル(LLM)の出現です。彼らの驚異的なテキスト理解およ...

AIニュース

「OpenAIがより大きく、より凶暴で、より奇妙なチャットボットを発表」

「GPTは、ユーザーがゼロのコーディング経験でも独自の完全にカスタマイズ可能なチャットボットを作成できると約束しています」

データサイエンス

2023年にフォローすべきAI YouTuberトップ15選

人工知能は現在、さまざまな分野で指数関数的な成長を遂げています。その拡大により、この領域は学び、マスターするための数...

AIテクノロジー

「ジェネレーティブAIの企業導入」

「こんにちは、私はマイケルです2018年からエンタープライズAIの導入に没頭しており、私たちはAi4というAIカンファレンスを開...

機械学習

「機械学習評価指標 理論と概要」

「機械学習における評価指標の高度な探索とその重要性」