UCバークレーの研究者は、目的指向の対話エージェントのゼロショット獲得を実現する人工知能アルゴリズムを提案しています

「UCバークレー研究者の提案:目的指向対話エージェントのゼロショット学習を実現する人工知能アルゴリズム」

大容量の言語モデル(LLM)は、テキスト要約、質問応答、コード生成などのさまざまな自然言語タスクにおいて優れた能力を発揮し、多くの現実世界の問題に対する強力な解決策として注目されています。ただし、これらのモデルが苦労するのは、目標指向の対話において、対話を通じて目標を達成する必要がある場合です。例えば、パーソナライズされた旅行プランを提供するために効果的な旅行代理店の役割を果たすことです。実際には、通常、過剰な情報を提供し、個別化されていない応答をする傾向があります。

教師付きのファインチューニングまたは単一ステップの強化学習(RL)で訓練されたモデルは、複数の対話の結果としての対話のアウトカムに最適化されていないため、このようなタスクでは一般的に苦労します。さらに、彼らがこうした対話での不確実性に対処する上でも問題があります。本論文では、UCバークレーの研究者が、RLを用いてゴール指向型の対話にLLMを適応させる新しい手法について探求しました。彼らの貢献として、最適化されたゼロショットのアルゴリズムと、タスクに関連した多様な質問を生成する「想像エンジン(IE)」という新しいシステムを含んでいます。

IE自体では効果的なエージェントを生成することができないため、研究者たちはLLMを使用して可能なシナリオを生成します。望ましい結果を達成するためにエージェントの効果を高めるためには、多段階の強化学習を行う必要があります。研究者たちはこのアプローチに一つの変更を加えました。オンポリシーサンプルの代わりに、彼らは合成データ自体からポリシーを学習するためにオフラインの価値ベースのRLを使用しました。

彼らの手法の効果をテストするために、研究者たちはGPTエージェントとIE+RLのパフォーマンスを人間の評価者によって比較しました。彼らは実世界の問題に基づいた2つの目標指向の対話を考慮に入れました。研究者たちはIEでGPT-3.5モデルを使用して合成データを生成し、ダウンストリームエージェントとして比較的小さなデコーダ専用のGPT-2モデルを使用しました。これによって、彼らのアプローチが実用的になり、データ生成には最先端のモデルのみが必要であり、計算コストを削減できます。

実験結果に基づいて、彼らの提案されたエージェントがすべての指標でGPTモデルを上回り、対話の自然さを確保していることがわかりました。また、定性的な結果においても、IE+RLエージェントは同等のエージェントよりも優れたパフォーマンスを発揮しました。それは簡単に答えられる質問を出し、前の質問に賢明に基づいてフォローアップの質問を行いました。研究者たちはシミュレーションを用いて2つのエージェントのパフォーマンスを比較しました。IE+RLエージェントはGPTエージェントを上回りつつも、定性的な評価では前者の方が優れた結果を出しました。

まとめると、この研究論文では、著者らがLLMのゴール指向の対話におけるパフォーマンスを向上させるための手法を紹介しています。想像エンジンを使用して、多様でタスクに関連し、現実的な合成データを生成し、対話エージェントを訓練します。具体的には、計算コストを削減するためにオフラインアプローチを使用しています。結果は、彼らの手法が伝統的な手法を常に上回り、将来の改善のための道を開いていることを示しています。彼らはこのプロセスをさらに自動化してゼロショットの対話エージェントのパフォーマンスを向上させ、AIシステムとの相互作用を向上させることができると考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

FedMLとThetaが分散型AIスーパークラスターを発表:生成AIとコンテンツ推薦を強化

画期的なコラボレーションにより、FedMLとTheta Networkは、生成型AIとコンテンツ推薦の風景を変えるための分散型AIスーパー...

AIニュース

神経形態チップの訓練の突破口的な方法

研究チームは、外部ソフトウェアによるトレーニングを必要としないニューロモーフィックチップを開発しました

AIニュース

不正行為はこれで終わり!Sapia.aiがAIによる回答をリアルタイムで検出!

Sapia.aiは、ChatGPTなどの生成AIモデルによって作成された応答をリアルタイムで特定およびフラグ付けする新機能を発表し、興...

機械学習

マルチアームバンディットを用いた動的価格設定:実践による学習

意思決定の問題の広大な世界において、一つのジレンマが特に強化学習の戦略によって所有されています:探索と活用スロットマ...

機械学習

一貫性のあるAIビデオエディターが登場しました:TokenFlowは、一貫性のあるビデオ編集のために拡散特徴を使用するAIモデルです

拡散モデルは、この時点でお馴染みのものです。過去の1年間、AIの領域で鍵となるトピックでした。これらのモデルは、画像生成...

データサイエンス

「ChatGPTのコードインタプリター:データサイエンティスト向けGPT-4の高度なデータ分析」

イントロダクション ChatGPTは、ユーザーの入力に理解し、会話的に応答する能力で世界を驚かせているOpenAIによって開発され...