UCバークレーの研究者は、目的指向の対話エージェントのゼロショット獲得を実現する人工知能アルゴリズムを提案しています

「UCバークレー研究者の提案:目的指向対話エージェントのゼロショット学習を実現する人工知能アルゴリズム」

大容量の言語モデル(LLM)は、テキスト要約、質問応答、コード生成などのさまざまな自然言語タスクにおいて優れた能力を発揮し、多くの現実世界の問題に対する強力な解決策として注目されています。ただし、これらのモデルが苦労するのは、目標指向の対話において、対話を通じて目標を達成する必要がある場合です。例えば、パーソナライズされた旅行プランを提供するために効果的な旅行代理店の役割を果たすことです。実際には、通常、過剰な情報を提供し、個別化されていない応答をする傾向があります。

教師付きのファインチューニングまたは単一ステップの強化学習(RL)で訓練されたモデルは、複数の対話の結果としての対話のアウトカムに最適化されていないため、このようなタスクでは一般的に苦労します。さらに、彼らがこうした対話での不確実性に対処する上でも問題があります。本論文では、UCバークレーの研究者が、RLを用いてゴール指向型の対話にLLMを適応させる新しい手法について探求しました。彼らの貢献として、最適化されたゼロショットのアルゴリズムと、タスクに関連した多様な質問を生成する「想像エンジン(IE)」という新しいシステムを含んでいます。

IE自体では効果的なエージェントを生成することができないため、研究者たちはLLMを使用して可能なシナリオを生成します。望ましい結果を達成するためにエージェントの効果を高めるためには、多段階の強化学習を行う必要があります。研究者たちはこのアプローチに一つの変更を加えました。オンポリシーサンプルの代わりに、彼らは合成データ自体からポリシーを学習するためにオフラインの価値ベースのRLを使用しました。

彼らの手法の効果をテストするために、研究者たちはGPTエージェントとIE+RLのパフォーマンスを人間の評価者によって比較しました。彼らは実世界の問題に基づいた2つの目標指向の対話を考慮に入れました。研究者たちはIEでGPT-3.5モデルを使用して合成データを生成し、ダウンストリームエージェントとして比較的小さなデコーダ専用のGPT-2モデルを使用しました。これによって、彼らのアプローチが実用的になり、データ生成には最先端のモデルのみが必要であり、計算コストを削減できます。

実験結果に基づいて、彼らの提案されたエージェントがすべての指標でGPTモデルを上回り、対話の自然さを確保していることがわかりました。また、定性的な結果においても、IE+RLエージェントは同等のエージェントよりも優れたパフォーマンスを発揮しました。それは簡単に答えられる質問を出し、前の質問に賢明に基づいてフォローアップの質問を行いました。研究者たちはシミュレーションを用いて2つのエージェントのパフォーマンスを比較しました。IE+RLエージェントはGPTエージェントを上回りつつも、定性的な評価では前者の方が優れた結果を出しました。

まとめると、この研究論文では、著者らがLLMのゴール指向の対話におけるパフォーマンスを向上させるための手法を紹介しています。想像エンジンを使用して、多様でタスクに関連し、現実的な合成データを生成し、対話エージェントを訓練します。具体的には、計算コストを削減するためにオフラインアプローチを使用しています。結果は、彼らの手法が伝統的な手法を常に上回り、将来の改善のための道を開いていることを示しています。彼らはこのプロセスをさらに自動化してゼロショットの対話エージェントのパフォーマンスを向上させ、AIシステムとの相互作用を向上させることができると考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「マルチモーダルAIの最新の進歩:(ChatGPT + DALLE 3)+(Google BARD + 拡張)など、さまざまなものがあります....」

マルチモーダルAIは、テキスト、画像、ビデオ、オーディオなどのさまざまなデータタイプ(モーダリティ)を組み合わせて、よ...

AI研究

「自己教師あり学習とトランスフォーマー? - DINO論文の解説」

「一部の人々は、Transformerのアーキテクチャを愛し、それをコンピュータビジョンの領域に歓迎しています他の人々は、新しい...

AIニュース

「HITL-TAMPを紹介します:自動計画と人間の制御のハイブリッド戦略を通じて、ロボットに複雑な操作スキルを教えるための新しいAIアプローチ」

ロボットに複雑な操作スキルを教えるための人間のデモンストレーションの観察は、有望な結果を示しています。操作のデモを提...

AI研究

新しいディープラーニングの研究で、抗マラリア薬が骨粗しょう症の可能な治療薬として特定されました

骨粗鬆症は、骨の過剰な喪失と骨折のリスクが高まる状態を特徴とする疾患で、長年にわたり高齢者に悩み続けてきました。健康...

AI研究

『NVIDIAの研究者たちが、現行のCTCモデルと互換性のあるGPU加速の重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを導入』

最近の人工知能の人気を受けて、自動音声認識(ASR)の分野は非常に進歩しました。これによって音声認識技術や人間とコンピュ...