この中国のAI論文では、「物理的なシーンの制約を持つ具体的な計画におけるタスクプランニングエージェント(TaPA)」が提案されています

In this Chinese AI paper, a Task Planning Agent (TaPA) is proposed for specific planning with constraints in physical scenes.

日常生活でどのように意思決定を行うのでしょうか?私たちはしばしば私たちの常識に基づいて偏見を持ちます。ではロボットはどうでしょうか?彼らは常識に基づいて意思決定をすることができるのでしょうか?人間の指示を成功裏に完了するには、共通の感覚を持つ具現化エージェントが必要です。現在のLLMsは現実の世界のより詳細な情報が必要なため、実行不可能なアクションの連続を生じます。

自動化学科と北京国家情報科学技術研究センターの研究者たちは、物理的なシーンの制約を持つ具現化されたタスクでのTAsk Planning Agent(TaPA)を提案しました。これらのエージェントは、視覚認識モデルとLLMsを整列させることにより、シーン内の既存のオブジェクトに応じた実行可能なプランを生成します。

研究者は、TaPAがタスクの種類やターゲットオブジェクトを制約せずに具体的な計画を生成できると主張しています。まず、各サンプルが視覚的なシーン、指示、および対応するプランの三つ組である多モーダルデータセットを作成しました。生成されたデータセットから、シーンのオブジェクトリストに基づいてアクションステップを予測することで、事前学習済みのLLaMAネットワークを微調整し、さらにタスクプランナーとして割り当てます。

具現化エージェントは、立ち止まるポイントを効果的に訪れ、RGB画像を収集し、多視点の情報を提供することで、オープンボキャブラリディテクタを多視点画像に汎化するための十分な情報を提供します。この全体のプロセスにより、TaPAはシーン情報と人間の指示を考慮して、ステップバイステップで実行可能なアクションを生成することができます。

彼らはどのように多モーダルデータセットを生成したのでしょうか?ビジョン言語モデルや大規模多モーダルモデルを活用する方法の一つです。しかし、計画エージェントを訓練するための大規模な多モーダルデータセットが不足しているため、現実の屋内シーンに基づく具現化されたタスクプランニングを作成し達成することは困難です。彼らはGPT-3.5を使用し、提示されたシーン表現と設計プロンプトを使用して、計画エージェントの調整のための大規模な多モーダルデータセットを生成することでこれを解決しました。

研究者は、事前学習済みのLLMsからタスクプランナーをトレーニングし、80の屋内シーン、15Kの指示とアクションプランを含む多モーダルデータセットを構築しました。彼らは位置選択基準や回転カメラなどの周囲の3Dシーンを探索するための画像収集戦略をいくつか設計しました。クラスタリング手法に触発されて、彼らは全体のシーンをいくつかのサブリージョンに分割し、知覚のパフォーマンスを向上させました。

研究者たちは、TaPAエージェントがLLMaやGPT-3.5などの最先端のLLMsやLLaVAなどの大規模多モーダルモデルよりも生成されたアクションプランの成功率が高いと主張しています。LLaVAとGPT-3.5と比較して、それぞれ26.7%と5%の幻覚ケースの割合が減少していることで、入力オブジェクトのリストをより良く理解できるとしています。

研究者たちは、収集した多モーダルデータセットの統計データが、従来の命令従順タスクのベンチマークよりもはるかに複雑で、実装ステップが長く、最適化のためにさらなる新しい手法が必要であることを示していると主張しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

ChatGPTでお金を稼ぐ5つの方法

もしChatGPTでお金を稼げるとは信じていないなら、この記事の終わりまでには信じるようになるでしょう

データサイエンス

「データサイエンスプロジェクトを変革する:YAMLファイルに変数を保存する利点を見つけよう」

このブログ投稿では、データサイエンスプロジェクトで変数、パラメータ、ハイパーパラメータを保存するための中心的なリポジ...

AI研究

新しい人工知能(AI)の研究アプローチは、統計的な視点からアルゴリズム学習の問題として、プロンプトベースのコンテキスト学習を提示します

インコンテキスト学習は、最近のパラダイムであり、大規模言語モデル(LLM)がテストインスタンスと数少ないトレーニング例を...

AIニュース

「AIがバービーの画像を作成し、人種差別の批判を受ける」

近日、バービーの映画に関する話題の中で、異なる国を表すAI生成のバービーの画像がインターネット上で話題となっています。...

AIニュース

「2023年のAI タイムライン」

はじめに 人工知能(AI)は、技術的な進歩が人間のつながりの本質と共鳴する形で私たちの日常生活と交差する魅力的な領域です...

人工知能

「AI時代における組織の価値を引き出す」

「AIはAIに脅かされるのではなく、より能力を高め、自主性を増し、強い関係を築くことによって、個人の自己決定力を向上させ...