この中国のAI論文では、「物理的なシーンの制約を持つ具体的な計画におけるタスクプランニングエージェント(TaPA)」が提案されています

In this Chinese AI paper, a Task Planning Agent (TaPA) is proposed for specific planning with constraints in physical scenes.

日常生活でどのように意思決定を行うのでしょうか?私たちはしばしば私たちの常識に基づいて偏見を持ちます。ではロボットはどうでしょうか?彼らは常識に基づいて意思決定をすることができるのでしょうか?人間の指示を成功裏に完了するには、共通の感覚を持つ具現化エージェントが必要です。現在のLLMsは現実の世界のより詳細な情報が必要なため、実行不可能なアクションの連続を生じます。

自動化学科と北京国家情報科学技術研究センターの研究者たちは、物理的なシーンの制約を持つ具現化されたタスクでのTAsk Planning Agent(TaPA)を提案しました。これらのエージェントは、視覚認識モデルとLLMsを整列させることにより、シーン内の既存のオブジェクトに応じた実行可能なプランを生成します。

研究者は、TaPAがタスクの種類やターゲットオブジェクトを制約せずに具体的な計画を生成できると主張しています。まず、各サンプルが視覚的なシーン、指示、および対応するプランの三つ組である多モーダルデータセットを作成しました。生成されたデータセットから、シーンのオブジェクトリストに基づいてアクションステップを予測することで、事前学習済みのLLaMAネットワークを微調整し、さらにタスクプランナーとして割り当てます。

具現化エージェントは、立ち止まるポイントを効果的に訪れ、RGB画像を収集し、多視点の情報を提供することで、オープンボキャブラリディテクタを多視点画像に汎化するための十分な情報を提供します。この全体のプロセスにより、TaPAはシーン情報と人間の指示を考慮して、ステップバイステップで実行可能なアクションを生成することができます。

彼らはどのように多モーダルデータセットを生成したのでしょうか?ビジョン言語モデルや大規模多モーダルモデルを活用する方法の一つです。しかし、計画エージェントを訓練するための大規模な多モーダルデータセットが不足しているため、現実の屋内シーンに基づく具現化されたタスクプランニングを作成し達成することは困難です。彼らはGPT-3.5を使用し、提示されたシーン表現と設計プロンプトを使用して、計画エージェントの調整のための大規模な多モーダルデータセットを生成することでこれを解決しました。

研究者は、事前学習済みのLLMsからタスクプランナーをトレーニングし、80の屋内シーン、15Kの指示とアクションプランを含む多モーダルデータセットを構築しました。彼らは位置選択基準や回転カメラなどの周囲の3Dシーンを探索するための画像収集戦略をいくつか設計しました。クラスタリング手法に触発されて、彼らは全体のシーンをいくつかのサブリージョンに分割し、知覚のパフォーマンスを向上させました。

研究者たちは、TaPAエージェントがLLMaやGPT-3.5などの最先端のLLMsやLLaVAなどの大規模多モーダルモデルよりも生成されたアクションプランの成功率が高いと主張しています。LLaVAとGPT-3.5と比較して、それぞれ26.7%と5%の幻覚ケースの割合が減少していることで、入力オブジェクトのリストをより良く理解できるとしています。

研究者たちは、収集した多モーダルデータセットの統計データが、従来の命令従順タスクのベンチマークよりもはるかに複雑で、実装ステップが長く、最適化のためにさらなる新しい手法が必要であることを示していると主張しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

テスト自動化のためのトップ5のAIパワードツール

テスト自動化のためのトップ5のAIパワードツール:Perfecto Scriptless Mobile、Applitools、Functionize、AccelQ、TestimAI...

人工知能

ChatGPTのドロップシッピング用プロンプト

利益を生むeコマースビジネスを開始するには、完全なチームが必要でしたそれがChatGPTが現れるまでのことでした

人工知能

「25以上のChatGPTのプロンプトで、より多くのリードを生成し(そしてより多くの売り上げを生み出す)」

「競合他社がより多くのリードを得るためにAIツールを使用しているため、あなたは彼らに負けていますあなたも同じことをすべ...

AIニュース

ウィンブルドンがAIによる実況を導入

テニス愛好家にとって素晴らしいニュースです!世界で最も権威のあるテニストーナメントの一つであるウィンブルドンは、最新...

AIテクノロジー

「接続から知能へ:ブロックチェーンとAIがIoTエコシステムを変革する方法」

「ブロックチェーンは、金融、データセキュリティとプライバシー、農業、供給などのさまざまな分野で問題解決策を提供する、...

データサイエンス

「衛星データ、山火事、そしてAI:気候の課題に立ち向かうワイン産業の保護」

「オーストラリアは、世界で5番目に大きなワイン輸出国としてランク付けされており、ワインの世界で重要な位置を占めています...