この中国のAI論文では、「物理的なシーンの制約を持つ具体的な計画におけるタスクプランニングエージェント(TaPA)」が提案されています
In this Chinese AI paper, a Task Planning Agent (TaPA) is proposed for specific planning with constraints in physical scenes.
日常生活でどのように意思決定を行うのでしょうか?私たちはしばしば私たちの常識に基づいて偏見を持ちます。ではロボットはどうでしょうか?彼らは常識に基づいて意思決定をすることができるのでしょうか?人間の指示を成功裏に完了するには、共通の感覚を持つ具現化エージェントが必要です。現在のLLMsは現実の世界のより詳細な情報が必要なため、実行不可能なアクションの連続を生じます。
自動化学科と北京国家情報科学技術研究センターの研究者たちは、物理的なシーンの制約を持つ具現化されたタスクでのTAsk Planning Agent(TaPA)を提案しました。これらのエージェントは、視覚認識モデルとLLMsを整列させることにより、シーン内の既存のオブジェクトに応じた実行可能なプランを生成します。
研究者は、TaPAがタスクの種類やターゲットオブジェクトを制約せずに具体的な計画を生成できると主張しています。まず、各サンプルが視覚的なシーン、指示、および対応するプランの三つ組である多モーダルデータセットを作成しました。生成されたデータセットから、シーンのオブジェクトリストに基づいてアクションステップを予測することで、事前学習済みのLLaMAネットワークを微調整し、さらにタスクプランナーとして割り当てます。
- Google AIによるコンテキストの力を解き放つ:プレフィックスLMと因果LMの対決におけるインコンテキスト学習
- 「FraudGPTと出会ってください:ChatGPTのダークサイドの双子」
- 「ビデオ編集はもはや難問ではありません:INVEはインタラクティブなニューラルビデオ編集を可能にするAI手法です」
具現化エージェントは、立ち止まるポイントを効果的に訪れ、RGB画像を収集し、多視点の情報を提供することで、オープンボキャブラリディテクタを多視点画像に汎化するための十分な情報を提供します。この全体のプロセスにより、TaPAはシーン情報と人間の指示を考慮して、ステップバイステップで実行可能なアクションを生成することができます。
彼らはどのように多モーダルデータセットを生成したのでしょうか?ビジョン言語モデルや大規模多モーダルモデルを活用する方法の一つです。しかし、計画エージェントを訓練するための大規模な多モーダルデータセットが不足しているため、現実の屋内シーンに基づく具現化されたタスクプランニングを作成し達成することは困難です。彼らはGPT-3.5を使用し、提示されたシーン表現と設計プロンプトを使用して、計画エージェントの調整のための大規模な多モーダルデータセットを生成することでこれを解決しました。
研究者は、事前学習済みのLLMsからタスクプランナーをトレーニングし、80の屋内シーン、15Kの指示とアクションプランを含む多モーダルデータセットを構築しました。彼らは位置選択基準や回転カメラなどの周囲の3Dシーンを探索するための画像収集戦略をいくつか設計しました。クラスタリング手法に触発されて、彼らは全体のシーンをいくつかのサブリージョンに分割し、知覚のパフォーマンスを向上させました。
研究者たちは、TaPAエージェントがLLMaやGPT-3.5などの最先端のLLMsやLLaVAなどの大規模多モーダルモデルよりも生成されたアクションプランの成功率が高いと主張しています。LLaVAとGPT-3.5と比較して、それぞれ26.7%と5%の幻覚ケースの割合が減少していることで、入力オブジェクトのリストをより良く理解できるとしています。
研究者たちは、収集した多モーダルデータセットの統計データが、従来の命令従順タスクのベンチマークよりもはるかに複雑で、実装ステップが長く、最適化のためにさらなる新しい手法が必要であることを示していると主張しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 大規模な言語モデルを効率的に提供するためのフレームワーク
- AIが迷走するとき:現実世界での注目すべき機械学習のミスハップ
- 「ディープラーニングを用いたナノアレイの開発:特定の構造色を生み出すことができるナノホールアレイを設計する新しいAI手法」
- 思っているベイダーではありません 3D VADERは3Dモデルを拡散するAIモデルです
- 「コンテキストの解読:NLPにおける単語ベクトル化技術」
- 「ROUGEメトリクス:大規模言語モデルにおける要約の評価」
- プラグ可能な回折ニューラルネットワーク(P-DNN):内部プラグインを切り替えることによって、様々なタスクを認識するために適用できるカスケードメタサーフェスを利用する一般的なパラダイム