このAI論文は、大規模なビジョン・ランゲージ・ナビゲーション(VLN)トレーニングのための効果的なパラダイムを提案し、パイプライン内の各コンポーネントの影響を定量的に評価しています

This AI paper proposes an effective paradigm for large-scale Vision-Language Navigation (VLN) training and quantitatively evaluates the impact of each component in the pipeline.

ビジュアルナビゲーションの学習のために、いくつかの人間のデモが収集され、最近の巨大なデータセットには数百の対話的なシナリオが含まれており、エージェントのパフォーマンスの大幅な改善につながっています。ただし、このような大規模なトレーニングを行うには、ナビゲーショングラフの構築方法、破損したレンダリングされた画像の復元方法、およびナビゲーション指示の生成方法など、いくつかの重要なサブ問題を解決する必要があります。これらすべてが収集されたデータの品質に大きな影響を与えるため、徹底的に探求されるべきです。

大規模なデータを効率的に活用し、ナビゲーションエージェントのトレーニングに適切に利益をもたらす方法を研究することが必要であり、人間の自然言語を理解し、写真のような環境でナビゲーションすることができるエージェントは、洗練されたモジュール化されたシステムです。

オーストラリア国立大学、OpenGVLab、上海AI研究所、UNCチャペルヒル、アデレード大学、Adobe Researchの研究者たちは、大規模なビジョンと言語のナビゲーションネットワーク(VLN)をトレーニングするために、パイプライン内の各コンポーネントの影響を統計的に評価する新しいパラダイムを提供しています。彼らはHabitatシミュレータを使用して、HM3DとGibsonのデータセットから環境を使用し、環境のためのナビゲーショングラフを構築します。彼らは新しい軌跡をサンプリングし、指示を作成し、エージェントをトレーニングして下流のナビゲーション問題を解決します。

AutoVLNやMARVALなどの従来の方法とは異なり、これらのナビゲーショングラフは、過剰な視点サンプリングと集約手法を使用して構築され、導入されたグラフ作成ヒューリスティックを使用しています。このアプローチにより、広範な屋外カバレッジを持つ完全に接続されたネットワークが得られます。

研究者たちはまた、HM3DとGibsonの設定から生成された破損した生成画像から、壊れた、変形した、または欠落した部分の写真のような画像を生成するために、Co-Modulated GANをトレーニングします。これにより、視覚データのノイズの影響を軽減することができます。MARVALとは異なり、この大規模なトレーニング体制は完全に再現可能で実行が容易であり、エージェントのパフォーマンスを大幅に向上させます。

包括的な実験により、エージェントがR2Rなどの特定の指示に基づいて下流のタスクでより良いパフォーマンスを発揮するためには、ナビゲーショングラフが完全にトラバーサブルである必要があります。さらに、Gibsonの環境からの低品質な3Dスキャンに対して生成された画像から写真のような画像を復元する利点も示されています。研究結果は、エージェントが一般的により多様な視覚データを使用でき、新しいシーンから学習することにより新しいコンテキストへの一般化を向上させることができることを示しています。

さらに、チームは、基本的なLSTMベースのモデルによって提供される拡張指示を使用してトレーニングされたエージェントがさまざまなナビゲーションタスクでうまく機能することを検証しました。彼らは、拡張データを元のデータと統合し、事前トレーニングと微調整中にエージェントの一般化能力を向上させることができると結論付けています。

驚くべきことに、データ拡張やエージェントのトレーニングのための上記の分析をガイドとして使用することで、提案されたVLNモデルは、先行探索、ビームサーチ、またはモデルのアンサンブルなしで単純な模倣学習によってR2Rテスト分割で80%の成功率を達成し、見たことのない環境とのナビゲーションギャップを解消します。この結果は、以前の最良の手法(73%)と比べて、パフォーマンスの差を人間のレベルに約6パーセントポイントまで縮める大幅な改善です。CVDNやREVERIEなどのいくつかの言語によるビジュアルナビゲーションの課題へのアプローチは、最先端を前進させました。強化されたデータは離散的であるにもかかわらず、連続的な環境(R2R-CE)においてVLNのパフォーマンスが5%成功率向上していることも示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

この中国のAI研究は、マルチモーダルな大規模言語モデル(MLLMs)の幻覚を修正するために設計された革新的な人工知能フレームワークである「ウッドペッカー」を紹介します

中国の研究者たちは、マルチモーダルな大規模言語モデル(MLLM)における幻覚の問題に対処するために、Woodpeckerという新し...

AI研究

サリー大学の研究者が新しい人工知能(AI)モデルを開発しましたこのモデルは、通信ネットワークが最大76%ものネットワークを節約できる可能性があります

オープン・ラジオ・アクセス・ネットワーク(O-RAN)は、分離されたラジオ・アクセス・ネットワーク(RAN)に知能を注入し、...

機械学習

「NVIDIAのグレース・ホッパー・スーパーチップがMLPerfの推論ベンチマークを席巻する」

MLPerf業界ベンチマークに初登場したNVIDIA GH200 Grace Hopperスーパーチップは、すべてのデータセンターインファレンステス...

機械学習

オラクルは、AIとクラウドを基盤とした未来のビジョンを明らかにしました

ラリー・エリソンは、生成的AIが変革的であり、エンタープライズAIアプリケーションの構築におけるOracle Cloudの独特な利点...

機械学習

クラウドストライクは、Fal.Con 2023におけるAI駆動のセキュリティに関するビジョンを概説します

「クラウドネイティブアーキテクチャを使用し、AIと統合データを活用して、ますます速い攻撃に対する検出と対応を加速する」

機械学習

「大規模な言語モデルが医療テキスト分析に与える影響」

イントロダクション 技術革命の進行する世界において、人工知能と医療の融合は医学の診断と治療の風景を再構築しています。こ...