このAI論文は、大規模なビジョン・ランゲージ・ナビゲーション(VLN)トレーニングのための効果的なパラダイムを提案し、パイプライン内の各コンポーネントの影響を定量的に評価しています

This AI paper proposes an effective paradigm for large-scale Vision-Language Navigation (VLN) training and quantitatively evaluates the impact of each component in the pipeline.

ビジュアルナビゲーションの学習のために、いくつかの人間のデモが収集され、最近の巨大なデータセットには数百の対話的なシナリオが含まれており、エージェントのパフォーマンスの大幅な改善につながっています。ただし、このような大規模なトレーニングを行うには、ナビゲーショングラフの構築方法、破損したレンダリングされた画像の復元方法、およびナビゲーション指示の生成方法など、いくつかの重要なサブ問題を解決する必要があります。これらすべてが収集されたデータの品質に大きな影響を与えるため、徹底的に探求されるべきです。

大規模なデータを効率的に活用し、ナビゲーションエージェントのトレーニングに適切に利益をもたらす方法を研究することが必要であり、人間の自然言語を理解し、写真のような環境でナビゲーションすることができるエージェントは、洗練されたモジュール化されたシステムです。

オーストラリア国立大学、OpenGVLab、上海AI研究所、UNCチャペルヒル、アデレード大学、Adobe Researchの研究者たちは、大規模なビジョンと言語のナビゲーションネットワーク(VLN)をトレーニングするために、パイプライン内の各コンポーネントの影響を統計的に評価する新しいパラダイムを提供しています。彼らはHabitatシミュレータを使用して、HM3DとGibsonのデータセットから環境を使用し、環境のためのナビゲーショングラフを構築します。彼らは新しい軌跡をサンプリングし、指示を作成し、エージェントをトレーニングして下流のナビゲーション問題を解決します。

AutoVLNやMARVALなどの従来の方法とは異なり、これらのナビゲーショングラフは、過剰な視点サンプリングと集約手法を使用して構築され、導入されたグラフ作成ヒューリスティックを使用しています。このアプローチにより、広範な屋外カバレッジを持つ完全に接続されたネットワークが得られます。

研究者たちはまた、HM3DとGibsonの設定から生成された破損した生成画像から、壊れた、変形した、または欠落した部分の写真のような画像を生成するために、Co-Modulated GANをトレーニングします。これにより、視覚データのノイズの影響を軽減することができます。MARVALとは異なり、この大規模なトレーニング体制は完全に再現可能で実行が容易であり、エージェントのパフォーマンスを大幅に向上させます。

包括的な実験により、エージェントがR2Rなどの特定の指示に基づいて下流のタスクでより良いパフォーマンスを発揮するためには、ナビゲーショングラフが完全にトラバーサブルである必要があります。さらに、Gibsonの環境からの低品質な3Dスキャンに対して生成された画像から写真のような画像を復元する利点も示されています。研究結果は、エージェントが一般的により多様な視覚データを使用でき、新しいシーンから学習することにより新しいコンテキストへの一般化を向上させることができることを示しています。

さらに、チームは、基本的なLSTMベースのモデルによって提供される拡張指示を使用してトレーニングされたエージェントがさまざまなナビゲーションタスクでうまく機能することを検証しました。彼らは、拡張データを元のデータと統合し、事前トレーニングと微調整中にエージェントの一般化能力を向上させることができると結論付けています。

驚くべきことに、データ拡張やエージェントのトレーニングのための上記の分析をガイドとして使用することで、提案されたVLNモデルは、先行探索、ビームサーチ、またはモデルのアンサンブルなしで単純な模倣学習によってR2Rテスト分割で80%の成功率を達成し、見たことのない環境とのナビゲーションギャップを解消します。この結果は、以前の最良の手法(73%)と比べて、パフォーマンスの差を人間のレベルに約6パーセントポイントまで縮める大幅な改善です。CVDNやREVERIEなどのいくつかの言語によるビジュアルナビゲーションの課題へのアプローチは、最先端を前進させました。強化されたデータは離散的であるにもかかわらず、連続的な環境(R2R-CE)においてVLNのパフォーマンスが5%成功率向上していることも示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIへの恐怖は迷信的なくだらないことだ」

「人工知能が私たちを皆殺しにすると恐れている人々は、200,000年にわたる宗教的な迷信のナンセンスと同じ間違いをしています」

機械学習

ビッグテックと生成AI:ビッグテックが生成AIを制御するのか?

「ビッグテックと生成AIの深まる関係を探求する:これらの巨人はセクターを支配するのか、それともバランスの取れたAIの景観...

AIニュース

8つの方法でGoogleレンズがあなたの生活をより簡単にする方法

Google Lensは、見たものを検索して周りの世界を探索することが簡単になりますそれには、肌の状態を検索する新機能も含まれて...

人工知能

150以上のミッドジャーニーロゴのプロンプト

「Midjourneyのような生成AIツールを使って、ビジネスのために美しいロゴを作成することができます」

AI研究

『このAI研究は、IFPおよびリポソーム蓄積を予測するための物理ベースの深層学習を発表します』

がん治療の精緻化を追求する中、研究者たちは、腫瘍のダイナミクスを飛躍的に向上させる画期的な解決策を導入しました。この...

データサイエンス

「LLMモニタリングと観測性 - 責任あるAIのための手法とアプローチの概要」

対象読者:実践者が利用可能なアプローチと実装の始め方を学びたい方、そして構築する際に可能性を理解したいリーダーたち…