このAI論文は、大規模なビジョン・ランゲージ・ナビゲーション(VLN)トレーニングのための効果的なパラダイムを提案し、パイプライン内の各コンポーネントの影響を定量的に評価しています

This AI paper proposes an effective paradigm for large-scale Vision-Language Navigation (VLN) training and quantitatively evaluates the impact of each component in the pipeline.

ビジュアルナビゲーションの学習のために、いくつかの人間のデモが収集され、最近の巨大なデータセットには数百の対話的なシナリオが含まれており、エージェントのパフォーマンスの大幅な改善につながっています。ただし、このような大規模なトレーニングを行うには、ナビゲーショングラフの構築方法、破損したレンダリングされた画像の復元方法、およびナビゲーション指示の生成方法など、いくつかの重要なサブ問題を解決する必要があります。これらすべてが収集されたデータの品質に大きな影響を与えるため、徹底的に探求されるべきです。

大規模なデータを効率的に活用し、ナビゲーションエージェントのトレーニングに適切に利益をもたらす方法を研究することが必要であり、人間の自然言語を理解し、写真のような環境でナビゲーションすることができるエージェントは、洗練されたモジュール化されたシステムです。

オーストラリア国立大学、OpenGVLab、上海AI研究所、UNCチャペルヒル、アデレード大学、Adobe Researchの研究者たちは、大規模なビジョンと言語のナビゲーションネットワーク(VLN)をトレーニングするために、パイプライン内の各コンポーネントの影響を統計的に評価する新しいパラダイムを提供しています。彼らはHabitatシミュレータを使用して、HM3DとGibsonのデータセットから環境を使用し、環境のためのナビゲーショングラフを構築します。彼らは新しい軌跡をサンプリングし、指示を作成し、エージェントをトレーニングして下流のナビゲーション問題を解決します。

AutoVLNやMARVALなどの従来の方法とは異なり、これらのナビゲーショングラフは、過剰な視点サンプリングと集約手法を使用して構築され、導入されたグラフ作成ヒューリスティックを使用しています。このアプローチにより、広範な屋外カバレッジを持つ完全に接続されたネットワークが得られます。

研究者たちはまた、HM3DとGibsonの設定から生成された破損した生成画像から、壊れた、変形した、または欠落した部分の写真のような画像を生成するために、Co-Modulated GANをトレーニングします。これにより、視覚データのノイズの影響を軽減することができます。MARVALとは異なり、この大規模なトレーニング体制は完全に再現可能で実行が容易であり、エージェントのパフォーマンスを大幅に向上させます。

包括的な実験により、エージェントがR2Rなどの特定の指示に基づいて下流のタスクでより良いパフォーマンスを発揮するためには、ナビゲーショングラフが完全にトラバーサブルである必要があります。さらに、Gibsonの環境からの低品質な3Dスキャンに対して生成された画像から写真のような画像を復元する利点も示されています。研究結果は、エージェントが一般的により多様な視覚データを使用でき、新しいシーンから学習することにより新しいコンテキストへの一般化を向上させることができることを示しています。

さらに、チームは、基本的なLSTMベースのモデルによって提供される拡張指示を使用してトレーニングされたエージェントがさまざまなナビゲーションタスクでうまく機能することを検証しました。彼らは、拡張データを元のデータと統合し、事前トレーニングと微調整中にエージェントの一般化能力を向上させることができると結論付けています。

驚くべきことに、データ拡張やエージェントのトレーニングのための上記の分析をガイドとして使用することで、提案されたVLNモデルは、先行探索、ビームサーチ、またはモデルのアンサンブルなしで単純な模倣学習によってR2Rテスト分割で80%の成功率を達成し、見たことのない環境とのナビゲーションギャップを解消します。この結果は、以前の最良の手法(73%)と比べて、パフォーマンスの差を人間のレベルに約6パーセントポイントまで縮める大幅な改善です。CVDNやREVERIEなどのいくつかの言語によるビジュアルナビゲーションの課題へのアプローチは、最先端を前進させました。強化されたデータは離散的であるにもかかわらず、連続的な環境(R2R-CE)においてVLNのパフォーマンスが5%成功率向上していることも示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

『2つの方が1つより優れている:AIと自動化を組み合わせて強力な品質エンジニアリングプロセスを作成する方法』

この記事では、品質エンジニアリングプロセスを向上させるためにAIと自動化技術を組み込む方法について学びます

AIニュース

「企業がGoogle Cloud AIを利用する7つの方法」

「Google Cloud Next 2023では、数千人がサンフランシスコに集まり、Google Cloudの最新アップデートについて学びました」

人工知能

「オープンソースツールを使用して、プロのように音声をクローンし、リップシンク動画を作る方法」

紹介 AI音声クローンはソーシャルメディアで大流行しています。これにより、創造的な可能性が広がりました。ソーシャルメディ...

AIテクノロジー

『思考の整理、早くて遅い+AI』

「人間の脳には、悪いニュースを優先する仕組みが備わっています」- ダニエル・カーネマン『思考の整理術』は、心理学者でノ...

AI研究

「ハロー効果:AIがサンゴ礁保護に深く関与する」

珊瑚礁の急速な衰退が世界中で進んでいる中、ハワイマノア大学の研究者たちは、空から珊瑚礁の健康を監視するAIベースの調査...

人工知能

「予算の制約を持つ学生や起業家のための7つの最高の無料AIツール」

「無料で利用できる最高の7つのAIツールを一つ一つ選びました何もありません何もない」