「CMUの研究者がBUTD-DETRを導入:言語発話に直接依存し、発話で言及されるすべてのオブジェクトを検出する人工知能(AI)モデル」

CMU researchers introduce BUTD-DETR an AI model that directly relies on language speech to detect all objects mentioned in the speech.

画像内のすべての「オブジェクト」を見つけることは、コンピュータビジョンの基礎です。カテゴリの語彙を作成し、この語彙のインスタンスを認識するモデルを訓練することで、「オブジェクトとは何か?」という問いに回答することができます。これらのオブジェクト検出器を実用的なホームエージェントとして使用しようとすると、問題が発生します。モデルは、2Dまたは3Dの設定で指示的な発話を視覚的に関連付ける場合、事前に訓練された検出器が提供するオブジェクトの候補のプールから参照されたアイテムを選択することを学習します。その結果、検出器は、椅子、椅子の脚、または椅子の脚の先端など、より詳細な視覚的なものに関連する発話を見逃す場合があります。

研究チームは、ボトムアップ、トップダウンの検出トランスフォーマー(BUTD-DETR、発音:ビューティーデター)を、口述発話に直接条件付け、言及されたすべてのアイテムを見つけるモデルとして提案します。 BUTD-DETRは、発話がオブジェクトカテゴリのリストである場合、通常のオブジェクト検出器として機能します。モデルは、画像と言語のペアリングにトレーニングされ、発話で言及されたすべてのアイテムの境界ボックス、および固定語彙のオブジェクト検出データセット付きのタグが付いています。ただし、いくつかの調整を加えることで、BUTD-DETRは3Dポイントクラウドと2D画像で言語フレーズをアンカーすることもできます。

プールからランダムに選択する代わりに、BUTD-DETRは言語的および視覚的な入力に注意を払ってオブジェクトボックスをデコードします。ボトムアップでタスク非依存の注意は、アイテムの位置を特定する際に細部を見落とす場合がありますが、言語指向の注意がそのギャップを埋めます。モデルには、シーンと口述発話が入力として使用されます。既にトレーニングされた検出器を使用してボックスの提案が抽出されます。次に、パーカテゴリ固有のエンコーダを使用して、シーン、ボックス、および音声から視覚的な、ボックス、および言語的なトークンが抽出されます。これらのトークンは、お互いに注意を払うことで、その文脈内で意味を持ちます。洗練された視覚チケットは、多くのストリームにわたってボックスをデコードし、広がります。

オブジェクト検出の実践は、検出されるもののカテゴリラベルであるという、根拠のある指示的な言語の例です。研究者は、オブジェクト検出を、検出器の語彙から特定のオブジェクトカテゴリをランダムに選択し、それらをシーケンスして合成発話を生成することによって、検出促進の根拠として使用します(たとえば、「ソファ、人、椅子」といったもの)。これらの検出のヒントは、補足的な監督情報として使用され、目標は、シーン内で指定されたカテゴリラベルのすべての出現を見つけることです。モデルは、視覚的な入力例がないカテゴリラベル(上記の例では「人」など)に対してボックスの関連付けを行わないように指示されます。このアプローチでは、単一のモデルが言語を根拠にし、オブジェクトを認識することができ、両方のタスクのための同じトレーニングデータを共有します。

成果

開発されたMDETR-3Dと同等のものは、以前のモデルと比較して性能が低いですが、BUTD-DETRは3D言語グラウンディングで最先端のパフォーマンスを実現しています。

BUTD-DETRは2Dドメインでも機能し、変形可能な注意などのアーキテクチャの向上により、MDETRと同等のパフォーマンスを達成すると同時に、収束時間を2倍に短縮します。このアプローチは、2Dおよび3Dのグラウンディングモデルを統一する一歩を踏み出しており、少ない修正で両方の次元で機能するように簡単に適応できます。

3D言語グラウンディングのすべてのベンチマークでは、BUTD-DETRは最先端の手法(SR3D、NR3D、ScanRefer)に比べて大幅なパフォーマンス向上を示しています。さらに、ECCVのLanguage for 3D Scenesワークショップで行われたReferIt3Dコンペティションでは、最優秀の投稿であった。ただし、大規模なデータでトレーニングされた場合、BUTD-DETRは2D言語グラウンディングのベンチマークでも最高の既存手法と競合する可能性があります。具体的には、研究者の効率的な変形可能な注意により、2Dモデルは最先端のMDETRと比べて収束時間を2倍速くすることができます。

以下のビデオでは、完全なワークフローについて説明しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

このAI研究は、単一の画像を探索可能な3Dシーンに変換する、パノラマニックNeRF(PERF)を紹介します

NeRFは、2D画像から3Dシーンの再構築と視点合成を行うためのディープラーニング技術です。正確な3D表現を構築するには、通常...

機械学習

このAI論文は、イギリスのインペリアルカレッジロンドンとEleuther AIが対話エージェントの行動を理解するための枠組みとしてロールプレイを探究しています

“`html 現代社会では、人工知能(AI)の統合が人間の相互作用を根本的に変えています。ChatGPTなどの大規模言語モデル...

人工知能

「セールスとマーケティングのためのトップな予測分析ツール(2023年)」

マーケティングに適用される場合、予測分析は過去と現在のデータを調べて将来の結果を予測することを意味します。この方法は...

機械学習

メタAIは、CM3leonを紹介します:最先端のテキストから画像生成を提供し、比類のない計算効率を実現するマルチモーダルのゲームチェンジャー

自然言語処理とテキスト入力に基づいた視覚生成システムは、最近、生成型AIモデルへの新たな関心を引き起こしています。最近...

機械学習

EAGLEをご紹介します:圧縮に基づく高速LLMデコードのための新しい機械学習手法

ChatGPTのような大規模言語モデル(LLM)は、さまざまな言語関連タスクでその手腕を発揮し、自然言語処理を革命化しました。...

機械学習

「Embroid」を紹介します:複数の小さなモデルから埋め込み情報を組み合わせるAIメソッドで、監視なしでLLMの予測を自動的に修正することができます

もしも、薬や医療歴に基づいた基本的なデータ分析を行うための言語モデル(LM)をプログラムしたとしたら、機械学習モデルの...