「CMUの研究者がBUTD-DETRを導入:言語発話に直接依存し、発話で言及されるすべてのオブジェクトを検出する人工知能(AI)モデル」

CMU researchers introduce BUTD-DETR an AI model that directly relies on language speech to detect all objects mentioned in the speech.

画像内のすべての「オブジェクト」を見つけることは、コンピュータビジョンの基礎です。カテゴリの語彙を作成し、この語彙のインスタンスを認識するモデルを訓練することで、「オブジェクトとは何か?」という問いに回答することができます。これらのオブジェクト検出器を実用的なホームエージェントとして使用しようとすると、問題が発生します。モデルは、2Dまたは3Dの設定で指示的な発話を視覚的に関連付ける場合、事前に訓練された検出器が提供するオブジェクトの候補のプールから参照されたアイテムを選択することを学習します。その結果、検出器は、椅子、椅子の脚、または椅子の脚の先端など、より詳細な視覚的なものに関連する発話を見逃す場合があります。

研究チームは、ボトムアップ、トップダウンの検出トランスフォーマー(BUTD-DETR、発音:ビューティーデター)を、口述発話に直接条件付け、言及されたすべてのアイテムを見つけるモデルとして提案します。 BUTD-DETRは、発話がオブジェクトカテゴリのリストである場合、通常のオブジェクト検出器として機能します。モデルは、画像と言語のペアリングにトレーニングされ、発話で言及されたすべてのアイテムの境界ボックス、および固定語彙のオブジェクト検出データセット付きのタグが付いています。ただし、いくつかの調整を加えることで、BUTD-DETRは3Dポイントクラウドと2D画像で言語フレーズをアンカーすることもできます。

プールからランダムに選択する代わりに、BUTD-DETRは言語的および視覚的な入力に注意を払ってオブジェクトボックスをデコードします。ボトムアップでタスク非依存の注意は、アイテムの位置を特定する際に細部を見落とす場合がありますが、言語指向の注意がそのギャップを埋めます。モデルには、シーンと口述発話が入力として使用されます。既にトレーニングされた検出器を使用してボックスの提案が抽出されます。次に、パーカテゴリ固有のエンコーダを使用して、シーン、ボックス、および音声から視覚的な、ボックス、および言語的なトークンが抽出されます。これらのトークンは、お互いに注意を払うことで、その文脈内で意味を持ちます。洗練された視覚チケットは、多くのストリームにわたってボックスをデコードし、広がります。

オブジェクト検出の実践は、検出されるもののカテゴリラベルであるという、根拠のある指示的な言語の例です。研究者は、オブジェクト検出を、検出器の語彙から特定のオブジェクトカテゴリをランダムに選択し、それらをシーケンスして合成発話を生成することによって、検出促進の根拠として使用します(たとえば、「ソファ、人、椅子」といったもの)。これらの検出のヒントは、補足的な監督情報として使用され、目標は、シーン内で指定されたカテゴリラベルのすべての出現を見つけることです。モデルは、視覚的な入力例がないカテゴリラベル(上記の例では「人」など)に対してボックスの関連付けを行わないように指示されます。このアプローチでは、単一のモデルが言語を根拠にし、オブジェクトを認識することができ、両方のタスクのための同じトレーニングデータを共有します。

成果

開発されたMDETR-3Dと同等のものは、以前のモデルと比較して性能が低いですが、BUTD-DETRは3D言語グラウンディングで最先端のパフォーマンスを実現しています。

BUTD-DETRは2Dドメインでも機能し、変形可能な注意などのアーキテクチャの向上により、MDETRと同等のパフォーマンスを達成すると同時に、収束時間を2倍に短縮します。このアプローチは、2Dおよび3Dのグラウンディングモデルを統一する一歩を踏み出しており、少ない修正で両方の次元で機能するように簡単に適応できます。

3D言語グラウンディングのすべてのベンチマークでは、BUTD-DETRは最先端の手法(SR3D、NR3D、ScanRefer)に比べて大幅なパフォーマンス向上を示しています。さらに、ECCVのLanguage for 3D Scenesワークショップで行われたReferIt3Dコンペティションでは、最優秀の投稿であった。ただし、大規模なデータでトレーニングされた場合、BUTD-DETRは2D言語グラウンディングのベンチマークでも最高の既存手法と競合する可能性があります。具体的には、研究者の効率的な変形可能な注意により、2Dモデルは最先端のMDETRと比べて収束時間を2倍速くすることができます。

以下のビデオでは、完全なワークフローについて説明しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ゲーム業界の皆様へ!もう奇妙な鏡は不要です、Mirror-NeRFが登場しました!

NeRF(ニューラル・ラディアンス・フィールド)は、RNNとCNNの組み合わせを使用して、形状、材質、テクスチャなどの物体の物...

データサイエンス

AI増強ソフトウェアエンジニアリング:知っておくべきすべてのこと

この包括的なガイドで、AIを活用したソフトウェアエンジニアリングの急速に成長する分野について学び、どのようにソフトウェ...

データサイエンス

「ChatGPTコードインタプリタを使用して、人道支援データの非構造化Excelテーブルを分析する」

新しい実験的な機能「コードインタプリター」は、ChatGPTの使用の一環としてPythonコードの生成と実行をネイティブにサポート...

AI研究

ペンシルバニア大学の研究者が、軽量で柔軟、モデルに依存しないオープンソースのAIフレームワーク「Kani」を導入し、言語モデルアプリケーションの構築を行います

大規模言語モデルの応用は人気が高まっています。その驚異的な能力により、ますます洗練されてきています。ツールの使用追跡...

AIテクノロジー

「30+ AI ツールスタートアップのための(2023年12月)」

AIによって、職場での創造力、分析力、意思決定力が革新されています。現在、人工知能の能力は、企業が成長を促進し、内部プ...

機械学習

一緒にAIを学びましょう−Towards AIコミュニティニュースレター#5

おはようございます、AI愛好家の皆さん!今週のポッドキャストのエピソードは必聴で、これまでの24エピソードの中でも一番優...