「CMUの研究者がBUTD-DETRを導入:言語発話に直接依存し、発話で言及されるすべてのオブジェクトを検出する人工知能(AI)モデル」
CMU researchers introduce BUTD-DETR an AI model that directly relies on language speech to detect all objects mentioned in the speech.
画像内のすべての「オブジェクト」を見つけることは、コンピュータビジョンの基礎です。カテゴリの語彙を作成し、この語彙のインスタンスを認識するモデルを訓練することで、「オブジェクトとは何か?」という問いに回答することができます。これらのオブジェクト検出器を実用的なホームエージェントとして使用しようとすると、問題が発生します。モデルは、2Dまたは3Dの設定で指示的な発話を視覚的に関連付ける場合、事前に訓練された検出器が提供するオブジェクトの候補のプールから参照されたアイテムを選択することを学習します。その結果、検出器は、椅子、椅子の脚、または椅子の脚の先端など、より詳細な視覚的なものに関連する発話を見逃す場合があります。
研究チームは、ボトムアップ、トップダウンの検出トランスフォーマー(BUTD-DETR、発音:ビューティーデター)を、口述発話に直接条件付け、言及されたすべてのアイテムを見つけるモデルとして提案します。 BUTD-DETRは、発話がオブジェクトカテゴリのリストである場合、通常のオブジェクト検出器として機能します。モデルは、画像と言語のペアリングにトレーニングされ、発話で言及されたすべてのアイテムの境界ボックス、および固定語彙のオブジェクト検出データセット付きのタグが付いています。ただし、いくつかの調整を加えることで、BUTD-DETRは3Dポイントクラウドと2D画像で言語フレーズをアンカーすることもできます。
プールからランダムに選択する代わりに、BUTD-DETRは言語的および視覚的な入力に注意を払ってオブジェクトボックスをデコードします。ボトムアップでタスク非依存の注意は、アイテムの位置を特定する際に細部を見落とす場合がありますが、言語指向の注意がそのギャップを埋めます。モデルには、シーンと口述発話が入力として使用されます。既にトレーニングされた検出器を使用してボックスの提案が抽出されます。次に、パーカテゴリ固有のエンコーダを使用して、シーン、ボックス、および音声から視覚的な、ボックス、および言語的なトークンが抽出されます。これらのトークンは、お互いに注意を払うことで、その文脈内で意味を持ちます。洗練された視覚チケットは、多くのストリームにわたってボックスをデコードし、広がります。
- 「バイトダンスAI研究は、連続および離散パラメータのミックスを使用して、高品質のスタイル化された3Dアバターを作成するための革新的な自己教師あり学習フレームワークを提案しています」
- 画像分類において、拡散モデルがGANより優れていることがAI研究で明らかになりましたこの研究では、BigBiGANなどの同等の生成的識別的手法に比べて、拡散モデルが分類タスクにおいて優れた性能を発揮することが示されました
- 「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」
オブジェクト検出の実践は、検出されるもののカテゴリラベルであるという、根拠のある指示的な言語の例です。研究者は、オブジェクト検出を、検出器の語彙から特定のオブジェクトカテゴリをランダムに選択し、それらをシーケンスして合成発話を生成することによって、検出促進の根拠として使用します(たとえば、「ソファ、人、椅子」といったもの)。これらの検出のヒントは、補足的な監督情報として使用され、目標は、シーン内で指定されたカテゴリラベルのすべての出現を見つけることです。モデルは、視覚的な入力例がないカテゴリラベル(上記の例では「人」など)に対してボックスの関連付けを行わないように指示されます。このアプローチでは、単一のモデルが言語を根拠にし、オブジェクトを認識することができ、両方のタスクのための同じトレーニングデータを共有します。
成果
開発されたMDETR-3Dと同等のものは、以前のモデルと比較して性能が低いですが、BUTD-DETRは3D言語グラウンディングで最先端のパフォーマンスを実現しています。
BUTD-DETRは2Dドメインでも機能し、変形可能な注意などのアーキテクチャの向上により、MDETRと同等のパフォーマンスを達成すると同時に、収束時間を2倍に短縮します。このアプローチは、2Dおよび3Dのグラウンディングモデルを統一する一歩を踏み出しており、少ない修正で両方の次元で機能するように簡単に適応できます。
3D言語グラウンディングのすべてのベンチマークでは、BUTD-DETRは最先端の手法(SR3D、NR3D、ScanRefer)に比べて大幅なパフォーマンス向上を示しています。さらに、ECCVのLanguage for 3D Scenesワークショップで行われたReferIt3Dコンペティションでは、最優秀の投稿であった。ただし、大規模なデータでトレーニングされた場合、BUTD-DETRは2D言語グラウンディングのベンチマークでも最高の既存手法と競合する可能性があります。具体的には、研究者の効率的な変形可能な注意により、2Dモデルは最先端のMDETRと比べて収束時間を2倍速くすることができます。
以下のビデオでは、完全なワークフローについて説明しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 新しいAI研究が、大規模言語モデル(LLMs)の能力を分析するためのプロンプト中心のアプローチを提案しています
- 清華大学の研究者たちは、メタラーニングの枠組みの下で新しい機械学習アルゴリズムを紹介しました
- UCサンタクルーズとSamsungの研究者が、ナビゲーションの決定にChatGPTのようなLLM(言語モデル)で共通センスを活用するゼロショットオブジェクトナビゲーションエージェントであるESCを紹介しました
- 新しいAI研究が、転移学習のためのマルチタスクプロンプトチューニング(MPT)を紹介します
- ネゲヴのベン・グリオン大学の研究者たちは、社会的規範の違反を特定するAIシステムを設計しました
- 中国からの新しいAI研究は、機械学習の手法と質問を組み合わせることで、指導者と学生の関係のつながりに新たな次元を明らかにします
- 「人間の知能の解読:スタンフォードの最新のAI研究は、生来の数の感覚は学びのスキルなのか、自然の贈り物なのかを問いかける」