「このAI研究は、姿勢オブジェクト認識を次のトークン予測として新しいアプローチを提案します」という意味です
「新たなアプローチとしての姿勢オブジェクト認識の次のトークン予測」とはどのような意味か
どのようにして効果的に物体認識にアプローチできるのでしょうか? Meta AIとメリーランド大学の研究チームは、画像埋め込みからテキストトークンを予測してラベルを形成するために言語デコーダを利用する新しい手法を開発し、物体認識の問題に取り組みました。また、パフォーマンスを損なうことなく、より効率的なデコーダの作成戦略も提案しました。
深層学習時代以前から存在した物体認識は、画像注釈に貢献してきました。領域のスライシングや単語の予測などの手法を用いて、領域と単語を語彙に基づいて結びつけました。画像とテキストを共有空間に共同埋め込みすることで、画像とテキストのマッチングに取り組み、フレーズのグラウンディングを強調しました。画像注釈はトピックモデルからトランスフォーマベースのアーキテクチャへ進化しました。GPTやLLaMAなどの言語モデルは視覚認識に貢献し、検出、フューショット認識、説明、推論などに応用されました。言語モデルからの建築的な概念、例えばプレフィックスのアイデアなどは、ビジョン-言語ドメインで影響を与え、探索されてきました。
この研究は、画像エンコーダが埋め込みを生成し、言語デコーダが物体のラベルを予測するフレームワークを導入することによって、コンピュータビジョンにおける物体認識に取り組んでいます。従来の固定埋め込みを持つ従来の手法とは異なり、提案手法では認識を次のトークンの予測として扱い、画像の埋め込みからタグの自己回帰的なデコーディングを可能にします。この手法により、事前に定義されたラベルの必要性がなくなり、柔軟で効率的な認識が促進されます。非因果的な注意マスクやコンパクトなデコーダなどの主要な革新は、パフォーマンスを損なうことなく効率を向上させ、コンピュータビジョンにおける物体認識への新しい解決策を提供します。
- 新しいCMUとMetaによるAI研究、PyNeRFの導入:スケールに意識したグリッドベースのレンダリングにおけるニューラル輝度場の進化
- マイクロソフトの研究者が提案するTaskWeaver:LLMを活用した自律エージェントの構築のためのコード優先の機械学習フレームワーク
- イリノイ大学の研究者は、コードのための完全なオープンソース大規模言語モデル(LLM)のシリーズであるマジコーダを紹介しました
研究では、次のトークン予測に基づく物体認識に関する手法を提案し、画像埋め込みからテキストトークンを予測してラベルを作成する言語デコーダを使用します。デコーダは非因果的な注意マスクを組み込んで自己回帰を行い、画像トークンをプレフィックスとして扱います。推論時には、複数のラベルから並列トークンサンプリングを行い、確率に基づいてランキングします。効率性のために、事前学習された言語モデルから中間ブロックを削除するコンパクトなデコーダ構築戦略が提案されていますが、パフォーマンスは保持されます。
研究はCLIP、Open Flamingo、LLaVA、BLIP-2、InstructBLIP、CaSEDと比較し、トップ-kの予測と適合率-再現率曲線を評価しています。提案手法はトップ10の予測で競合他社を一貫して上回り、ラベル生成の優れた関連性を示しています。適合率-再現率曲線は強い線形相関を示し、kが増加するにつれて高い再現率が得られ、データセット全体で予測品質が向上していることを示唆しています。デコーダの切り詰めによる摘出解析に関する研究では、CC3Mではわずかなパフォーマンスの低下が見られましたが、COCOとOpenImagesでは変化がありませんでした。これは、物体認識のための初期のLLaMA 7Bモデルブロックの重要性を強調し、よりコンパクトなデコーダのために11番目以降のブロックを削除することを示しています。
結論として、提案された次のトークン予測を活用した自己回帰的な物体認識手法は、データセット全体でトップ10の予測を生成する他の手法よりも優れた関連性を示しています。適合率-再現率曲線で観察される強い線形相関は、すべてのテストデータセットで予測品質が向上していることを示唆しています。デコーダの切り詰めに関する摘出解析の研究では、CC3Mではわずかなパフォーマンスの低下が見られましたが、COCOとOpenImagesでは変化がありませんでした。また、LLaMAモデルの中間トランスフォーマーブロックを削除することで、よりコンパクトなデコーダが得られ、パフォーマンスも保持されました。これは、物体認識においてLLMの一部の知識の重要性を強調しています。
さらなる研究では、一回のサンプリングでの競合の懸念に対処するため、緩和策を探索することに焦点を当てることができます。他の可能性としては、事前に定義されたサブセットや参照ピボットなしで、特にLLMと物体認識を直接的に結びつける生成モデルの直接のアライメントを調査することがあります。また、訓練データのボリュームを大幅に増やして、未知のデータや概念を解釈または認識するための依存度を減らす効果を検証することも有益であり、時間の経過とともに新しいラベルを増やしていくオープンワールドのパラダイムと一致しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Amazon AlexaのAI研究者がQUADRoを発表:QAシステムの向上に向けた画期的なリソースで、440,000以上のアノテーション付きの例があります
- 『Google AI Researchが効率的な連成振動子のシミュレーションに革新的な量子アルゴリズムを導入』
- 「DARPA資金による研究が量子コンピューティングの飛躍的進展をもたらす」
- マイクロソフトと清華大学の研究者は、「SCA(Segment and Caption Anything)を提案し、SAMモデルに地域キャプションの生成能力を効率的に装備する」と述べています
- このAI研究は、大規模言語モデルにおける不誠実さのメカニズムを明らかにする:プロンプトエンジニアリングとニューラルネットワーク分析に深く没入する
- アドビの研究者たちは、『DMV3D』という新しい3D生成手法を提案していますこの手法は、トランスフォーマーベースの3D大規模再構築モデルを用いて、マルチビューディフュージョンのノイズを除去します
- 「MITとAdobeの研究者が、一つのステップの画像生成器に拡散モデルを変換するための人工知能手法、Distribution Matching Distillation (DMD 分布マッチング蒸留) を紹介」