「このAI研究は、姿勢オブジェクト認識を次のトークン予測として新しいアプローチを提案します」という意味です

「新たなアプローチとしての姿勢オブジェクト認識の次のトークン予測」とはどのような意味か

どのようにして効果的に物体認識にアプローチできるのでしょうか? Meta AIとメリーランド大学の研究チームは、画像埋め込みからテキストトークンを予測してラベルを形成するために言語デコーダを利用する新しい手法を開発し、物体認識の問題に取り組みました。また、パフォーマンスを損なうことなく、より効率的なデコーダの作成戦略も提案しました。

深層学習時代以前から存在した物体認識は、画像注釈に貢献してきました。領域のスライシングや単語の予測などの手法を用いて、領域と単語を語彙に基づいて結びつけました。画像とテキストを共有空間に共同埋め込みすることで、画像とテキストのマッチングに取り組み、フレーズのグラウンディングを強調しました。画像注釈はトピックモデルからトランスフォーマベースのアーキテクチャへ進化しました。GPTやLLaMAなどの言語モデルは視覚認識に貢献し、検出、フューショット認識、説明、推論などに応用されました。言語モデルからの建築的な概念、例えばプレフィックスのアイデアなどは、ビジョン-言語ドメインで影響を与え、探索されてきました。

この研究は、画像エンコーダが埋め込みを生成し、言語デコーダが物体のラベルを予測するフレームワークを導入することによって、コンピュータビジョンにおける物体認識に取り組んでいます。従来の固定埋め込みを持つ従来の手法とは異なり、提案手法では認識を次のトークンの予測として扱い、画像の埋め込みからタグの自己回帰的なデコーディングを可能にします。この手法により、事前に定義されたラベルの必要性がなくなり、柔軟で効率的な認識が促進されます。非因果的な注意マスクやコンパクトなデコーダなどの主要な革新は、パフォーマンスを損なうことなく効率を向上させ、コンピュータビジョンにおける物体認識への新しい解決策を提供します。

研究では、次のトークン予測に基づく物体認識に関する手法を提案し、画像埋め込みからテキストトークンを予測してラベルを作成する言語デコーダを使用します。デコーダは非因果的な注意マスクを組み込んで自己回帰を行い、画像トークンをプレフィックスとして扱います。推論時には、複数のラベルから並列トークンサンプリングを行い、確率に基づいてランキングします。効率性のために、事前学習された言語モデルから中間ブロックを削除するコンパクトなデコーダ構築戦略が提案されていますが、パフォーマンスは保持されます。

研究はCLIP、Open Flamingo、LLaVA、BLIP-2、InstructBLIP、CaSEDと比較し、トップ-kの予測と適合率-再現率曲線を評価しています。提案手法はトップ10の予測で競合他社を一貫して上回り、ラベル生成の優れた関連性を示しています。適合率-再現率曲線は強い線形相関を示し、kが増加するにつれて高い再現率が得られ、データセット全体で予測品質が向上していることを示唆しています。デコーダの切り詰めによる摘出解析に関する研究では、CC3Mではわずかなパフォーマンスの低下が見られましたが、COCOとOpenImagesでは変化がありませんでした。これは、物体認識のための初期のLLaMA 7Bモデルブロックの重要性を強調し、よりコンパクトなデコーダのために11番目以降のブロックを削除することを示しています。

結論として、提案された次のトークン予測を活用した自己回帰的な物体認識手法は、データセット全体でトップ10の予測を生成する他の手法よりも優れた関連性を示しています。適合率-再現率曲線で観察される強い線形相関は、すべてのテストデータセットで予測品質が向上していることを示唆しています。デコーダの切り詰めに関する摘出解析の研究では、CC3Mではわずかなパフォーマンスの低下が見られましたが、COCOとOpenImagesでは変化がありませんでした。また、LLaMAモデルの中間トランスフォーマーブロックを削除することで、よりコンパクトなデコーダが得られ、パフォーマンスも保持されました。これは、物体認識においてLLMの一部の知識の重要性を強調しています。

さらなる研究では、一回のサンプリングでの競合の懸念に対処するため、緩和策を探索することに焦点を当てることができます。他の可能性としては、事前に定義されたサブセットや参照ピボットなしで、特にLLMと物体認識を直接的に結びつける生成モデルの直接のアライメントを調査することがあります。また、訓練データのボリュームを大幅に増やして、未知のデータや概念を解釈または認識するための依存度を減らす効果を検証することも有益であり、時間の経過とともに新しいラベルを増やしていくオープンワールドのパラダイムと一致しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

Google Quantum AIの研究者が、拡張性のある量子エラー訂正のための漏洩管理において大きな進展を達成

最近、Google Quantum AIと他の研究機関の研究者がNature Physicsに発表した論文で、量子コンピューティングにおける重要な課...

AI研究

マイクロソフトの研究者が提案するTaskWeaver:LLMを活用した自律エージェントの構築のためのコード優先の機械学習フレームワーク

大規模言語モデル(LLMs)は、印象的な自然言語生成および解釈能力を示しています。これらのモデルの例には、GPT、Claude、Pa...

データサイエンス

「関係深層学習ベンチマーク(RelBench)に出会ってください:関係データベース上の機械学習のためのリアルな、大規模で多様なベンチマークデータセットのコレクション」

人工知能(AI)と機械学習(ML)の急速な進歩の分野において、効果的で自動化され、適応性のある手法を見つけることは非常に...

AIニュース

激しい天候に対するスマートな緊急対応

新しいシステムは、気候関連の災害から生じる交通混雑を考慮しながら、救急サービスが通報に対応する最速ルートを計算します

機械学習

AI vs. 予測分析:包括的な分析

人工知能(AI)と予測分析は、すべてのビジネスの運営方法を再構築しています。この記事では、AIと予測分析のエンジニアリン...

データサイエンス

ロボットを教えるためのより速い方法

「新しい技術は、非技術者がなぜロボットが失敗したのかを理解し、そして最小限の努力でタスクを効果的に実行するために微調...