「このAI研究は、姿勢オブジェクト認識を次のトークン予測として新しいアプローチを提案します」という意味です

「新たなアプローチとしての姿勢オブジェクト認識の次のトークン予測」とはどのような意味か

どのようにして効果的に物体認識にアプローチできるのでしょうか? Meta AIとメリーランド大学の研究チームは、画像埋め込みからテキストトークンを予測してラベルを形成するために言語デコーダを利用する新しい手法を開発し、物体認識の問題に取り組みました。また、パフォーマンスを損なうことなく、より効率的なデコーダの作成戦略も提案しました。

深層学習時代以前から存在した物体認識は、画像注釈に貢献してきました。領域のスライシングや単語の予測などの手法を用いて、領域と単語を語彙に基づいて結びつけました。画像とテキストを共有空間に共同埋め込みすることで、画像とテキストのマッチングに取り組み、フレーズのグラウンディングを強調しました。画像注釈はトピックモデルからトランスフォーマベースのアーキテクチャへ進化しました。GPTやLLaMAなどの言語モデルは視覚認識に貢献し、検出、フューショット認識、説明、推論などに応用されました。言語モデルからの建築的な概念、例えばプレフィックスのアイデアなどは、ビジョン-言語ドメインで影響を与え、探索されてきました。

この研究は、画像エンコーダが埋め込みを生成し、言語デコーダが物体のラベルを予測するフレームワークを導入することによって、コンピュータビジョンにおける物体認識に取り組んでいます。従来の固定埋め込みを持つ従来の手法とは異なり、提案手法では認識を次のトークンの予測として扱い、画像の埋め込みからタグの自己回帰的なデコーディングを可能にします。この手法により、事前に定義されたラベルの必要性がなくなり、柔軟で効率的な認識が促進されます。非因果的な注意マスクやコンパクトなデコーダなどの主要な革新は、パフォーマンスを損なうことなく効率を向上させ、コンピュータビジョンにおける物体認識への新しい解決策を提供します。

研究では、次のトークン予測に基づく物体認識に関する手法を提案し、画像埋め込みからテキストトークンを予測してラベルを作成する言語デコーダを使用します。デコーダは非因果的な注意マスクを組み込んで自己回帰を行い、画像トークンをプレフィックスとして扱います。推論時には、複数のラベルから並列トークンサンプリングを行い、確率に基づいてランキングします。効率性のために、事前学習された言語モデルから中間ブロックを削除するコンパクトなデコーダ構築戦略が提案されていますが、パフォーマンスは保持されます。

研究はCLIP、Open Flamingo、LLaVA、BLIP-2、InstructBLIP、CaSEDと比較し、トップ-kの予測と適合率-再現率曲線を評価しています。提案手法はトップ10の予測で競合他社を一貫して上回り、ラベル生成の優れた関連性を示しています。適合率-再現率曲線は強い線形相関を示し、kが増加するにつれて高い再現率が得られ、データセット全体で予測品質が向上していることを示唆しています。デコーダの切り詰めによる摘出解析に関する研究では、CC3Mではわずかなパフォーマンスの低下が見られましたが、COCOとOpenImagesでは変化がありませんでした。これは、物体認識のための初期のLLaMA 7Bモデルブロックの重要性を強調し、よりコンパクトなデコーダのために11番目以降のブロックを削除することを示しています。

結論として、提案された次のトークン予測を活用した自己回帰的な物体認識手法は、データセット全体でトップ10の予測を生成する他の手法よりも優れた関連性を示しています。適合率-再現率曲線で観察される強い線形相関は、すべてのテストデータセットで予測品質が向上していることを示唆しています。デコーダの切り詰めに関する摘出解析の研究では、CC3Mではわずかなパフォーマンスの低下が見られましたが、COCOとOpenImagesでは変化がありませんでした。また、LLaMAモデルの中間トランスフォーマーブロックを削除することで、よりコンパクトなデコーダが得られ、パフォーマンスも保持されました。これは、物体認識においてLLMの一部の知識の重要性を強調しています。

さらなる研究では、一回のサンプリングでの競合の懸念に対処するため、緩和策を探索することに焦点を当てることができます。他の可能性としては、事前に定義されたサブセットや参照ピボットなしで、特にLLMと物体認識を直接的に結びつける生成モデルの直接のアライメントを調査することがあります。また、訓練データのボリュームを大幅に増やして、未知のデータや概念を解釈または認識するための依存度を減らす効果を検証することも有益であり、時間の経過とともに新しいラベルを増やしていくオープンワールドのパラダイムと一致しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

スタンフォードの研究者が「予測音楽トランスフォーマー」を紹介:音楽作曲における創造的な制御を向上させる画期的なAIツール

美しい画像や感動的なエッセイを生成するジェネレーティブAIは、多くの場合、ユーザーにはほとんど制御が残されません。一部...

AI研究

AIを使用してAI画像の改ざんを防ぐ

「PhotoGuard」は、MIT CSAILの研究者によって開発されたもので、不正な画像操作を防ぎ、高度な生成モデルの時代において信頼...

機械学習

機械学習モデルのための高度な特徴選択技術

特徴選択のマスタリング:教師あり・教師なし機械学習モデルの高度な技術の探求

機械学習

「機械学習における特徴エンジニアリングへの実践的なアプローチ」

この記事では、機械学習における特徴学習の重要性と、それを簡単で実践的な手順で実装する方法について説明しました

機械学習

「大規模言語モデルの品質をどのように向上させることができるのか? PIT:暗黙の自己改善フレームワークに会ってください」

LLMは、数学的な推論、要約、会話、スキーマの導出、ドメイン固有の問題解決など、さまざまな複雑なタスクで最先端の結果を達...

データサイエンス

ノースウェスタン大学の研究者は、AIのエネルギー使用量を99%削減したオフグリッド医療データの分類のための画期的な機械学習フレームワークを提案しました

最近、ノースウェスタン大学の研究者たちは、特に心電図(ECG)の解釈の文脈で、オフグリッド医療データの分類と診断に画期的...