「AVIS内部:Googleの新しい視覚情報検索LLM」

AVIS内部:Googleの新しい視覚情報検索LLM

新しいモデルは、ウェブ検索、コンピュータビジョン、画像検索と組み合わせてLLMを使用し、驚くべき結果を達成します。

Midjourneyを使用して作成

最近、AIに特化した教育ニュースレターを開始しました。現在、16万人以上の購読者がいます。TheSequenceは、5分で読める、ノン・ヒュープ、ノン・ニュースなどのML指向のニュースレターです。目標は、機械学習のプロジェクト、研究論文、概念について最新の情報を提供することです。以下のリンクから購読して試してみてください:

TheSequence | Jesus Rodriguez | Substack

機械学習、人工知能、データの進展について最新情報を入手するための最良の情報源…

thesequence.substack.com

マルチモーダリティは、ファンデーションモデルの研究の中で最も注目されている分野の1つです。GPT-4などのモデルがマルチモーダルなシナリオで驚異的な進展を示しているにもかかわらず、この領域にはまだ多くの課題が残っています。その中でも、特定の質問に答えるために外部の知識が必要な視覚情報検索タスクは、その1つです。Google Researchは、「大規模言語モデル(LLM)を用いた自律型視覚情報検索」という論文で、視覚情報の検索に関連するタスクで興味深い結果を得るための新しい手法を提案しています。この手法は、以下の3つの異なるカテゴリのツールとLLMを統合しています:1)コンピュータビジョンツールは、画像から視覚データを抽出するために使用されます。2)ウェブ検索ツールは、広範なオープンワールドの知識や事実から情報を取得するために利用されます。3)画像検索ツールは、視覚的に類似した画像に関連するメタデータから適切な詳細を抽出するために活用されます。これらの3つの組み合わせにより、LLMによるプランナーが各ステップごとに適切なツールとクエリを決定する技術が実現します。さらに、LLMパワードのリーズナーがツールの出力を検証し、重要な洞察を抽出します。プロセス全体で、機能的なメモリモジュールが情報を保持し保存します。

背景

GoogleのAVISのアイデアは、最近の研究領域に基づいています。Chameleon、ViperGPT、MM-ReActなどの最近の探索では、LLMにマルチモーダルな入力の補完ツールを組み込むことに焦点を当てています。これらのシステムは、計画と実行の2つのステージで動作します。計画では、質問を構造化された指示に分解することが含まれ、実行ではツールを使用して情報を収集します。このアプローチは、初歩的なタスクでは成功を収めていますが、複雑な現実世界のシナリオに直面するとしばしば失敗します。

画像クレジット:Google Research

また、WebGPTやReActなどのLLMを自律エージェントとして利用することにも関心が集まっています。これらのエージェントは環境との対話を行い、リアルタイムのフィードバックに基づいて適応し目標を達成します。ただし、これらの手法では、各段階で利用できるツールの種類に制約がないため、検索空間が広範になります。その結果、最も高度なLLMでも無限ループに陥ったり、エラーを伝播したりすることがあります。AVISメソッドは、ユーザースタディから得られた人間の意思決定に影響を受けたガイド付きLLMアプリケーションによって、この問題に対処します。

InfoseekやOK-VQAなどのデータセット内の多数の視覚クエリは、しばしば人間の応答者にとっても課題となり、多様なツールやAPIの支援を必要とします。外部ツールを使用する際の人間の意思決定を理解するために、ユーザースタディが実施されました。

参加者はAVISメソッドで使用されるPALI、PaLM、ウェブ検索などと同じセットのツールを装備しました。入力画像、質問、切り抜かれたオブジェクト画像、および画像検索の結果へのリンクが提供されました。これらのボタンは、切り抜かれたオブジェクト画像に関するさまざまな情報を提供しました。例えば、知識グラフ内のエンティティ、類似画像のキャプション、関連する商品タイトル、および同一の画像の説明などです。

ユーザーのアクションと出力は記録され、AVISシステムの参考として2つの重要な方法で使用されました。まず、ユーザーの連続した意思決定のシーケンスを分析して移行グラフが構築されました。このグラフは、各状態で利用可能なアクションの範囲を明示し、離散的な状態を示しています。たとえば、初期状態では、システムはPALIのキャプション、PALIのVQA、またはオブジェクト検出の3つのアクションに制限されます。次に、人間の意思決定の例をプランナーとリーズナー内で利用して、AVISシステムを導くための関連する文脈のインスタンスを与え、パフォーマンスと効果を高めました。

画像クレジット:Google Research

AVISの内部

AVISでは、Google Researchは視覚情報を求めるクエリに特化した動的アプローチを採用しています。この方法論は、システムのアーキテクチャ内の3つの基本的なコンポーネントで構成されています。1) 最初に、プランナーが指揮を取り、適切なAPI呼び出しと処理の対応するクエリを包括する次のアクションを解読します。2) 並行して、作業メモリモジュールがあり、APIの実行から生じる結果に関するデータを忠実に保存しています。3) 最後に、リーズナーがAPI呼び出しから生成された結果を精査するという重要な役割を果たします。この役割には、取得した情報が十分な価値があるかどうかを評価し、確定的な回答を提供できるか、さらなるデータの取得が必要かどうかを判断することが含まれます。

画像クレジット:Google Research

プランナーは、ツールの選択と対応するクエリの判断に関して、判決を下すたびに一連の手順に乗り出します。現在の状態に合わせて、プランナーは可能な次のアクションの配列を展開します。潜在的なアクションの幅は広範であり、検索空間での課題を提起します。このジレンマに対処するために、プランナーは遷移グラフを参照し、関係のないアクションを考慮から除外します。以前に実行され、作業メモリに記憶されたアクションも除外されます。

その後、プランナーは、ユーザースタディ中の人間の参加者によって以前に行われた判断から派生した関連する文脈のインスタンスの配列を組み立てます。これらのインスタンスと作業メモリにカプセル化されたデータの貯蔵庫を備えたプランナーは、プロンプトを作成します。このプロンプトはLLMに送られ、構造化された応答を提供します。この出力に基づいて、次にアクティベートするツールと関連するクエリが決定されます。この設計図により、プランナーはプロセス全体で再帰的にトリガーされることにより、初期のクエリに対処するために徐々に進行する動的な意思決定を実現します。

リーズナーは、ツールの実行結果を分析するために介入します。リーズナーは貴重な洞察を得て、ツールの出力が情報提供、情報不足、または結果的な応答のいずれに属するかを識別します。この手法は、リーズニングタスクのために適切なプロンプトと文脈のインスタンスをLLMと組み合わせることに依存しています。リーズナーが応答を生成する準備ができていると判断した場合、確定的な回答を適切に発行し、タスクを終了します。ツールの出力が無益である場合は、リーズナーは現在の状態に基づいて代替行動の選択のためにプランナーに委ねます。ツールの出力が示唆に富んでいる場合、リーズナーは状態のシフトを組織し、プランナーの権限を復活させ、新しい状態に基づいた新たな決定を促します。

結果

Googleは、InfoseekやOK-VQAなどの視覚情報検索のベンチマークでAIVSを評価しました。その結果は非常に印象的であり、微調整なしでも50%以上の精度を達成しました。

画像クレジット:Google Research

AVISの研究は、視覚情報検索モデルの新しいフレームワークに異なるアイデアを組み合わせています。Googleによってリリースされる新しいマルチモーダル基盤モデルの一環としてAVISが組み込まれることに驚かないでください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ヴェクタラは、AI言語モデルの「幻覚」をベンチマーク化し、対処するための画期的なオープンソースモデルを立ち上げます

急速に進化するGenerative AI(GenAI)領域での責任追及を促進する前例のない取り組みとして、Vectaraはオープンソースの幻覚...

機械学習

デビッドソンシーングラフにお会いください:高精度なテキストから画像へのAI評価のための革命的なAIフレームワーク

T2Iモデル(テキストから画像を生成するモデル)の評価は困難であり、しばしば質問生成と回答(QG/A)の手法に依存してテキス...

機械学習

このAIペーパーは、東京大学で深層学習を超新星シミュレーションの問題に応用しました

東京大学の研究者チームは、3D-Memory In Memory (3D-MIM) と呼ばれる深層学習モデルを開発しました。このモデルは、超新星(S...

AIニュース

Google Pixel Watchが落下を検知する方法

Google Pixel Watchの落下検知機能をスタントダブルからAIまでどのように構築したかを学びましょう

人工知能

AIを使ってYouTubeショートを作成する

AIツールを使えばYouTube Shortsを作るのが非常に簡単になりましたこの記事では、その方法を紹介します

機械学習

PyTorchを使った効率的な画像セグメンテーション:パート1

この4部作では、PyTorchを使用して深層学習技術を使った画像セグメンテーションをゼロから段階的に実装しますシリーズを開始...