UCLAとGoogleの研究者が、AVISという画像質問応答の自律情報検索のための画期的なAIフレームワークを提案しています
UCLA and Google researchers propose a groundbreaking AI framework called AVIS for autonomous information retrieval in image question-answering.
GPT3、LaMDA、PALM、BLOOM、LLaMAは、膨大な情報を保存し適用する能力を示した大規模言語モデル(LLM)の一部の例です。インコンテキスト学習、コード作成、常識的な推論といった新しいスキルが表示されます。最近の取り組みは、LLMを視覚と言語のデータを同時に処理できるようにトレーニングすることです。GPT4、Flamingo、PALIは、VLMの3つの優れた例です。それらは、ピクチャーキャプショニング、ビジュアルクエスチョンアンサリング、オープンボキャブラリ認識などの多くのタスクにおいて新たな基準を確立しました。最先端のLLMは、テキスト情報検索に関するタスクで人間よりも優れた成績を収めますが、最先端のVLMは、Infoseek、Oven、OK-VQAなどの視覚情報検索データセットに苦戦しています。
さまざまな理由から、現在の最先端のビジョン言語モデル(VLM)は、そのような問い合わせに十分な応答をすることは困難です。子供たちは、画像の細かいカテゴリや詳細を認識することを学ぶ必要があります。第二に、彼らの推論はより堅牢でなければなりません、なぜなら彼らは最新の大規模言語モデル(LLM)よりも小さい言語モデルを使用しているからです。最後に、彼らは画像検索エンジンとは異なり、さまざまなメタデータでタグ付けされた大量の画像コーパスとクエリ画像を調べません。この研究では、カリフォルニア大学ロサンゼルス校(UCLA)とGoogleの研究者が、LLMと3つの異なるタイプのツールを統合することで、視覚情報検索のタスクで最先端のパフォーマンスを実現する新しいアプローチを提供しています。
- 視覚情報抽出を支援するコンピュータプログラムには、オブジェクト検出器、光学文字認識ソフトウェア、ピクチャーキャプショニングモデル、視覚品質評価ソフトウェアが含まれます。
- 外部の世界に関するデータと情報を発見するためのオンラインリソース
- 視覚的に関連する画像のメタデータをマイニングして、画像検索の関連結果を見つける方法。
この手法では、LLMによって駆動されるプランナーが、必要なツールとそれに送信するクエリを動的に決定するために使用されます。さらに、研究者は、LLMによって結果を調べ、関連するデータを引き出すためにLLMによって駆動されるリーズナーを使用します。
- 「強力な遺産:研究者の母が核融合への情熱をかきたてる」
- 「マイクロソフトリサーチがAIコンパイラを1つではなく、2つでもなく、4つも新たに紹介」
- この人工知能(AI)の研究では、SAMを医療用2D画像に適用するための最も包括的な研究である、SAM-Med2Dを提案しています
まず、LLMはクエリを戦略、プログラム、または一連の命令に単純化します。その後、適切なAPIを活性化してデータを収集します。このアプローチは、単純な視覚言語の課題では有望ですが、より複雑な現実のシナリオでは改訂が必要です。このような初期のクエリから包括的な戦略を決定することはできません。代わりに、進行中のデータに応じて継続的な反復を必要とします。現場での意思決定能力が提案された戦略の主要なイノベーションです。視覚情報を必要とする質問の計画は、課題の複雑さのため、複数のステップで行われます。プランナーは、各段階でどのAPIを使用するか、どのクエリを提出するかを決定する必要があります。画像検索などの高度なAPIの回答の有用性を予測することしかできず、それらを呼び出した後の出力を予測することしかできません。したがって、研究者は、アップフロントのプロセス段階とAPI呼び出しの計画を含む従来の方法ではなく、ダイナミックな戦略を選択します。
研究者は、APIとのやり取りで人々がどのように選択を行うかを理解するためのユーザースタディを実施します。この情報を体系的なフレームワークにまとめることで、大規模言語モデル(LLM)がAPIの選択とクエリの作成を決定するための根拠を提供します。収集されたユーザーデータがシステムにもたらす2つの主な利点があります。まず、ユーザーアクションの順序を推論して遷移グラフを構築します。このグラフは、状態間の境界と各状態で実行できる手順を定義します。第二に、プランナーとリーズナーに有用なユーザーの意思決定の具体例を提供します。
主な貢献
- チームは革新的なビジュアルクエスチョンアンサリングフレームワークを提案し、大規模言語モデル(LLM)を使用して外部ツールの動的な戦略立案とその出力の調査を行うことで、質問に対する回答を提供するために必要な知識を学習します。
- チームは人々が意思決定を行う方法に関するユーザースタディからの知見を活用して、体系的な計画を作成します。このフレームワークは、大規模言語モデル(LLM)に、APIの選択とクエリの構築において人間の意思決定を模倣するよう指示します。
- この戦略は、知識ベースのビジュアルクエスチョンアンサリングの2つのベンチマークであるInfoseekとOK-VQAで、最先端のソリューションを上回っています。特に、PALIのInfoseek(未知のエンティティ分割)データセットでの16.0%の正答率に対して、私たちの結果は50.7%と大幅に高いです。
APIとその他のツール
AVIS(Autonomous Visual Information Seeking with Large Language Models)は、適切な詳細な情報検索を必要とする視覚的な問い合わせに応えるために、堅牢なリソースセットが必要です。
- 画像キャプションモデル
- 視覚的な質問応答モデル
- 物体検出
- 画像検索
- OCR(光学文字認識)
- Web検索
- LLM Short QA
制限事項
現在、AVISの主な機能は質問に対する視覚的な応答を提供することです。研究者たちは、LLMによる動的な意思決定システムの範囲を広げて、追加の推論アプリケーションを組み込む予定です。現在のフレームワークは、計算上複雑なLLMであるPALMモデルも必要としています。彼らは、より小さな、計算負荷の軽い言語モデルでも同じような意思決定ができるかどうかを調査したいと考えています。
要約すると、UCLAとGoogleの研究者は、Large Language Models(LLM)が視覚的な知識クエリの処理に幅広いリソースへのアクセスを持つ新しい手法を提案しました。この方法論は、人間の意思決定に関するユーザースタディデータに基づいています。LLMによるプランナーが、どのツールを利用し、どのようにクエリを構築するかを選択するための構造化されたフレームワークを使用します。選択されたツールの出力は処理され、9つのLLMによってパワードされたリーズナーが主要な情報を抽出します。視覚的な質問は小さな部分に分解され、プランナーとリーズナーが各部分を解決するためにさまざまなツールを使用して問題に十分なデータを蓄積するまで連携します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このAI研究は、「ComCLIP:組成画像とテキストの整列におけるトレーニングフリーな方法」を公開しています
- 「UCSCとTU Munichの研究者が、余震を予測するための新しいディープラーニングベースのモデルであるRECASTを提案する」
- 「ハロー効果:AIがサンゴ礁保護に深く関与する」
- バイトダンスとUCSDの研究者は、与えられたテキストからオブジェクト/シーンのセットのマルチビュー画像を生成することができるマルチビュー拡散モデルを提案しています
- 「リサーチアナリストになるには? 職務内容、必要なスキル、給与」
- マイクロソフトリサーチがAIコンパイラの「ヘビーメタルカルテット」である「Rammer」「Roller」「Welder」「Grinder」をリリースしました
- 韓国の研究者がVITS2を提案:自然さと効率性の向上のためのシングルステージのテキスト読み上げモデルにおける飛躍的な進歩