Allen Institute for AI の研究者が、自然言語の指示に基づいて複雑で構成的な視覚的タスクを解決するための神経記号アプローチである VISPROG を紹介します

Researchers from the Allen Institute for AI introduce VISPROG, a neural-symbolic approach to solving complex and compositional visual tasks based on natural language instructions.

汎用AIシステムを探すことで、熟練したエンドツーエンドトレーニングモデルの開発が促進され、多くのモデルがユーザーがモデルと対話するためのシンプルな自然言語インターフェースを提供することを目的としています。大規模な自己教示学習に続く監視多目的学習がこれらのシステムを開発するための最も一般的な方法でした。彼らは最終的に、これらのシステムが困難なジョブの無限長尾にスケールするように望んでいます。しかしながら、この戦略は各タスクについて慎重に選択されたデータセットが必要です。自然言語で述べられた困難なアクティビティを、エンドツーエンドトレーニングされた特殊なモデルや他のプログラムが処理できるように、より単純なフェーズに分解することにより、この作業では大言語モデルを使用して複雑なタスクの長い尾を処理する方法について研究しています。

「この画像からBig Bang Theoryの7人の主要キャラクターをタグ付けしてください」とコンピュータビジョンプログラムに伝えます。システムは、以下の手順を実行する前に、指示の目的を最初に理解する必要があります。顔を検出し、知識ベースからBig Bang Theoryの主要キャラクターのリストを取得し、キャラクターリストを使用して顔を分類し、認識されたキャラクターの名前と顔を画像にタグ付けします。いくつかのビジョンおよび言語システムが各タスクを実行できますが、自然言語タスクの実行はエンドツーエンドトレーニングシステムの範囲外です。

図1：組成ビジュアル推論のためのモジュラーで解釈可能なニューロシンボリックシステム-VISPROG。 VISPROGは、自然言語の指示の少数のインスタンスと必要な高レベルのプログラムが与えられたGPT-3内の文脈学習を使用して、新しい指示ごとにプログラムを作成し、プログラムを入力画像に実行して予測を取得します。さらに、VISPROGは中間出力を理解可能な視覚的な正当化に縮小します。知識検索、算術、論理操作のさまざまなモジュールを組み合わせる呼び出しを行うジョブを実行するためにVISPROGを使用します。また、画像の分析と操作にも使用します。

AI研究所の研究者は、VISPROGと呼ばれるプログラムを提案しました。このプログラムは、視覚情報（単一の画像または画像のコレクション）と自然言語命令を入力とし、一連の命令、すなわちビジュアルプログラムを作成し、これらの命令を実行して必要な結果を生成します。ビジュアルプログラムの各行は、システムが現在サポートしている多くのモジュールの1つを呼び出します。モジュールは、事前に構築された言語モデル、OpenCV画像処理サブルーチン、算術および論理演算子であることができます。また、事前に構築されたコンピュータビジョンモデルにすることもできます。コードの前の行を実行して生成された入力は、モジュールによって消費され、後で使用できる中間出力を生成します。

前述の例では、VISPROGが作成したビジュアルプログラムで、顔検出器、GPT-3を知識検索システムとして、CLIPをopen-vocabulary画像分類器として使用して必要な出力を提供します（図1を参照）。VISPROGによってビジョンアプリケーションのプログラムの生成と実行の両方が向上します。ニューラルモジュールネットワーク（NMN）は、専門の、微分可能なニューラルモジュールを組み合わせて、ビジュアル質問応答（VQA）問題のための質問固有のエンドツーエンドトレーニング可能なネットワークを作成します。これらの方法は、REINFORCEの弱い回答監視を使用してレイアウトジェネレータをトレーニングするか、脆弱な、事前に構築された意味解析器を使用してモジュールのレイアウトを決定的に生成します。

対照的に、VISPROGは、強力な言語モデル（GPT-3）と文脈に限定された例を使用して、事前のトレーニングなしに複雑なプログラムを構築できるようにします。訓練された最先端のモデル、非ニューラルPythonサブルーチン、およびNMNよりも高い抽象レベルを呼び出すことにより、VISPROGプログラムはNMNよりも抽象的です。これらの利点により、VISPROGは迅速で効果的で柔軟なニューロシンボリックシステムです。さらに、VISPROGは非常に解釈可能です。まず、VISPROGは、ユーザーが確認できる論理的な正確さを持つ理解しやすいプログラムを作成します。第二に、予測を管理可能な部分に分解することにより、VISPROGはユーザーが中間段階の結果を調べて欠陥を見つけ、必要に応じてロジックを修正できるようにします。

予測の視覚的な正当化として、テキスト、バウンディングボックス、セグメンテーションマスク、生成された画像などの中間ステップの出力が接続された完成したプログラムが、情報の流れを示すために役立ちます。彼らはVISPROGを4つの異なる活動に使用して、その汎用性を紹介しています。これらのタスクには、一般的なスキル（画像解析など）が必要ですが、専門的な思考力と視覚的な操作スキルも必要です。これらのタスクには以下が含まれます：

構成的な視覚的質問に答えること。
画像ペアに対するゼロショットNLVR。
NL指示からの事実知識オブジェクトラベリング。
言語による画像操作。

彼らは、モジュールまたは言語モデルのいずれもが変更されていないことを強調しています。自然言語のコマンドと適切なプログラムのいくつかの文脈の例があれば、VISPROGを任意のタスクに適応することができます。VISPROGは使いやすく、構成的なVQAテストで2.7ポイントの大幅な利益、NLVRのゼロショットの正確さが62.4％、そして知識タグ付けと画像編集のタスクでの質的・量的な結果が良好です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors PickStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Allen Institute for AI の研究者が、自然言語の指示に基づいて複雑で構成的な視覚的タスクを解決するための神経記号アプローチである VISPROG を紹介します

Was this article helpful?

AI カリキュラムの日が今こそ必要な時に会う

ゼロから学ぶアテンションモデル

AI研究

ウィザードコーダー：最高のコーディングモデルとは何でしょう

アルゼンチンは初のA.I.選挙ですか？

「FLM-101Bをご紹介します：1010億パラメータを持つ、オープンソースのデコーダのみのLLM」

Google AIは、アクティブノイズキャンセリング（ANC）ヘッドフォンのための人工知能搭載の革新的な心臓モニタリングモダリティである音響脈波計（APG）を導入します

「ビルドしてプレイ！LLM搭載のあなた自身のV&Lモデル！」

「GATE DA 2024のサンプル問題集」