AIは人間過ぎるようになったのでしょうか?Google AIの研究者は、LLMsがツールのドキュメントだけでMLモデルやAPIを利用できるようになったことを発見しました!

Google AIの研究者は、LLMsの進化により、ツールのドキュメントだけでMLモデルやAPIを利用できることを発見しました!

人工知能が地球を支配しようとする現代において、大規模な言語モデルは人間の脳により近づいています。Googleの研究者たちは、大規模な言語モデルが各ツールのドキュメンテーションを提供するだけで事前のトレーニングなしに未知のツールをゼロショットで使用できることを証明しました。

この解決策全体を、4歳のオードリーに自転車の乗り方を教えることに例えることができます。最初に、彼女に自転車の乗り方を教え、学ぶのを手伝いました(デモンストレーション)。トレーニングホイールを使って乗る方法と、トレーニングホイールを使わずに乗る方法を彼女に示しました。つまり、さまざまなシナリオを彼女に見せました。この解決策は、彼女が本(ドキュメント)で自転車の乗り方を読み、自転車のさまざまな機能について学び、私たちの助けなしで乗ることができるようになった部分に対応しており、それを非常に印象的に行っています。彼女はスキッドすることができ、トレーニングホイールを使ったり使わずに乗ることができます。ここにオードリーが成長した様子が見えますね?

デモンストレーション(デモ)は、少数の例を使用して言語モデルにツールの使用方法を教えます。存在するすべてのツールプランをカバーするためには、多くの例が必要かもしれません。ドキュメンテーション(ドキュメント)は、ツールの機能を説明することで言語モデルにツールの使用方法を教えます。

ドキュメントとデモをプロンプトに含める/除外する組み合わせ、およびデモの数を変えて、モデルの結果とパフォーマンスを分析しました。さまざまなツールセットを使用して、複数のモダリティにまたがる6つのタスクで実験が行われました。使用されたLLMプランナーはChatGPT(gpt-3.5-turbo)で、6つのタスクは以下の通りです:ScienceQAにおけるマルチモーダルな質問応答、TabMWTabMWP(数学推論データセット)における表形式の数学推論、NLVRv2におけるマルチモーダルな推論、新たに収集されたデータセットにおける未知のAPIの使用、自然言語による画像編集、およびビデオトラッキング。

彼らは、各データセットでツールのドキュメンテーションを使用した場合と使用しなかった場合のモデルのパフォーマンスを、異なる数のデモンストレーション(デモ)で評価しました。調査結果は、ツールのドキュメント化によってデモンストレーションの必要性が低下することを示しています。ツールのドキュメントがある場合、モデルはデモンストレーションの数が削減されても安定したパフォーマンスを維持するようですが、ツールのドキュメントがない場合、モデルのパフォーマンスは使用されるデモンストレーションの数に非常に敏感であることが示されました。

品質の比較を通じて、ドキュメントに頼ることは、大規模な言語モデルが多数の利用可能なツールを備えるためのスケーラブルな解決策を提供することがわかりました。さらに、ツールのドキュメントだけでLLMは最新のビジョンモデルを理解し、新しいデモを必要とせずに画像編集やビデオトラッキングのタスクで印象的な結果を達成することができます。研究者は、結果が非常に印象的で別のブレークスルーを示唆しているものの、ドキュメントの長さが600ワードを超えると性能が低下することを発見しました。

結果として、この論文はLLMがドキュメンテーションを通じてツールを学ぶだけでなく、追加のデモンストレーションなしで「Grounded SAM」と「Track Anything」などの人気プロジェクトの結果を再現することを示し、ツールのドキュメントを通じた自動的な知識の発見の可能性を示唆しています。これにより、LLMにおけるツールの使用の視点において新たな方向性がもたらされ、モデルの推論能力を明らかにすることを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「MIT研究者がLILOを導入:プログラム合成のための解釈可能なライブラリを学ぶための神経シンボリックフレームワーク」

ビッグ言語モデル(LLM)は、プログラムのさまざまな文脈でプログラムする能力がますます高度になっており、部分的に書かれた...

AIニュース

「最もテクノロジー志向のある米国の都市は、自動運転車について疑問を抱いています」

サンフランシスコの役人や住民は自動運転車に感銘を受けていませんこれは自律型車両企業にとって前に立ちはだかる課題を強調...

データサイエンス

「AWSでAIベースの企業検索を設計する方法」

AWSを使用した自然言語処理と高度な機械学習を活用したインテリジェントなエンタープライズ検索機能の設計のステップバイステ...

機械学習

「AIフィードバックループ:AI生成コンテンツの時代におけるモデルの製品品質の維持」

「AIのフィードバックループが、生成型AIの登場に伴い、モデルの品質維持、効率向上、パフォーマンス向上にどのように役立つ...

機械学習

「ワンダー3Dに会おう:単一視点画像から高品質のテクスチャメッシュを効率的に生成する革新的な人工知能手法」

シングルビュー画像からの3Dジオメトリの再構築は、コンピュータグラフィックスと3Dコンピュータビジョンの領域での基本的な...