AIは人間過ぎるようになったのでしょうか?Google AIの研究者は、LLMsがツールのドキュメントだけでMLモデルやAPIを利用できるようになったことを発見しました!

Google AIの研究者は、LLMsの進化により、ツールのドキュメントだけでMLモデルやAPIを利用できることを発見しました!

人工知能が地球を支配しようとする現代において、大規模な言語モデルは人間の脳により近づいています。Googleの研究者たちは、大規模な言語モデルが各ツールのドキュメンテーションを提供するだけで事前のトレーニングなしに未知のツールをゼロショットで使用できることを証明しました。

この解決策全体を、4歳のオードリーに自転車の乗り方を教えることに例えることができます。最初に、彼女に自転車の乗り方を教え、学ぶのを手伝いました(デモンストレーション)。トレーニングホイールを使って乗る方法と、トレーニングホイールを使わずに乗る方法を彼女に示しました。つまり、さまざまなシナリオを彼女に見せました。この解決策は、彼女が本(ドキュメント)で自転車の乗り方を読み、自転車のさまざまな機能について学び、私たちの助けなしで乗ることができるようになった部分に対応しており、それを非常に印象的に行っています。彼女はスキッドすることができ、トレーニングホイールを使ったり使わずに乗ることができます。ここにオードリーが成長した様子が見えますね?

デモンストレーション(デモ)は、少数の例を使用して言語モデルにツールの使用方法を教えます。存在するすべてのツールプランをカバーするためには、多くの例が必要かもしれません。ドキュメンテーション(ドキュメント)は、ツールの機能を説明することで言語モデルにツールの使用方法を教えます。

ドキュメントとデモをプロンプトに含める/除外する組み合わせ、およびデモの数を変えて、モデルの結果とパフォーマンスを分析しました。さまざまなツールセットを使用して、複数のモダリティにまたがる6つのタスクで実験が行われました。使用されたLLMプランナーはChatGPT(gpt-3.5-turbo)で、6つのタスクは以下の通りです:ScienceQAにおけるマルチモーダルな質問応答、TabMWTabMWP(数学推論データセット)における表形式の数学推論、NLVRv2におけるマルチモーダルな推論、新たに収集されたデータセットにおける未知のAPIの使用、自然言語による画像編集、およびビデオトラッキング。

彼らは、各データセットでツールのドキュメンテーションを使用した場合と使用しなかった場合のモデルのパフォーマンスを、異なる数のデモンストレーション(デモ)で評価しました。調査結果は、ツールのドキュメント化によってデモンストレーションの必要性が低下することを示しています。ツールのドキュメントがある場合、モデルはデモンストレーションの数が削減されても安定したパフォーマンスを維持するようですが、ツールのドキュメントがない場合、モデルのパフォーマンスは使用されるデモンストレーションの数に非常に敏感であることが示されました。

品質の比較を通じて、ドキュメントに頼ることは、大規模な言語モデルが多数の利用可能なツールを備えるためのスケーラブルな解決策を提供することがわかりました。さらに、ツールのドキュメントだけでLLMは最新のビジョンモデルを理解し、新しいデモを必要とせずに画像編集やビデオトラッキングのタスクで印象的な結果を達成することができます。研究者は、結果が非常に印象的で別のブレークスルーを示唆しているものの、ドキュメントの長さが600ワードを超えると性能が低下することを発見しました。

結果として、この論文はLLMがドキュメンテーションを通じてツールを学ぶだけでなく、追加のデモンストレーションなしで「Grounded SAM」と「Track Anything」などの人気プロジェクトの結果を再現することを示し、ツールのドキュメントを通じた自動的な知識の発見の可能性を示唆しています。これにより、LLMにおけるツールの使用の視点において新たな方向性がもたらされ、モデルの推論能力を明らかにすることを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「ETLとは何ですか?トップのETLツール」

抽出(Extract)、変換(Transform)、ロード(Load)は、ETLと呼ばれます。 ETLは、データを多数のソースから収集し、標準化...

機械学習

このAI論文は、効率的な水素燃焼予測のための画期的な機械学習モデルを紹介しています:「ネガティブデザイン」および反応化学におけるメタダイナミクスを活用しています

ポテンシャルエネルギーサーフェス(PES)は、原子または分子の位置とそれに関連するポテンシャルエネルギーの関係を表します...

データサイエンス

データロボットとAWS Hackathon 2023でGenAI CVスクリーナーを構築する

この記事は、DataRobot&AWS Hackathon 2023で第3位を獲得した音声AI履歴書スクリーナーの解決策について述べていますソリュ...

機械学習

「MFAを超えて:オクタがエンタープライズアイデンティティを再定義する方法」

新しい解決策は、AIと自動化を活用して企業のセキュリティ姿勢を強化し、従業員の生産性を高めます

データサイエンス

「4つの簡単なステップであなたのMLシステムを超高速化する」

「ML最適化のローラーコースターへようこそ!この投稿では、4つのシンプルなステップで、いかなるMLシステムを高速訓練と推論...