AIは人間過ぎるようになったのでしょうか?Google AIの研究者は、LLMsがツールのドキュメントだけでMLモデルやAPIを利用できるようになったことを発見しました!
Google AIの研究者は、LLMsの進化により、ツールのドキュメントだけでMLモデルやAPIを利用できることを発見しました!
人工知能が地球を支配しようとする現代において、大規模な言語モデルは人間の脳により近づいています。Googleの研究者たちは、大規模な言語モデルが各ツールのドキュメンテーションを提供するだけで事前のトレーニングなしに未知のツールをゼロショットで使用できることを証明しました。
この解決策全体を、4歳のオードリーに自転車の乗り方を教えることに例えることができます。最初に、彼女に自転車の乗り方を教え、学ぶのを手伝いました(デモンストレーション)。トレーニングホイールを使って乗る方法と、トレーニングホイールを使わずに乗る方法を彼女に示しました。つまり、さまざまなシナリオを彼女に見せました。この解決策は、彼女が本(ドキュメント)で自転車の乗り方を読み、自転車のさまざまな機能について学び、私たちの助けなしで乗ることができるようになった部分に対応しており、それを非常に印象的に行っています。彼女はスキッドすることができ、トレーニングホイールを使ったり使わずに乗ることができます。ここにオードリーが成長した様子が見えますね?
デモンストレーション(デモ)は、少数の例を使用して言語モデルにツールの使用方法を教えます。存在するすべてのツールプランをカバーするためには、多くの例が必要かもしれません。ドキュメンテーション(ドキュメント)は、ツールの機能を説明することで言語モデルにツールの使用方法を教えます。
- 「UCLA研究者がGedankenNetを紹介:物理法則や思考実験から学ぶ自己教示AIモデルが計算機画像処理を進化させる」
- Google AI Researchは、正確な時空間の位置情報と密に関連付けられた意味的に正しい豊富なビデオの説明を取得する注釈手法であるVidLNsを提案しています
- ETHチューリッヒの研究者が、バイオミメティックな腱駆動式ファイブハンドを紹介:高次元自由度の3Dプリンタ対応設計で、器用な手の回転スキルを持つ
ドキュメントとデモをプロンプトに含める/除外する組み合わせ、およびデモの数を変えて、モデルの結果とパフォーマンスを分析しました。さまざまなツールセットを使用して、複数のモダリティにまたがる6つのタスクで実験が行われました。使用されたLLMプランナーはChatGPT(gpt-3.5-turbo)で、6つのタスクは以下の通りです:ScienceQAにおけるマルチモーダルな質問応答、TabMWTabMWP(数学推論データセット)における表形式の数学推論、NLVRv2におけるマルチモーダルな推論、新たに収集されたデータセットにおける未知のAPIの使用、自然言語による画像編集、およびビデオトラッキング。
彼らは、各データセットでツールのドキュメンテーションを使用した場合と使用しなかった場合のモデルのパフォーマンスを、異なる数のデモンストレーション(デモ)で評価しました。調査結果は、ツールのドキュメント化によってデモンストレーションの必要性が低下することを示しています。ツールのドキュメントがある場合、モデルはデモンストレーションの数が削減されても安定したパフォーマンスを維持するようですが、ツールのドキュメントがない場合、モデルのパフォーマンスは使用されるデモンストレーションの数に非常に敏感であることが示されました。
品質の比較を通じて、ドキュメントに頼ることは、大規模な言語モデルが多数の利用可能なツールを備えるためのスケーラブルな解決策を提供することがわかりました。さらに、ツールのドキュメントだけでLLMは最新のビジョンモデルを理解し、新しいデモを必要とせずに画像編集やビデオトラッキングのタスクで印象的な結果を達成することができます。研究者は、結果が非常に印象的で別のブレークスルーを示唆しているものの、ドキュメントの長さが600ワードを超えると性能が低下することを発見しました。
結果として、この論文はLLMがドキュメンテーションを通じてツールを学ぶだけでなく、追加のデモンストレーションなしで「Grounded SAM」と「Track Anything」などの人気プロジェクトの結果を再現することを示し、ツールのドキュメントを通じた自動的な知識の発見の可能性を示唆しています。これにより、LLMにおけるツールの使用の視点において新たな方向性がもたらされ、モデルの推論能力を明らかにすることを目指しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 拡張版:NVIDIAがビデオ編集のためのMaxineを拡大し、3D仮想会議の研究を披露
- Airbnbの研究者がChrononを開発:機械学習モデルの本番用機能を開発するためのフレームワーク
- NVIDIAとテルアビブ大学の研究者が、効率的な訓練時間を持つコンパクトな100 KBのニューラルネットワーク「Perfusion」を紹介しました
- 「タンパク質設計の革命:ディープラーニングの改良により成功率が10倍に向上したこのAI研究」
- AIモデルは、患者のがんがどこで発生したかを判断するのに役立つことができます
- UCバークレーの研究者は、Dynalangを紹介しますこれは、未来のテキストおよび画像表現を予測するためにマルチモーダルなワールドモデルを学習するAIエージェントであり、想像されたモデルのロールアウトからの行動を学習します
- MONAI 生成モデル:医療画像の進歩に向けたオープンソースプラットフォーム