「自動推論とツールの利用(ART)を紹介します:凍結された大規模言語モデル(LLM)を使用して、推論プログラムの中間段階を迅速に生成するフレームワーク」
「自動推論とツールの利用(ART)を紹介します:凍結された大規模言語モデル(LLM)を使用して、推論プログラムの中間段階を迅速に生成するフレームワーク」
大規模言語モデルは、いくつかのデモとリアルな言語の指示を与えることで、新しいタスクに迅速に適応し、コンテキスト内での学習を利用することができます。これにより、LLMのホスティングや大規模なデータセットの注釈付けを回避することができますが、マルチステップの推論、数学、最新の情報の取得など、パフォーマンスに関する重要な課題があります。最近の研究では、LLMに高度な推論段階をサポートするためのツールへのアクセスを与えるか、マルチステップの推論のための推論チェーンのエミュレーションを課題とすることで、これらの制約を緩和することが提案されています。ただし、新しい活動やツールに対してチェーン化された理由付けの確立されたアプローチを適応することは困難であり、特定の活動やツールに特化したファインチューニングやプロンプトエンジニアリングが必要です。
本研究では、ワシントン大学、マイクロソフト、メタ、カリフォルニア大学、アレン人工知能研究所の研究者が、新しいタスクの例に対して自動的に分解(マルチステップ推論)を作成するフレームワークであるAutomated Reasoning and Tool usage(ART)を開発しました。ARTはタスクライブラリから類似のタスクの例を引っ張ってきて、少数のデモとツールの使用を可能にすることで、さらなる作業に活用します。これらの例では、柔軟で構造化されたクエリ言語が使用されており、中間段階を読みやすくし、外部ツールの使用を一時停止して、そのツールの出力が含まれるまで再開することが簡単になっています(図1)。また、フレームワークは各段階で最適なツール(検索エンジンやコード実行など)を選択して使用します。
ARTはARTから各種関連活動のインスタンスを分解する方法や、これらの例で描かれたツールライブラリからツールを選択して使用する方法について、LLMにデモを提供します。これにより、モデルは例から新しいタスクを分解し、適切なツールを利用してジョブを行うことができます。また、ユーザーはタスクとツールのライブラリを更新し、論理の連鎖に誤りがある場合や新しいツール(例:対象のタスクに対して)を追加するために必要な最新の例を追加することができます。
- Concrete MLと出会ってください:プライバシーの保護と安全な機械学習を可能にするオープンソースのFHEベースのツールキット
- 新たなディープ強化学習(DRL)フレームワークは、シミュレートされた環境で攻撃者に対応し、サイバー攻撃がエスカレートする前に95%をブロックすることができます
- 『AI論文によると、大規模な言語モデルの一般的なパターンマシンとしての異なるレベルの専門知識を説明します』
彼らは15のBigBenchタスク用のタスクライブラリを作成し、19のBigBenchテストタスク(以前に見たことのないもの)、6つのMMLUタスク、および関連するツールの使用研究(SQUAD、TriviaQA、SVAMP、MAWPS)から数多くのタスクでARTをテストしました。34のBigBench問題のうち32問とすべてのMMLUタスクでは、ARTは平均でコンピュータによって作成されたCoT推論チェーンを22ポイント以上上回るか、または一致させます。ツールの使用が許可されると、テストタスクのパフォーマンスは平均で約12.3ポイント向上します。
平均して、ARTはBigBenchとMMLUの両方のタスクで直接のフューショットプロンプティングよりも10.8ポイント優れています。ARTは、数学的およびアルゴリズム的な推論を要求する未知のタスクにおいて、直接のフューショットプロンプティングよりも12.5ポイント優れ、分解とツールの使用のための監視を含むGPT3の最もよく知られた結果よりも6.1ポイント優れています。タスクとツールのライブラリを新しい例で更新することで、人間との相互作用と推論プロセスの向上が可能になり、最小限の人間の入力で任意のジョブのパフォーマンスを劇的に向上させることができます。追加の人間のフィードバックが与えられた場合、ARTは12のテストタスクで最もよく知られたGPT3の結果を平均で20%以上上回ります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles