「自動推論とツールの利用(ART)を紹介します:凍結された大規模言語モデル(LLM)を使用して、推論プログラムの中間段階を迅速に生成するフレームワーク」

「自動推論とツールの利用(ART)を紹介します:凍結された大規模言語モデル(LLM)を使用して、推論プログラムの中間段階を迅速に生成するフレームワーク」

大規模言語モデルは、いくつかのデモとリアルな言語の指示を与えることで、新しいタスクに迅速に適応し、コンテキスト内での学習を利用することができます。これにより、LLMのホスティングや大規模なデータセットの注釈付けを回避することができますが、マルチステップの推論、数学、最新の情報の取得など、パフォーマンスに関する重要な課題があります。最近の研究では、LLMに高度な推論段階をサポートするためのツールへのアクセスを与えるか、マルチステップの推論のための推論チェーンのエミュレーションを課題とすることで、これらの制約を緩和することが提案されています。ただし、新しい活動やツールに対してチェーン化された理由付けの確立されたアプローチを適応することは困難であり、特定の活動やツールに特化したファインチューニングやプロンプトエンジニアリングが必要です。

図1:タスクライブラリから類似のタスク分解(A)を選択し、LLM生成と組み合わせてツールライブラリからツールを選択して適用することで、ARTは新しいタスクの自動マルチステップ分解(B)を開発します。人間は分解を変更してパフォーマンスを向上させることができます(コードの修正や変更など)(C)。

本研究では、ワシントン大学、マイクロソフト、メタ、カリフォルニア大学、アレン人工知能研究所の研究者が、新しいタスクの例に対して自動的に分解(マルチステップ推論)を作成するフレームワークであるAutomated Reasoning and Tool usage(ART)を開発しました。ARTはタスクライブラリから類似のタスクの例を引っ張ってきて、少数のデモとツールの使用を可能にすることで、さらなる作業に活用します。これらの例では、柔軟で構造化されたクエリ言語が使用されており、中間段階を読みやすくし、外部ツールの使用を一時停止して、そのツールの出力が含まれるまで再開することが簡単になっています(図1)。また、フレームワークは各段階で最適なツール(検索エンジンやコード実行など)を選択して使用します。

ARTはARTから各種関連活動のインスタンスを分解する方法や、これらの例で描かれたツールライブラリからツールを選択して使用する方法について、LLMにデモを提供します。これにより、モデルは例から新しいタスクを分解し、適切なツールを利用してジョブを行うことができます。また、ユーザーはタスクとツールのライブラリを更新し、論理の連鎖に誤りがある場合や新しいツール(例:対象のタスクに対して)を追加するために必要な最新の例を追加することができます。

彼らは15のBigBenchタスク用のタスクライブラリを作成し、19のBigBenchテストタスク(以前に見たことのないもの)、6つのMMLUタスク、および関連するツールの使用研究(SQUAD、TriviaQA、SVAMP、MAWPS)から数多くのタスクでARTをテストしました。34のBigBench問題のうち32問とすべてのMMLUタスクでは、ARTは平均でコンピュータによって作成されたCoT推論チェーンを22ポイント以上上回るか、または一致させます。ツールの使用が許可されると、テストタスクのパフォーマンスは平均で約12.3ポイント向上します。

平均して、ARTはBigBenchとMMLUの両方のタスクで直接のフューショットプロンプティングよりも10.8ポイント優れています。ARTは、数学的およびアルゴリズム的な推論を要求する未知のタスクにおいて、直接のフューショットプロンプティングよりも12.5ポイント優れ、分解とツールの使用のための監視を含むGPT3の最もよく知られた結果よりも6.1ポイント優れています。タスクとツールのライブラリを新しい例で更新することで、人間との相互作用と推論プロセスの向上が可能になり、最小限の人間の入力で任意のジョブのパフォーマンスを劇的に向上させることができます。追加の人間のフィードバックが与えられた場合、ARTは12のテストタスクで最もよく知られたGPT3の結果を平均で20%以上上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「3つの医療機関が生成型AIを使用している方法」

「Med-PaLM 2および他の生成型AIソリューションを使用するGoogle Cloudのヘルスケア顧客を紹介します」

データサイエンス

「ビルドしてプレイ!LLM搭載のあなた自身のV&Lモデル!」

大型言語モデル(LLM)はますますその価値を示しています画像をLLMに組み込むことで、ビジョン言語モデルとしてさらに有用に...

人工知能

Relume AIによって生成されたワイヤーフレームとサイトマップ

もしウェブサイトをデザインする必要がある場合、Relumeを試さないのは愚かです

機械学習

学生と機関のためのChatGPTプラグインで学習を向上させる

イントロダクション ChatGPTは、最も高度な会話型AIモデルの一つとして急速に注目を集めており、多様なトピックにわたって人...

人工知能

「プログラマーを支援するためにコードを生成できる10つのAIツール」

無限の可能性の時代において、生成型人工知能ソリューションの広範な使用と革新的なアクセス可能性は、プログラマーにとって...

人工知能

「AIオートメーションエージェンシーのリードを増やす方法(月間100件以上のミーティング)」

「顧客を見つけることは数のゲームであり、多くの時間を要しますAIにすべての困難な仕事を任せない限り」