「自動推論とツールの利用（ART）を紹介します：凍結された大規模言語モデル（LLM）を使用して、推論プログラムの中間段階を迅速に生成するフレームワーク」

大規模言語モデルは、いくつかのデモとリアルな言語の指示を与えることで、新しいタスクに迅速に適応し、コンテキスト内での学習を利用することができます。これにより、LLMのホスティングや大規模なデータセットの注釈付けを回避することができますが、マルチステップの推論、数学、最新の情報の取得など、パフォーマンスに関する重要な課題があります。最近の研究では、LLMに高度な推論段階をサポートするためのツールへのアクセスを与えるか、マルチステップの推論のための推論チェーンのエミュレーションを課題とすることで、これらの制約を緩和することが提案されています。ただし、新しい活動やツールに対してチェーン化された理由付けの確立されたアプローチを適応することは困難であり、特定の活動やツールに特化したファインチューニングやプロンプトエンジニアリングが必要です。

**図1：**タスクライブラリから類似のタスク分解（A）を選択し、LLM生成と組み合わせてツールライブラリからツールを選択して適用することで、ARTは新しいタスクの自動マルチステップ分解（B）を開発します。人間は分解を変更してパフォーマンスを向上させることができます（コードの修正や変更など）（C）。

本研究では、ワシントン大学、マイクロソフト、メタ、カリフォルニア大学、アレン人工知能研究所の研究者が、新しいタスクの例に対して自動的に分解（マルチステップ推論）を作成するフレームワークであるAutomated Reasoning and Tool usage（ART）を開発しました。ARTはタスクライブラリから類似のタスクの例を引っ張ってきて、少数のデモとツールの使用を可能にすることで、さらなる作業に活用します。これらの例では、柔軟で構造化されたクエリ言語が使用されており、中間段階を読みやすくし、外部ツールの使用を一時停止して、そのツールの出力が含まれるまで再開することが簡単になっています（図1）。また、フレームワークは各段階で最適なツール（検索エンジンやコード実行など）を選択して使用します。

ARTはARTから各種関連活動のインスタンスを分解する方法や、これらの例で描かれたツールライブラリからツールを選択して使用する方法について、LLMにデモを提供します。これにより、モデルは例から新しいタスクを分解し、適切なツールを利用してジョブを行うことができます。また、ユーザーはタスクとツールのライブラリを更新し、論理の連鎖に誤りがある場合や新しいツール（例：対象のタスクに対して）を追加するために必要な最新の例を追加することができます。

彼らは15のBigBenchタスク用のタスクライブラリを作成し、19のBigBenchテストタスク（以前に見たことのないもの）、6つのMMLUタスク、および関連するツールの使用研究（SQUAD、TriviaQA、SVAMP、MAWPS）から数多くのタスクでARTをテストしました。34のBigBench問題のうち32問とすべてのMMLUタスクでは、ARTは平均でコンピュータによって作成されたCoT推論チェーンを22ポイント以上上回るか、または一致させます。ツールの使用が許可されると、テストタスクのパフォーマンスは平均で約12.3ポイント向上します。

平均して、ARTはBigBenchとMMLUの両方のタスクで直接のフューショットプロンプティングよりも10.8ポイント優れています。ARTは、数学的およびアルゴリズム的な推論を要求する未知のタスクにおいて、直接のフューショットプロンプティングよりも12.5ポイント優れ、分解とツールの使用のための監視を含むGPT3の最もよく知られた結果よりも6.1ポイント優れています。タスクとツールのライブラリを新しい例で更新することで、人間との相互作用と推論プロセスの向上が可能になり、最小限の人間の入力で任意のジョブのパフォーマンスを劇的に向上させることができます。追加の人間のフィードバックが与えられた場合、ARTは12のテストタスクで最もよく知られたGPT3の結果を平均で20％以上上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

「自動推論とツールの利用（ART）を紹介します：凍結された大規模言語モデル（LLM）を使用して、推論プログラムの中間段階を迅速に生成するフレームワーク」

Was this article helpful?

元GoogleのCEOがAIとメタバースを使って米軍を強化することを発表

マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

機械学習

「生成AIの組織化：データサイエンスチームから得た5つの教訓」

「デリー政府、提案された電子都市にAIハブを建設する計画」

「ステアリング可能なニューラルネットワークへの優しい入門（パート2）」

AIのダークサイドを明らかにする：プロンプトハッキングがあなたのAIシステムを妨害する方法

ユーザーエクスペリエンスの向上：インタラクティブなチャットボットにOpenAIアシスタントAPIを実装する

ChatGPT（無料の言語チューター）で素早く言語を学びましょう