「CREATORと出会ってください:ドキュメントとコードの実現を通じて、LLMs自身が自分のツールを作成するための革新的なAIフレームワーク」
Meet CREATOR an innovative AI framework for LLMs to create their own tools through the realization of documents and code.
大規模言語モデル(LLMs)は、最近の数年間で大きな進歩を遂げています。GPT-3、Codex、PaLM、LLaMA、ChatGPT、そしてより現在のGPT4などのモデルにより、LLMsの潜在能力は、インコンテキスト学習、コード生成、および他のさまざまなNLPタスクにおける優れたパフォーマンスにより、人工一般知能に対してますます近づいています。これらの印象的な成果にもかかわらず、現在のLLMsにはいくつかの欠点があります。例えば、現在の情報を認識または反応することができない、正確で理解しやすい数学的な解決策を提供することが頻繁に失敗する、長い論理連鎖で推論の不安定性などです。これらの問題を解決するために、LLMsに外部ツールを提供する研究が行われています。たとえば、ウェブ検索エンジンや質問応答(QA)システムなどのツールを含めることで、LLMsは問題解決に外部リソースをいつ、どのように使用するかを学ぶことができます。最近の研究では、GitHubのリソース、ニューラルネットワークモデル(Huggingfaceモジュールなど)、コードインタプリタ(Pythonインタプリタなど)など、追加の外部LLMツールも使用されています。これらの技術を使用して複雑な問題を解決する前に、LLMsは詳細な設計図を提供する必要があります。
ツール拡張型LLMsは、それにもかかわらずいくつかの困難に直面しています。特に以下の領域に注目しています:(1)潜在的な革新的なタスクのバラエティは本質的に無限ですが、現在の作業は一部のツールに集中しています。そのため、新しい問題を解決するために適切な既存のツールを見つけることは困難かもしれません。 (2)言語モデルの現在のツール使用方法は、本質的に複雑です。タスク処理全体には、モデルに重い認知的負荷をかけ、高い学習コストが必要です。 (3)実行結果を受け取った後、ツール使用パイプラインには定義された自動エラー処理メカニズムが欠けています。フレームワークの精度と堅牢性はまだ改善が必要です。この研究では、清華大学とイリノイ大学(UC)の研究者が、新しい視点からこれらの障害に取り組むことを意図しています。彼らはLLMsにツールの開発者になり、既存のパラメータに基づいてツールを作成し、特定の問題に取り組む能力を強化します。LLMsをツールの消費者としてではなく、ツールの開発者として活用するのです。
その結果、彼らはCREATORと呼ばれるツール開発フレームワークを導入します。このフレームワークは、LLMsの抽象的な推論能力を問題に基づいて利用して、既存のパラメータに応じてツールを作成および修正します。彼らは図1でCREATORと典型的なツール使用フレームワークのパイプラインの違いを示しています。ツール使用フレームワークは、推論を使用してAPIの選択と計画の効果的な使用方法を選ぶ方法に焦点を当てています。それに対して、彼らの焦点はツールセットの多様化、異なるレベルの合理性の切り離し、およびフレームワークの弾力性と正確性の向上です。
- アバカスAIは、新しいオープンロングコンテキスト大規模言語モデルLLM「ジラフ」を紹介します
- 「非常にシンプルな数学が大規模言語モデル(LLMs)の強化学習と高次関数(RLHF)に情報を提供できるのか? このAIの論文はイエスと言っています!」
- 「LEVER(リーバー)とは、生成されたプログラムの実行結果を検証することを学習することで、言語からコードへの変換を改善するためのシンプルなAIアプローチです」
CREATORは以下の4つのステップに分けることができます:
• 作成:問題に基づいて抽象的な推論を利用し、ドキュメントとコード実現を通じて広く適用可能なツールを作成します。
• 決定:適切なツールを使用していつ、どのようにツールを適用するかを選択します。
• 実装:LLMが問題を解決するためにツールを使用するプログラムを実行します。
• 修正:実行の結果に基づいて、ツールと選択を変更します。
彼らはまず、既存のベンチマークであるMATHとTabMWPを使用してCREATORでのテストを実施し、その設計がどれだけ成功しているかを確認します。TabMWPは問題解決のためのさまざまな表形式を提供し、MATHデータセットには難解で多様な数学の競技課題が含まれています。特に、CREATORを基に構築されたChatGPTは、従来の思考連鎖(CoT)、思考プログラム(PoT)、およびツール使用のベースラインを大幅に上回り、MATHデータセットでは平均正確度59.7%、TabMWPデータセットでは平均正確度94.7%を達成しています。
彼らはまた、ツール作成の評価に特化していない既存のベンチマークではなく、既存のツールやコードパッケージを使用して回答する必要のある革新的で困難なチャレンジからなるCreation Challengeデータセットを提案しています。このデータセットを使用して、LLMsのツール作成能力の価値と使用法を示し、ツール開発が知識の転送を促進し、LLMsがさまざまな問題文脈に効果的に適応できるようにするさまざまなツール製作の能力を持っていることを実験結果とケーススタディで示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles