中国の研究者たちは、複雑な現実世界の課題を解決するために、大規模言語模型(LLM)がマルチモーダルツールを利用できるようにする人工知能フレームワークであるControlLLMを紹介しました

「コントロールLLM:中国の研究者が大規模言語モデルをマルチモーダルツールに進化させる人工知能フレームワーク」と紹介

LLMのパフォーマンスは、複雑な現実世界のタスクを処理する能力が印象的です。ただし、曖昧なユーザーの指示、正しくないツールの選択、不適切なパラメータ設定やスケジューリングのため、正しくツールを使用するために支援が必要な場合があります。これらの課題に対処するために、香港科技大学、OpenGVLab、上海人工知能研究所、清華大学、そしてSenseTimeの研究者グループは、ControlLLMという画期的なフレームワークを提案しています。この研究は、ControlLLMがLLMの効果を向上させる重要性を検証することを目的としています。

LLMは、自律エージェントの計画、推論、意思決定の課題において大きな進展を遂げています。別の研究の方向は、LLMを外部ツールと組み合わせて、現在の情報にアクセスし、幻想を減らし、マルチモーダルな相互作用を可能にすることです。ツールによる補完されたLLMは、明示的な微調整なしで、タスクの分解、ツールの選択、パラメータの補完などを、LLMのゼロショットまたはフューショットのインコンテキスト学習を活用して処理する能力を持っています。幻想や効果的な分解などの課題は依然として存在します。LLMに固有のマルチモーダル能力を持たせるための取り組みが進行中であり、これにより、より複雑な現実世界のシナリオに応用可能性が広がっています。

LLMは、自然言語理解の能力を示し、現在はマルチモーダルな相互作用も含めた能力を拡張しています。ツールによる補完されたLLMは、タスクの分解、ツールの選択、引数の割り当て、効率的な実行スケジューリングといった課題を解決するために、画像、動画、音声などを扱うためのツールを組み込むことで、LLMの機能を拡張しようとしています。過去のChain-of-Thought、Tree-of-Thought、自己整合などの手法は、複雑なタスクを小さなサブタスクに分割することで対処してきました。

ControlLLMフレームワークは、タスクの分解器、Thoughts-on-Graphアプローチ、および多目的実行エンジンの3つの重要なコンポーネントから構成されています。タスクの分解器は、複雑なユーザーの指示を明確に定義されたサブタスクに分割します。Thoughts-on-Graphでは、事前に定義されたツールグラフ上で最適な解決経路を探索し、ツール間のパラメータや依存関係を指定します。実行エンジンは、この経路を解釈し、さまざまな計算装置上で効率的にアクションを実行します。

ControlLLMフレームワークは、既存の手法と比較して精度、効率性、柔軟性において優れており、特に画像、音声、ビデオ処理を含むさまざまなタスクにおいて優れた成績を誇ります。難しいタスクの解決評価において、ControlLLMは98%の成功率を誇り、最高基準の59%を上回ります。ControlLLMはツールの使用方法も大幅に向上させ、ツールの引数を的確に推論して割り当てます。簡単なシナリオから複雑なシナリオまで、ControlLLMはさまざまな情報タイプを統合し、実行結果に基づいた包括的かつ有意義な応答を生成します。

まとめると、ControlLLMフレームワークは、複雑な現実世界のタスクに取り組むためにLLMがマルチモーダルなツールを使用する能力を向上させ、優れた精度、効率性、適応性を提供します。タスクの分解器、Thoughts-on-Graphの手法、多目的実行エンジンといったコンポーネントは、ツールの利用において大幅な改善をもたらします。ControlLLMは常にツールの引数を的確に推論し割り当て、解決評価において高い成功率を達成するというその能力を実証しています。広範な事例研究を通じて、ユーザーエクスペリエンスを高める多様な解決策を提供するタスク計画の能力を再確認しています。ControlLLMは、実行結果に基づいた包括的かつ有意義な応答を生成するために、さまざまな情報源を統合しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

将来のPythonバージョン(3.12など)に一般のユーザーに先駆けてアクセスする方法

Python 3.12などの将来のバージョンを群衆より先にインストールしてテストする方法についてのチュートリアルで、新しい機能を...

データサイエンス

「AGIに向かって:LLMと基礎モデルが人生の学びの革命で果たす役割」

過去10年間、特にディープラーニングの成功を受けて、人工汎用知能(AGI)の構築の可能性について議論が続いています最終目標...

機械学習

「自然界がコンピュータビジョンの未来を支える」

オープンソースのソフトウェアシステムは、自然界の写実的なシーンの無限の数を素早く生成することにより、コンピュータビジ...

データサイエンス

データを持っていますか?SMOTEとGANが合成データを作成する方法

合成データは、開発者やデータサイエンティストにとって大きな課題であるAI/MLモデルの訓練に十分でクリーンなデータを持つこ...

機械学習

「CityDreamerと出会う:無限の3D都市のための構成的生成モデル」

近年、3D自然環境の作成は多くの研究の対象となっています。3D都市、3Dシナリオ、3Dアバターなど、さまざまな種類の3Dオブジ...

AI研究

NVIDIA AI研究者が提案するTied-Lora 低ランクアダプテーション(LoRA)メソッドのパラメータ効率を向上させるための画期的な人工知能アプローチ

Nvidiaの研究者グループが、Tied-LoRAと呼ばれる新しい技術を開発しました。この技術は、Low-rank Adaptation(LoRA)手法の...