中国の研究者たちは、複雑な現実世界の課題を解決するために、大規模言語模型(LLM)がマルチモーダルツールを利用できるようにする人工知能フレームワークであるControlLLMを紹介しました

「コントロールLLM:中国の研究者が大規模言語モデルをマルチモーダルツールに進化させる人工知能フレームワーク」と紹介

LLMのパフォーマンスは、複雑な現実世界のタスクを処理する能力が印象的です。ただし、曖昧なユーザーの指示、正しくないツールの選択、不適切なパラメータ設定やスケジューリングのため、正しくツールを使用するために支援が必要な場合があります。これらの課題に対処するために、香港科技大学、OpenGVLab、上海人工知能研究所、清華大学、そしてSenseTimeの研究者グループは、ControlLLMという画期的なフレームワークを提案しています。この研究は、ControlLLMがLLMの効果を向上させる重要性を検証することを目的としています。

LLMは、自律エージェントの計画、推論、意思決定の課題において大きな進展を遂げています。別の研究の方向は、LLMを外部ツールと組み合わせて、現在の情報にアクセスし、幻想を減らし、マルチモーダルな相互作用を可能にすることです。ツールによる補完されたLLMは、明示的な微調整なしで、タスクの分解、ツールの選択、パラメータの補完などを、LLMのゼロショットまたはフューショットのインコンテキスト学習を活用して処理する能力を持っています。幻想や効果的な分解などの課題は依然として存在します。LLMに固有のマルチモーダル能力を持たせるための取り組みが進行中であり、これにより、より複雑な現実世界のシナリオに応用可能性が広がっています。

LLMは、自然言語理解の能力を示し、現在はマルチモーダルな相互作用も含めた能力を拡張しています。ツールによる補完されたLLMは、タスクの分解、ツールの選択、引数の割り当て、効率的な実行スケジューリングといった課題を解決するために、画像、動画、音声などを扱うためのツールを組み込むことで、LLMの機能を拡張しようとしています。過去のChain-of-Thought、Tree-of-Thought、自己整合などの手法は、複雑なタスクを小さなサブタスクに分割することで対処してきました。

ControlLLMフレームワークは、タスクの分解器、Thoughts-on-Graphアプローチ、および多目的実行エンジンの3つの重要なコンポーネントから構成されています。タスクの分解器は、複雑なユーザーの指示を明確に定義されたサブタスクに分割します。Thoughts-on-Graphでは、事前に定義されたツールグラフ上で最適な解決経路を探索し、ツール間のパラメータや依存関係を指定します。実行エンジンは、この経路を解釈し、さまざまな計算装置上で効率的にアクションを実行します。

ControlLLMフレームワークは、既存の手法と比較して精度、効率性、柔軟性において優れており、特に画像、音声、ビデオ処理を含むさまざまなタスクにおいて優れた成績を誇ります。難しいタスクの解決評価において、ControlLLMは98%の成功率を誇り、最高基準の59%を上回ります。ControlLLMはツールの使用方法も大幅に向上させ、ツールの引数を的確に推論して割り当てます。簡単なシナリオから複雑なシナリオまで、ControlLLMはさまざまな情報タイプを統合し、実行結果に基づいた包括的かつ有意義な応答を生成します。

まとめると、ControlLLMフレームワークは、複雑な現実世界のタスクに取り組むためにLLMがマルチモーダルなツールを使用する能力を向上させ、優れた精度、効率性、適応性を提供します。タスクの分解器、Thoughts-on-Graphの手法、多目的実行エンジンといったコンポーネントは、ツールの利用において大幅な改善をもたらします。ControlLLMは常にツールの引数を的確に推論し割り当て、解決評価において高い成功率を達成するというその能力を実証しています。広範な事例研究を通じて、ユーザーエクスペリエンスを高める多様な解決策を提供するタスク計画の能力を再確認しています。ControlLLMは、実行結果に基づいた包括的かつ有意義な応答を生成するために、さまざまな情報源を統合しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

「AIパワーパラドックス」 AI(人工知能)パワーパラドックス

「国家は、遅すぎる前に人工知能を統治することを学ぶことができるのか?」

機械学習

医療画像AIがより簡単になりました:NVIDIAがMONAIをホステッドクラウドサービスとして提供

本日、NVIDIAは医療画像AIのためのクラウドサービスを立ち上げました。これにより、完全に管理され、クラウドベースのAPIを通...

AIニュース

「ジェネレーティブAIがビジネス、健康医療、芸術を再構築する方法」

紹介 生成的な人工知能、一般にはGenAIと呼ばれるものは、AI革命の最前線に位置し、ロボットの無限の創造力と問題解決能力を...

人工知能

3Dアーティストのヌルハン・イスマイルは、Adobe After EffectsとBlenderを使用して、イソメトリックな革新を「NVIDIA Studio」にもたらす

編集者の注:この投稿は、弊社の週刊In the NVIDIA Studioシリーズの一部で、注目されたアーティストを称え、クリエイティブ...

AIニュース

(sekai no toppu 10 no sōsei AI sutātappu)

はじめに 生成AIは現在、世界中の人々の好奇心を引きつけています。私たちのソーシャルネットワーキングフィード内の仮想キャ...

AI研究

Google DeepMindの研究者たちは、人工汎用知能(AGI)モデルとそれらの前身の能力と行動を分類するためのフレームワークを提案しています

人工知能(AI)と機械学習(ML)モデルの最近の進歩により、人工汎用知能(AGI)の議論は直ちに実際的な重要性を持つ問題にな...