このAI論文は、言語エージェントのための自然言語とコードの調和を目指して、LemurとLemur Chatを紹介しています
美容とファッションの専門家が綴る、魅力的で活気に満ちた美容とファッションの記事' (Japanese translation of 'Vivid and Lively Beauty and Fashion Articles Written by an Expert')
広義では、知的エージェントとは、周囲から収集したデータに基づいて知覚、判断、行動の能力を備えた自律問題解決者です。この考え方を応用した最近の研究では、自然言語を使用してさまざまな文脈で複雑なタスクを実行できる言語エージェントの開発に有望な成果が出ています。特に、これらのエージェントが大規模な言語モデル(LLM)を使用して構築された場合、人間の思考と言語を模倣できます。これにより、人々はツールの使用に柔軟に対応し、新しい状況に適応し、言語的に論理的な理由づけを行い、飛び込みでマルチエージェントシステムを開発することができます。
LLMは、人間とのインタラクション、推論、計画を理解し、言語エージェントの基盤を適切に構築するために、必要な文脈における根拠を確保する必要があります。LLMの自然言語の機能により、人間の会話、思考、計画に近い動作が可能です。しかし、環境に基づいた実行は通常、汎用コードまたはドメイン固有のAPIを使用して行われます。これには、ウェブブラウザの管理、オペレーティングシステムのコマンドラインインターフェース端末との通信、ロボットアームの制御などが含まれます。
このギャップを埋めるため、香港大学、XLang Lab、Salesforce Research、Sea AI Lab、ワシントン大学、MIT CSAILによる新しい研究では、事前トレーニングおよび指示の微調整手法を用いて、テキストとコードの調和を実現するために事前トレーニングおよび指示の微調整を行い、最先端のプロトタイプであるLemurとLemur-Chatを公開しています。これにより、オリジナルのLlama-2-70Bを改善しました。自然言語の能力を保持しながら、コーディング能力を向上させるために、The Stackを基にしたコード中心のコーパスを構築し、90億トークンのテキストとコードの比率が10:1のデータを含みました。これがLemurとして知られるプロトタイプです。指示に従うモデルであるLemur-Chatを作成するために、最初にテキストとコードの両方から約10万インスタンスを使用して事前トレーニングを行いました。LemurとLemur-Chatは、8つのテキストとコーディングのベンチマーク全体で幅広い評価を受けた後の最もバランスの取れたオープンソースモデルであることが証明されています。
- Amazon SageMakerのマルチモデルエンドポイントを使用して、Veriffがデプロイ時間を80%削減する方法
- RAGアプリケーションデザインにおける実用的な考慮事項
- 「2Dから3Dへ:アラインドジオメトリックプライオリティを用いたテキストから3D生成の一貫性向上」
さらに、この試みは、さまざまな環境で言語エージェントのコア能力を評価するためのエージェント基準を提供することを目指しています。特に、ツールのスキルと環境と社会のフィードバックにおける定着能力に焦点を当てています。また、エージェントが情報の不完全さに基づいて操作を行い、ギャップを埋めるために追加のアクションを実行する必要がある実際の環境における部分的に可視なシナリオには固有の困難があります。実験により、Lemur-Chatは他のオープンソースモデルと比較して13のエージェントベンチマークのうち12つで優れたパフォーマンスを示すことが示されています。これは、自然言語とプログラミングの能力を組み合わせることによって、Lemur-Chatが自然言語エージェントの既存のオープンソースモデルとの性能差を埋めることができることを示しています。
これらのテストの結果から、言語エージェントを構築する際には、言語と計算能力を組み合わせることの重要性が明らかになります。自然言語処理に優れ、コーディングに苦労するLlama-2-70B-Chatなどのモデルは、行動空間が制約されており、そのようなツールを使用する努力が低いため、基本的なツールを効率的に利用することができます。対照的に、ウェブブラウジングやホームナビゲーションなどの洗練された意思決定シナリオに直面した場合、アクションスペースは通常、莫大ですが、高いコーディング能力を持つモデルは複雑な実行可能なアクションシーケンスを構築するときに優位に立ちます。結論として、Lemurの優れたパフォーマンスは、自然言語処理とプログラミングの優位性に起因します。この研究は、自然言語とプログラミング言語の相乗効果の最適化を探りながら、さまざまな環境で優れた機能を持つ高度な言語エージェントを作成するための基礎を築くものです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- オラクルは、AIとクラウドを基盤とした未来のビジョンを明らかにしました
- 「AIの透明性を解き放つ:Anthropicのフィーチャーグルーピングがニューラルネットワークの解釈可能性を向上させる方法」
- 「大型言語モデルとビジネスの架け橋:LLMops」
- 「ChatGPTとBard AIを活用するために、ソフトウェア開発者はどのように役立つことができるのでしょうか?」
- ソフトウェア開発におけるAIの将来:トレンドとイノベーション
- NVIDIA AIがSteerLMを発表:大規模言語モデル(LLMs)の推論中にユーザーが応答をカスタマイズできる新たな人工知能(AI)メソッド
- 「ChatGPT 3.5 Turboの微調整方法」