プリンストン大学とメタAIの研究者たちは、長い文脈を要約ノードの木に最初に処理する新しい方法、MemWalkerを導入しました
「プリンストン大学とメタAIの研究者が開発した、文脈をノードの木に要約する革新的な手法『MemWalker』」
自己注意力を持つTransformerアーキテクチャと、モデルサイズと事前学習データの増加により、大規模言語モデル(LLM)において重要な進展が見られました。LLMの容量が向上するにつれ、ユーザーは推論中により長い入力シーケンスをより頻繁に使用したいと考えるようになりました。その結果、法的な研究や科学的な研究などの長いテキストの分析、および長い会話の管理を容易にするサービスの需要が増加しています。これらのタスクでは、巨大な情報量の消費に関連する長いコンテキスト処理時間が非常に有用です。
進展にもかかわらず、自己注意機構の制約は、シーケンスの長さが増すと追跡する必要のあるメモリ量も増すことでより顕著になります。この問題に対処するために、よりコンパクトかつ効果的な注意メカニズムの開発、外挿または補間された位置埋め込みを使用した微調整、次のテキストセグメントに情報を引き継ぐための再帰を使用すること、適切な箇所を取得することなど、いくつかの方法が使用されてきました。しかし、これらの方法には依然として固有の制約があります。スライダーをどこまでもドラッグしても、コンテキストウィンドウのサイズは変わらず、すべての箇所が同じ重みを持つわけではありません。再帰は無制限の長さのシーケンスに対応できますが、しばしば前の部分の詳細を忘れてしまいます。
従来の方法とは異なり、プリンストン大学とMeta AIの研究者は、有限なコンテキストウィンドウを持つモデルを対話的なエージェントとしてアプローチする、完全に新しい方法を開発しました。この目標を達成するために、彼らはMEMWALKERと呼ばれる、長いテキストを反復的なLLMベースの方法でモデルに導く手法を提案しています。
- マイクロソフトの研究者が「SpaceEvo」を紹介:現実世界のデバイスに対して超効率的で量子化されたニューラルネットワークを設計する画期的なゲームチェンジャー
- カルテックとETHチューリッヒの研究者が画期的な拡散モデルを導入:最先端のビジュアルタスクと異なるドメインへの適応を実現するためのテキストキャプションの活用
- メタ AI 研究者たちは、非侵襲的な脳記録から音声知覚のデコーディングを探求するための機械学習モデルを紹介します
MEMWALKERは次の2つのステップで構成されるプロセスです:
- メモリツリーの構築
- ツリーを使用して進路を案内する
長大な文書は、LLMが処理できるように、最初のフェーズで処理しやすいセグメントに分割されます。LLMはそれぞれのセグメントからの情報を統合された要約ノードに圧縮します。これらの要約ノードからツリー構造が構築され、さらに上位の要約ノードにまとめられます。ユーザーの問い合わせを処理する際、LLMはツリーの始点に戻ります。LLMは各ツリーブランチを見て、テキストを分析して質問に答えるパスを見つけます。これにより、MEMWALKERはユーザーの微調整を必要とせずに、ネイティブ言語で長いテキストの重要な部分を迅速に処理することができます。
MEMWALKERの分析では、チームは3つの異なるタイプの拡張コンテキストの質問に回答する際に、再帰、検索、およびバニラLLMベースラインよりも優れた性能を発揮することがわかりました。8,000〜16,000のトークンを処理できる他のオープンな長いコンテキストのシステムはMEMWALKERのパフォーマンスには及びませんでした。 MEMWALKERの性能を評価し、ナビゲーションの決定に関する推論、トラバース中のワーキングメモリの使用、およびナビゲーション初期段階での誤りの修正などを示しています。
チームはまた、MEMWALKERの3つの主な欠点について議論しました:
- シーケンスが長くなると、メモリツリーの生成が非常にスケーラブルでない可能性があります。
- 研究結果は、LLMが大規模(70億以上)であり、MEMWALKERが効果的に機能するために指示に合わせて調整される必要があることを示しています。
- MEMWALKERの対話的な読み取り能力は、ゼロショットのプロンプティングに限定されており、任意の方法で微調整を使用していません。
それにもかかわらず、チームはMEMWALKERが将来の興味深い研究の道を開拓すると信じており、ツリー以外のデータ構造への使用拡大や、対話的な読み取りタスクのパフォーマンスの最適化など、さまざまな研究に展開する可能性があると考えています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- シャージャ大学の研究者たちは、アラビア語とその方言を自然言語処理に取り入れるための人工知能ソリューションを開発しました
- 「AIが研究論文内の問題のある画像を見つける点で、人間の捜査官を打ち負かす」
- このAI研究では、SMPLer-Xという名前のモデルを提案していますこれは一般的な基礎モデルであり、モノクル入力から3D/4D人体のモーションキャプチャを行います
- GoogleとJohns Hopkins Universityの研究者は、テキストから画像生成のためのより速く効率的な蒸留方法を明らかにします:拡散モデルの制限を克服する
- スタンフォードの研究者たちは、分散変換の問題に適したシンプルかつスケーラブルな拡張であるDDBMsを提案しています
- このAI研究は「カンディンスキー1」という新しい手法を発表しました:COCO-30Kで優れたFIDスコアを持つ潜在拡散テキストから画像生成
- このAI研究は「Kosmos-G」という人工知能モデルを提案していますこれは、マルチモデルLLMsの特性を活用して、一般的なビジョン-言語入力から高品質なゼロショット画像生成を行うものです