プリンストン大学とメタAIの研究者たちは、長い文脈を要約ノードの木に最初に処理する新しい方法、MemWalkerを導入しました

「プリンストン大学とメタAIの研究者が開発した、文脈をノードの木に要約する革新的な手法『MemWalker』」

自己注意力を持つTransformerアーキテクチャと、モデルサイズと事前学習データの増加により、大規模言語モデル(LLM)において重要な進展が見られました。LLMの容量が向上するにつれ、ユーザーは推論中により長い入力シーケンスをより頻繁に使用したいと考えるようになりました。その結果、法的な研究や科学的な研究などの長いテキストの分析、および長い会話の管理を容易にするサービスの需要が増加しています。これらのタスクでは、巨大な情報量の消費に関連する長いコンテキスト処理時間が非常に有用です。

進展にもかかわらず、自己注意機構の制約は、シーケンスの長さが増すと追跡する必要のあるメモリ量も増すことでより顕著になります。この問題に対処するために、よりコンパクトかつ効果的な注意メカニズムの開発、外挿または補間された位置埋め込みを使用した微調整、次のテキストセグメントに情報を引き継ぐための再帰を使用すること、適切な箇所を取得することなど、いくつかの方法が使用されてきました。しかし、これらの方法には依然として固有の制約があります。スライダーをどこまでもドラッグしても、コンテキストウィンドウのサイズは変わらず、すべての箇所が同じ重みを持つわけではありません。再帰は無制限の長さのシーケンスに対応できますが、しばしば前の部分の詳細を忘れてしまいます。

従来の方法とは異なり、プリンストン大学とMeta AIの研究者は、有限なコンテキストウィンドウを持つモデルを対話的なエージェントとしてアプローチする、完全に新しい方法を開発しました。この目標を達成するために、彼らはMEMWALKERと呼ばれる、長いテキストを反復的なLLMベースの方法でモデルに導く手法を提案しています。

MEMWALKERは次の2つのステップで構成されるプロセスです:

  1. メモリツリーの構築
  2. ツリーを使用して進路を案内する

長大な文書は、LLMが処理できるように、最初のフェーズで処理しやすいセグメントに分割されます。LLMはそれぞれのセグメントからの情報を統合された要約ノードに圧縮します。これらの要約ノードからツリー構造が構築され、さらに上位の要約ノードにまとめられます。ユーザーの問い合わせを処理する際、LLMはツリーの始点に戻ります。LLMは各ツリーブランチを見て、テキストを分析して質問に答えるパスを見つけます。これにより、MEMWALKERはユーザーの微調整を必要とせずに、ネイティブ言語で長いテキストの重要な部分を迅速に処理することができます。

MEMWALKERの分析では、チームは3つの異なるタイプの拡張コンテキストの質問に回答する際に、再帰、検索、およびバニラLLMベースラインよりも優れた性能を発揮することがわかりました。8,000〜16,000のトークンを処理できる他のオープンな長いコンテキストのシステムはMEMWALKERのパフォーマンスには及びませんでした。 MEMWALKERの性能を評価し、ナビゲーションの決定に関する推論、トラバース中のワーキングメモリの使用、およびナビゲーション初期段階での誤りの修正などを示しています。

チームはまた、MEMWALKERの3つの主な欠点について議論しました:

  1. シーケンスが長くなると、メモリツリーの生成が非常にスケーラブルでない可能性があります。
  2. 研究結果は、LLMが大規模(70億以上)であり、MEMWALKERが効果的に機能するために指示に合わせて調整される必要があることを示しています。
  3. MEMWALKERの対話的な読み取り能力は、ゼロショットのプロンプティングに限定されており、任意の方法で微調整を使用していません。

それにもかかわらず、チームはMEMWALKERが将来の興味深い研究の道を開拓すると信じており、ツリー以外のデータ構造への使用拡大や、対話的な読み取りタスクのパフォーマンスの最適化など、さまざまな研究に展開する可能性があると考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAIペーパーは、写真リアルな人物モデリングと効率的なレンダリングのブレイクスルーであるHiFi4Gを明らかにします

4D(時空)人間パフォーマンスのボリューメトリックな記録とリアルな表現は、観客とパフォーマーの間の障壁を取り払います。...

AI研究

マイクロソフトの研究者は、2段階の介入フレームワークを使用したオープンボキャブラリー責任ある視覚合成(ORES)を提案しています

ビジュアル合成モデルは、大規模なモデルトレーニングの進歩により、ますます現実的なビジュアルを生成することができるよう...

人工知能

「ボイスディープフェイクがあなたの銀行残高を脅かしています」

「人工知能のツールは、詐欺師が人々を騙してお金を送らせるための強力な武器となっています」

データサイエンス

AlluxioがAI最適化されたデータプラットフォームを発表し、より高速なMLパイプラインを提供します

「AIイニシアチブの価値実現を加速させるために、AIと機械学習のワークロードのフルポテンシャルを引き出す簡素化されたデー...

機械学習

「プロジェクトRumiにご参加ください:大規模言語モデルのための多言語パラ言語的プロンプティング」

新興技術のデジタル時代において、LLM(Large Language Models)は、人間の社会と文化の多くの側面を革新し、コンピュータと...

AIニュース

「Amazon SageMaker StudioでAmazon SageMaker JumpStartを使用して安定したDiffusion XLを利用する」

「今日、私たちはお知らせすることを喜んでいますStable Diffusion XL 1.0(SDXL 1.0)がAmazon SageMaker JumpStartを通じて...