プリンストン大学とメタAIの研究者たちは、長い文脈を要約ノードの木に最初に処理する新しい方法、MemWalkerを導入しました

「プリンストン大学とメタAIの研究者が開発した、文脈をノードの木に要約する革新的な手法『MemWalker』」

自己注意力を持つTransformerアーキテクチャと、モデルサイズと事前学習データの増加により、大規模言語モデル(LLM)において重要な進展が見られました。LLMの容量が向上するにつれ、ユーザーは推論中により長い入力シーケンスをより頻繁に使用したいと考えるようになりました。その結果、法的な研究や科学的な研究などの長いテキストの分析、および長い会話の管理を容易にするサービスの需要が増加しています。これらのタスクでは、巨大な情報量の消費に関連する長いコンテキスト処理時間が非常に有用です。

進展にもかかわらず、自己注意機構の制約は、シーケンスの長さが増すと追跡する必要のあるメモリ量も増すことでより顕著になります。この問題に対処するために、よりコンパクトかつ効果的な注意メカニズムの開発、外挿または補間された位置埋め込みを使用した微調整、次のテキストセグメントに情報を引き継ぐための再帰を使用すること、適切な箇所を取得することなど、いくつかの方法が使用されてきました。しかし、これらの方法には依然として固有の制約があります。スライダーをどこまでもドラッグしても、コンテキストウィンドウのサイズは変わらず、すべての箇所が同じ重みを持つわけではありません。再帰は無制限の長さのシーケンスに対応できますが、しばしば前の部分の詳細を忘れてしまいます。

従来の方法とは異なり、プリンストン大学とMeta AIの研究者は、有限なコンテキストウィンドウを持つモデルを対話的なエージェントとしてアプローチする、完全に新しい方法を開発しました。この目標を達成するために、彼らはMEMWALKERと呼ばれる、長いテキストを反復的なLLMベースの方法でモデルに導く手法を提案しています。

MEMWALKERは次の2つのステップで構成されるプロセスです:

  1. メモリツリーの構築
  2. ツリーを使用して進路を案内する

長大な文書は、LLMが処理できるように、最初のフェーズで処理しやすいセグメントに分割されます。LLMはそれぞれのセグメントからの情報を統合された要約ノードに圧縮します。これらの要約ノードからツリー構造が構築され、さらに上位の要約ノードにまとめられます。ユーザーの問い合わせを処理する際、LLMはツリーの始点に戻ります。LLMは各ツリーブランチを見て、テキストを分析して質問に答えるパスを見つけます。これにより、MEMWALKERはユーザーの微調整を必要とせずに、ネイティブ言語で長いテキストの重要な部分を迅速に処理することができます。

MEMWALKERの分析では、チームは3つの異なるタイプの拡張コンテキストの質問に回答する際に、再帰、検索、およびバニラLLMベースラインよりも優れた性能を発揮することがわかりました。8,000〜16,000のトークンを処理できる他のオープンな長いコンテキストのシステムはMEMWALKERのパフォーマンスには及びませんでした。 MEMWALKERの性能を評価し、ナビゲーションの決定に関する推論、トラバース中のワーキングメモリの使用、およびナビゲーション初期段階での誤りの修正などを示しています。

チームはまた、MEMWALKERの3つの主な欠点について議論しました:

  1. シーケンスが長くなると、メモリツリーの生成が非常にスケーラブルでない可能性があります。
  2. 研究結果は、LLMが大規模(70億以上)であり、MEMWALKERが効果的に機能するために指示に合わせて調整される必要があることを示しています。
  3. MEMWALKERの対話的な読み取り能力は、ゼロショットのプロンプティングに限定されており、任意の方法で微調整を使用していません。

それにもかかわらず、チームはMEMWALKERが将来の興味深い研究の道を開拓すると信じており、ツリー以外のデータ構造への使用拡大や、対話的な読み取りタスクのパフォーマンスの最適化など、さまざまな研究に展開する可能性があると考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

中国の研究者たちは、構造化データ上でのLLMのゼロショット推論能力を向上させるためにStructGPTを提案しています

大規模言語モデル(LLM)は、最近、自然言語処理(NLP)の分野で大きな進展を遂げています。既存の研究によれば、LLMは、タス...

AIニュース

AIサージ:Stability AIのCEOは、2年以内にインドの開発者に仕事の喪失を予測します

AIの革命が進む中、世界はその影響に関する潜在的な利益と懸念を目撃しています。AIブームの中で、Stability AIのCEOであるエ...

データサイエンス

NVIDIAとUTオースティンの研究者がMimicGenを紹介:ロボティクスのための自律的なデータ生成システム

様々な操作動作をロボットに学習させるために、人間のデモンストレーションを模倣学習することが可能になりました。人間のオ...

人工知能

チャレンジを受け入れました:アニメーターのワード・ナイシュタット氏が、今週の「NVIDIA Studio」でロボット革命を驚異的なスピードでリード

編集者注:この投稿は私たちの週間In the NVIDIA Studioシリーズの一環であり、特集されたアーティストを称え、クリエイティ...

データサイエンス

次元の呪いの真の範囲を可視化する

非常に多くの特徴を持つ観測の振る舞いを視覚化するために、モンテカルロ法を使用する

データサイエンス

私たちが知っていることを蒸留する

研究者たちは、大きなGPTモデルのサイズを削減しようとしています