プリンストン大学とメタAIの研究者たちは、長い文脈を要約ノードの木に最初に処理する新しい方法、MemWalkerを導入しました

「プリンストン大学とメタAIの研究者が開発した、文脈をノードの木に要約する革新的な手法『MemWalker』」

自己注意力を持つTransformerアーキテクチャと、モデルサイズと事前学習データの増加により、大規模言語モデル(LLM)において重要な進展が見られました。LLMの容量が向上するにつれ、ユーザーは推論中により長い入力シーケンスをより頻繁に使用したいと考えるようになりました。その結果、法的な研究や科学的な研究などの長いテキストの分析、および長い会話の管理を容易にするサービスの需要が増加しています。これらのタスクでは、巨大な情報量の消費に関連する長いコンテキスト処理時間が非常に有用です。

進展にもかかわらず、自己注意機構の制約は、シーケンスの長さが増すと追跡する必要のあるメモリ量も増すことでより顕著になります。この問題に対処するために、よりコンパクトかつ効果的な注意メカニズムの開発、外挿または補間された位置埋め込みを使用した微調整、次のテキストセグメントに情報を引き継ぐための再帰を使用すること、適切な箇所を取得することなど、いくつかの方法が使用されてきました。しかし、これらの方法には依然として固有の制約があります。スライダーをどこまでもドラッグしても、コンテキストウィンドウのサイズは変わらず、すべての箇所が同じ重みを持つわけではありません。再帰は無制限の長さのシーケンスに対応できますが、しばしば前の部分の詳細を忘れてしまいます。

従来の方法とは異なり、プリンストン大学とMeta AIの研究者は、有限なコンテキストウィンドウを持つモデルを対話的なエージェントとしてアプローチする、完全に新しい方法を開発しました。この目標を達成するために、彼らはMEMWALKERと呼ばれる、長いテキストを反復的なLLMベースの方法でモデルに導く手法を提案しています。

MEMWALKERは次の2つのステップで構成されるプロセスです:

  1. メモリツリーの構築
  2. ツリーを使用して進路を案内する

長大な文書は、LLMが処理できるように、最初のフェーズで処理しやすいセグメントに分割されます。LLMはそれぞれのセグメントからの情報を統合された要約ノードに圧縮します。これらの要約ノードからツリー構造が構築され、さらに上位の要約ノードにまとめられます。ユーザーの問い合わせを処理する際、LLMはツリーの始点に戻ります。LLMは各ツリーブランチを見て、テキストを分析して質問に答えるパスを見つけます。これにより、MEMWALKERはユーザーの微調整を必要とせずに、ネイティブ言語で長いテキストの重要な部分を迅速に処理することができます。

MEMWALKERの分析では、チームは3つの異なるタイプの拡張コンテキストの質問に回答する際に、再帰、検索、およびバニラLLMベースラインよりも優れた性能を発揮することがわかりました。8,000〜16,000のトークンを処理できる他のオープンな長いコンテキストのシステムはMEMWALKERのパフォーマンスには及びませんでした。 MEMWALKERの性能を評価し、ナビゲーションの決定に関する推論、トラバース中のワーキングメモリの使用、およびナビゲーション初期段階での誤りの修正などを示しています。

チームはまた、MEMWALKERの3つの主な欠点について議論しました:

  1. シーケンスが長くなると、メモリツリーの生成が非常にスケーラブルでない可能性があります。
  2. 研究結果は、LLMが大規模(70億以上)であり、MEMWALKERが効果的に機能するために指示に合わせて調整される必要があることを示しています。
  3. MEMWALKERの対話的な読み取り能力は、ゼロショットのプロンプティングに限定されており、任意の方法で微調整を使用していません。

それにもかかわらず、チームはMEMWALKERが将来の興味深い研究の道を開拓すると信じており、ツリー以外のデータ構造への使用拡大や、対話的な読み取りタスクのパフォーマンスの最適化など、さまざまな研究に展開する可能性があると考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

私が通常のRDBMSをベクトルデータベースに変換して埋め込みを保存する方法

この記事では、一般的なRDBMSを完全に機能したベクトルデータベースに変換して、GenerativeAIアプリケーションの開発に埋め込...

AIニュース

中国の強力なNvidia AIチップの隠れた市場

深圳華強北電子區的繁華街道之中,一個高端 Nvidia AI 芯片的地下市場悄然興起。這個隱蔽的世界在出口限制和對這些尖端處理器...

機械学習

DISC-FinLLMとは、複数の専門家のファインチューニングに基づいた中国の金融大規模言語モデル(LLM)です

“` 人工知能の分野で最大の進歩は、大規模言語モデル(LLM)の導入です。これらの自然言語処理(NLP)ベースのモデルは...

AI研究

サリー大学の研究者が新しい人工知能(AI)モデルを開発しましたこのモデルは、通信ネットワークが最大76%ものネットワークを節約できる可能性があります

オープン・ラジオ・アクセス・ネットワーク(O-RAN)は、分離されたラジオ・アクセス・ネットワーク(RAN)に知能を注入し、...

データサイエンス

Voxel51 は、コンピュータビジョンデータセット分析のための Python コードを生成するために GPT-3.5 の能力を活用する AI アシスタントである VoxelGPT をオープンソース化しました

データ中心のコンピュータビジョンと機械学習ソフトウェアの有名なイノベーターであるVoxel51は、最近VoxelGPTを立ち上げ、コ...

AI研究

最近の人類学的研究によれば、クロード2.1の戦略的な促進を通じて、プロンプトに単一の追加をすることで、LLMsの記憶容量を70%増加させることができると報告されました

以下のHTMLコードを日本語に翻訳します(HTMLコードは結果に含めます): この研究は、Claude 2.1の機能における固有の課題に...