このAI論文では、「Retentive Networks(RetNet)」を大規模言語モデルの基礎アーキテクチャとして提案していますトレーニングの並列化、低コストの推論、そして良好なパフォーマンスを実現しています

In this AI paper, we propose Retentive Networks (RetNet) as the foundational architecture for large-scale language models, achieving parallelized training, low-cost inference, and excellent performance.

Transformerは、最初に順次トレーニングの問題を解決するために開発されたものであり、その後、大規模な言語モデルのデファクトアーキテクチャとして受け入れられるようになりました。TransformerのO(N)のステップごとの複雑さとメモリバウンドのキーバリューキャッシュは、デプロイメントには適しておらず、トレーニングの並列性を犠牲にして推論性能が低下します。シーケンスの長さの増加は推論速度を遅くし、レイテンシを増加させ、GPUメモリをより多く使用します。次世代のアーキテクチャは、トランスフォーマーと同様のトレーニングの並列性と競争力のあるパフォーマンスを維持しながら、効果的なO(1)の推論を実現するために、広範な開発が続けられています。

図1:RetNetは「不可能な三角形」を実現し、トレーニングの並列性、高いパフォーマンス、低コストの推論を同時に実現します。

図1の「不可能な三角形」は、上記の目標を同時に達成するのがどれだけ困難であるかを示しています。3つの主要な研究分野が存在します。まず、線形化されたアテンションは、カーネルϕ(q)。ϕ(k)を使用して従来のアテンションスコアexp(q。k)を近似することで、自己回帰的な推論を書き直します。この手法は、トランスフォーマーに比べてパフォーマンスが劣るため、人気が向上する可能性があります。2番目の研究では、効果的な推論のために、並列トレーニングを捨てて再帰モデルを使用します。要素ごとの演算子を使用してアクセラレーションを修正しますが、これにより表現能力とパフォーマンスが犠牲になります。3番目の研究では、S4やその変種などの代替メカニズムをアテンションに代わって使用することが調査されています。

以前の研究では、トランスフォーマーと比較して明確な勝者はいません。マイクロソフトリサーチと清華大学の研究者は、RetNetと呼ばれる保持ネットワーク(RetNet)を提案しました。RetNetは、低コストの推論、効果的な長シーケンスモデリング、トランスフォーマーと同等のパフォーマンス、並列モデルトレーニングを同時に提供します。彼らは、マルチスケールの保持メカニズムを提供し、マルチヘッドアテンションを置き換えるために類似、再帰、チャンクごとの再帰表現を使用します。まず、並列表現により、トレーニングの並列性を完全にGPUデバイスで利用できます。次に、再帰表現により、メモリと計算に関して効率的なO(1)の推論が可能になります。デプロイメントの費用とレイテンシを大幅に削減できます。

キーバリューキャッシュ技術を使用せずに、この手法ははるかに簡単です。さらに、チャンクごとの再帰表現を使用することで、効果的な長シーケンスモデリングが可能です。彼らは、グローバルブロックを繰り返しエンコードしてGPUメモリを節約し、同時に各ローカルブロックをエンコードして処理を高速化します。RetNetをトランスフォーマーとその派生物と比較するために、包括的な試験を行います。言語モデリングの実験結果によると、RetNetはスケーリング曲線とコンテキスト学習の面で一貫して競争力があります。また、RetNetの推論コストは長さに影響されません。

RetNetは、7Bモデルと8kシーケンス長の場合、キーバリューキャッシュを使用するトランスフォーマーよりも8.4倍高速にデコードされ、メモリ使用量が70%減少します。RetNetは、通常のトランスフォーマーよりもトレーニングが加速し、高度に最適化されたFlashAttentionよりも優れたパフォーマンスを発揮しながら、25〜50%のメモリを節約します。RetNetの推論レイテンシはバッチサイズに影響されず、非常に高いスループットが可能です。RetNetは、魅力的な機能を備えた大規模な言語モデルのための強力なトランスフォーマーの代替です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

この人工知能の研究は、トランスフォーマーベースの大規模言語モデルが外部メモリを追加して計算的に普遍的であることを確認しています

トランスフォーマーベースのモデル(GPT-2やGPT-3など)によって達成された驚くべき結果は、研究コミュニティを大規模な言語...

機械学習

「人工知能(AI)におけるアナログコンピュータの使用」

アナログコンピュータは、電気の電圧、機械の動き、または流体の圧力などの物理的な量を、解決すべき問題に対応する量に類似...

機械学習

「PyTorchのネステロフモーメンタムの実装は間違っていますか?」

「PyTorchのSGDのドキュメンテーションを詳しく見ると、彼らのNesterovモメンタムの実装は、元の論文に見られる数つの違いが...

データサイエンス

デジタルツインは現代の物流を革命化しますこうすればどうなるか

「デジタルツインは物理的な世界と仮想的な世界をつなげることで、物流を変革し、効率性を向上させ、無駄を削減し、そして産...

AI研究

「スタンフォード大学の新しいAI研究は、言語モデルにおける過信と不確実性の表現の役割を説明します」

自然言語システムが日常のシナリオでますます普及するにつれて、これらのシステムは適切に不確実性を伝える必要があります。...

データサイエンス

スコア! チームNVIDIAが推薦システムでトロフィーを獲得しました

5人の機械学習の専門家が4つの大陸に分散し、最先端のレコメンデーションシステムを構築するための激しい競争で3つのタスク全...