このAI論文では、「Retentive Networks（RetNet）」を大規模言語モデルの基礎アーキテクチャとして提案していますトレーニングの並列化、低コストの推論、そして良好なパフォーマンスを実現しています

In this AI paper, we propose Retentive Networks (RetNet) as the foundational architecture for large-scale language models, achieving parallelized training, low-cost inference, and excellent performance.

Transformerは、最初に順次トレーニングの問題を解決するために開発されたものであり、その後、大規模な言語モデルのデファクトアーキテクチャとして受け入れられるようになりました。TransformerのO（N）のステップごとの複雑さとメモリバウンドのキーバリューキャッシュは、デプロイメントには適しておらず、トレーニングの並列性を犠牲にして推論性能が低下します。シーケンスの長さの増加は推論速度を遅くし、レイテンシを増加させ、GPUメモリをより多く使用します。次世代のアーキテクチャは、トランスフォーマーと同様のトレーニングの並列性と競争力のあるパフォーマンスを維持しながら、効果的なO（1）の推論を実現するために、広範な開発が続けられています。

図1：RetNetは「不可能な三角形」を実現し、トレーニングの並列性、高いパフォーマンス、低コストの推論を同時に実現します。

図1の「不可能な三角形」は、上記の目標を同時に達成するのがどれだけ困難であるかを示しています。3つの主要な研究分野が存在します。まず、線形化されたアテンションは、カーネルϕ（q）。ϕ（k）を使用して従来のアテンションスコアexp（q。k）を近似することで、自己回帰的な推論を書き直します。この手法は、トランスフォーマーに比べてパフォーマンスが劣るため、人気が向上する可能性があります。2番目の研究では、効果的な推論のために、並列トレーニングを捨てて再帰モデルを使用します。要素ごとの演算子を使用してアクセラレーションを修正しますが、これにより表現能力とパフォーマンスが犠牲になります。3番目の研究では、S4やその変種などの代替メカニズムをアテンションに代わって使用することが調査されています。

以前の研究では、トランスフォーマーと比較して明確な勝者はいません。マイクロソフトリサーチと清華大学の研究者は、RetNetと呼ばれる保持ネットワーク（RetNet）を提案しました。RetNetは、低コストの推論、効果的な長シーケンスモデリング、トランスフォーマーと同等のパフォーマンス、並列モデルトレーニングを同時に提供します。彼らは、マルチスケールの保持メカニズムを提供し、マルチヘッドアテンションを置き換えるために類似、再帰、チャンクごとの再帰表現を使用します。まず、並列表現により、トレーニングの並列性を完全にGPUデバイスで利用できます。次に、再帰表現により、メモリと計算に関して効率的なO（1）の推論が可能になります。デプロイメントの費用とレイテンシを大幅に削減できます。

キーバリューキャッシュ技術を使用せずに、この手法ははるかに簡単です。さらに、チャンクごとの再帰表現を使用することで、効果的な長シーケンスモデリングが可能です。彼らは、グローバルブロックを繰り返しエンコードしてGPUメモリを節約し、同時に各ローカルブロックをエンコードして処理を高速化します。RetNetをトランスフォーマーとその派生物と比較するために、包括的な試験を行います。言語モデリングの実験結果によると、RetNetはスケーリング曲線とコンテキスト学習の面で一貫して競争力があります。また、RetNetの推論コストは長さに影響されません。

RetNetは、7Bモデルと8kシーケンス長の場合、キーバリューキャッシュを使用するトランスフォーマーよりも8.4倍高速にデコードされ、メモリ使用量が70％減少します。RetNetは、通常のトランスフォーマーよりもトレーニングが加速し、高度に最適化されたFlashAttentionよりも優れたパフォーマンスを発揮しながら、25〜50％のメモリを節約します。RetNetの推論レイテンシはバッチサイズに影響されず、非常に高いスループットが可能です。RetNetは、魅力的な機能を備えた大規模な言語モデルのための強力なトランスフォーマーの代替です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

このAI論文では、「Retentive Networks（RetNet）」を大規模言語モデルの基礎アーキテクチャとして提案していますトレーニングの並列化、低コストの推論、そして良好なパフォーマンスを実現しています

Was this article helpful?

「データサイエンスにおける頻度論者とベイズ統計学」

類似検索、パート6：LSHフォレストによるランダム射影

機械学習

「人工知能の世界を探索する：初心者ガイド」

「NotebookLMは12以上の新機能を追加します」

「すべてのオンライン投稿は、AIの所有物です」とGoogleが発表

「2023年の最高のAIアバタージェネレーター10選」

データから真実を解読する：大きな言語モデルが真実をモデル化するためにパーソナを使用する方法

大規模言語モデル（LLM）と潜在ディリクレ配分（LDA）アルゴリズムを用いたドキュメントのトピック抽出