このAI論文では、「Retentive Networks(RetNet)」を大規模言語モデルの基礎アーキテクチャとして提案していますトレーニングの並列化、低コストの推論、そして良好なパフォーマンスを実現しています

In this AI paper, we propose Retentive Networks (RetNet) as the foundational architecture for large-scale language models, achieving parallelized training, low-cost inference, and excellent performance.

Transformerは、最初に順次トレーニングの問題を解決するために開発されたものであり、その後、大規模な言語モデルのデファクトアーキテクチャとして受け入れられるようになりました。TransformerのO(N)のステップごとの複雑さとメモリバウンドのキーバリューキャッシュは、デプロイメントには適しておらず、トレーニングの並列性を犠牲にして推論性能が低下します。シーケンスの長さの増加は推論速度を遅くし、レイテンシを増加させ、GPUメモリをより多く使用します。次世代のアーキテクチャは、トランスフォーマーと同様のトレーニングの並列性と競争力のあるパフォーマンスを維持しながら、効果的なO(1)の推論を実現するために、広範な開発が続けられています。

図1:RetNetは「不可能な三角形」を実現し、トレーニングの並列性、高いパフォーマンス、低コストの推論を同時に実現します。

図1の「不可能な三角形」は、上記の目標を同時に達成するのがどれだけ困難であるかを示しています。3つの主要な研究分野が存在します。まず、線形化されたアテンションは、カーネルϕ(q)。ϕ(k)を使用して従来のアテンションスコアexp(q。k)を近似することで、自己回帰的な推論を書き直します。この手法は、トランスフォーマーに比べてパフォーマンスが劣るため、人気が向上する可能性があります。2番目の研究では、効果的な推論のために、並列トレーニングを捨てて再帰モデルを使用します。要素ごとの演算子を使用してアクセラレーションを修正しますが、これにより表現能力とパフォーマンスが犠牲になります。3番目の研究では、S4やその変種などの代替メカニズムをアテンションに代わって使用することが調査されています。

以前の研究では、トランスフォーマーと比較して明確な勝者はいません。マイクロソフトリサーチと清華大学の研究者は、RetNetと呼ばれる保持ネットワーク(RetNet)を提案しました。RetNetは、低コストの推論、効果的な長シーケンスモデリング、トランスフォーマーと同等のパフォーマンス、並列モデルトレーニングを同時に提供します。彼らは、マルチスケールの保持メカニズムを提供し、マルチヘッドアテンションを置き換えるために類似、再帰、チャンクごとの再帰表現を使用します。まず、並列表現により、トレーニングの並列性を完全にGPUデバイスで利用できます。次に、再帰表現により、メモリと計算に関して効率的なO(1)の推論が可能になります。デプロイメントの費用とレイテンシを大幅に削減できます。

キーバリューキャッシュ技術を使用せずに、この手法ははるかに簡単です。さらに、チャンクごとの再帰表現を使用することで、効果的な長シーケンスモデリングが可能です。彼らは、グローバルブロックを繰り返しエンコードしてGPUメモリを節約し、同時に各ローカルブロックをエンコードして処理を高速化します。RetNetをトランスフォーマーとその派生物と比較するために、包括的な試験を行います。言語モデリングの実験結果によると、RetNetはスケーリング曲線とコンテキスト学習の面で一貫して競争力があります。また、RetNetの推論コストは長さに影響されません。

RetNetは、7Bモデルと8kシーケンス長の場合、キーバリューキャッシュを使用するトランスフォーマーよりも8.4倍高速にデコードされ、メモリ使用量が70%減少します。RetNetは、通常のトランスフォーマーよりもトレーニングが加速し、高度に最適化されたFlashAttentionよりも優れたパフォーマンスを発揮しながら、25〜50%のメモリを節約します。RetNetの推論レイテンシはバッチサイズに影響されず、非常に高いスループットが可能です。RetNetは、魅力的な機能を備えた大規模な言語モデルのための強力なトランスフォーマーの代替です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ダイナミックAIプロジェクト見積もり' (Dainamikku AI purojekuto mitsumori)

現在、ほとんどの人が見積もりを使用しています顧客は、プロジェクトの結果を使用するタイミングを計画し制御するためにそれ...

AIニュース

「ChatGPTのためにNGINXを使用してOpenAIリバースプロキシを設定する」

「ChatGPT OpenAIリバースプロキシとNGINXのステップバイステップの手順で、Janitor AIや他のサービスへのシームレスな統合を...

AI研究

デューク大学の研究者たちは、ポリシーステッチングを提案していますこれは、ロボットとタスクの新しい組み合わせにおけるロボットの転送学習を容易にする、画期的なAIフレームワークです

ロボット工学では、環境の変化やロボット構造の変更に敏感なスキルをロボットに教えるために、強化学習(RL)を使用する際に...

人工知能

コンテンツクリエイター向けの20のクロードのプロンプト

「ここには、Claudeにコピー&ペーストできる20のプロンプトがありますこれを使用して、オーディエンスを10倍速く成長させて...

AIニュース

「デリー政府、提案された電子都市にAIハブを建設する計画」

技術の進歩に向けた重要な一歩として、デリー政府は提案された電子都市にAIハブを構築することを計画しています。この都市は...

人工知能

リアルタイムなSlackボットを生成的AIで構築する

「Apache NiFi、LLM、Foundation Models、およびストリーミングを使用して、クールなSlackbotを構築する方法を学びましょうモ...