このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模言語モデル(LLM)の提供を行っています

このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模な言語モデル(LLM)の提供を行っています


大規模言語モデル(LLM)は、最近の人工知能コミュニティで最新の導入であり、世界中で大きな話題となっています。これらのモデルは、その驚異的な能力により、研究者、科学者、学生など、誰もが利用しています。これらのモデルは、質問に答える、コンテンツを生成する、テキストを要約する、コードを完成させるなど、人間を模倣する潜在能力を持つため、非常に進歩してきました。

LLMは、感情分析、インテリジェントなチャットボット、コンテンツ作成など、多くのドメインで必要とされています。これらのモデルは、多くの計算リソースを使用するため、GPUリソースを効果的に利用してスループットを増加させます。これは、複数のユーザリクエストをバッチ処理することによって行われ、さらにメモリ効率と計算能力を向上させるために、LLMの量子化技術が使用されています。ただし、8ビットのウェイト-アクティベーションの量子化など、既存の量子化手法では、新しいGPUの可能性を十分に活用していません。これらのGPU上の整数演算子は4ビットですので、現在の量子化技術は最大の効率を追求した設計ではありません。

この問題を解決するために、研究者たちはAtomという新しい方法を導入しました。Atomは、精度を犠牲にせずにスループットを大幅に増加させるために作成されたロービットの量子化技術です。これを達成するために、低ビットの演算子と低ビットの量子化を使用してメモリ使用量を削減します。Atomは細粒度と混合精度の量子化の特別な組み合わせを使用して優れた精度を維持します。

研究チームは、Atomが具体的なセットアップでの最大スループットを保ちながら、4ビットのウェイト-アクティベーションの量子化構成で評価されたことを共有しました。その結果、Atomは従来の16ビット浮動小数点(FP16)アプローチと比較してエンドツーエンドのスループットを最大7.73倍向上させ、8ビットの整数(INT8)量子化と比較して2.53倍向上させることが示されました。これにより、Atomは彼らのサービスへの需要の増加に対応するための実用的な解決策となり、望ましい応答時間を維持しながらLLMがリクエストを処理する速度を大幅に向上させます。

研究者たちは、主な貢献を以下のようにまとめました。

  1. 研究のパフォーマンス分析の一環として、LLMの提供が徹底的に分析されました。低ビットのウェイト-アクティベーションの量子化手法を使用することによる重要なパフォーマンスの利点が特定されました。
  1. Atomというユニークで正確なロービットのウェイト-アクティベーションの量子化手法が提示されました。
  1. 研究チームは、ピークパフォーマンスを保証するためにさまざまな戦略を採用していることを共有しました。混合精度を使用し、主要なアクティベーションとウェイトは精度を保ったまま、残りの部分は低精度を使用しています。細かいグループの量子化は、量子化プロセス中のエラーを減らすために使用されています。
  1. Atomは動的アクティベーションの量子化を使用し、各入力の一意の分布に合わせて量子化エラーを減らします。さらに全体のパフォーマンスを向上させるために、この方法はキーバリューキャッシュの量子化にも対応しています。
  1. 研究では、長期管理(LLM)の提供のための統合フレームワークも提案されています。研究チームは効果的な推論システムを共同設計し、Atomの実際の環境での有用なエンドツーエンドのスループットと待ち時間を示しています。
  1. Atomのパフォーマンスは徹底的に評価され、Atomはわずかな精度の損失を伴う可能な最大スループットの向上を実現することが示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「AIモデルは強力ですが、生物学的に妥当でしょうか?」

「神経科学と機械学習を結ぶ新たな研究が、アストロサイトが人間の脳における潜在的な役割についての洞察を提供しています」

データサイエンス

データウェアハウス:情報ストレージの不滅の巨人たち

データウェアハウスは、今や従来のITインフラストラクチャーの外で運用されていますこの産業は常に進化しており、一つの汎用...

機械学習

コンセプトグラフの紹介:3Dシーンのためのオープンボキャブラリーグラフ構造表現

視覚シーンに関する情報をキャプチャして符号化することは、コンピュータビジョン、人工知能、またはグラフィックスのコンテ...

データサイエンス

「なぜデータパイプラインには閉ループフィードバック制御が必要なのか」

クラウド上でデータチームがスケールアップするにつれて、データプラットフォームチームは、彼らが責任を持つワークロードが...

AI研究

メタAIの研究者たちは、大規模な言語モデルの生成物を批評するための新しいAIモデルを紹介しました

I had trouble accessing your link so I’m going to try to continue without it. 大規模言語モデル(LLM)の能力は、...

データサイエンス

データサイエンティストが生産性を10倍にするための5つのツール

AIツールは、単調で繰り返されるタスクを自動化することで、データサイエンティストの生産性を最大限に引き上げるのに役立ち...