このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模言語モデル(LLM)の提供を行っています

このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模な言語モデル(LLM)の提供を行っています


大規模言語モデル(LLM)は、最近の人工知能コミュニティで最新の導入であり、世界中で大きな話題となっています。これらのモデルは、その驚異的な能力により、研究者、科学者、学生など、誰もが利用しています。これらのモデルは、質問に答える、コンテンツを生成する、テキストを要約する、コードを完成させるなど、人間を模倣する潜在能力を持つため、非常に進歩してきました。

LLMは、感情分析、インテリジェントなチャットボット、コンテンツ作成など、多くのドメインで必要とされています。これらのモデルは、多くの計算リソースを使用するため、GPUリソースを効果的に利用してスループットを増加させます。これは、複数のユーザリクエストをバッチ処理することによって行われ、さらにメモリ効率と計算能力を向上させるために、LLMの量子化技術が使用されています。ただし、8ビットのウェイト-アクティベーションの量子化など、既存の量子化手法では、新しいGPUの可能性を十分に活用していません。これらのGPU上の整数演算子は4ビットですので、現在の量子化技術は最大の効率を追求した設計ではありません。

この問題を解決するために、研究者たちはAtomという新しい方法を導入しました。Atomは、精度を犠牲にせずにスループットを大幅に増加させるために作成されたロービットの量子化技術です。これを達成するために、低ビットの演算子と低ビットの量子化を使用してメモリ使用量を削減します。Atomは細粒度と混合精度の量子化の特別な組み合わせを使用して優れた精度を維持します。

研究チームは、Atomが具体的なセットアップでの最大スループットを保ちながら、4ビットのウェイト-アクティベーションの量子化構成で評価されたことを共有しました。その結果、Atomは従来の16ビット浮動小数点(FP16)アプローチと比較してエンドツーエンドのスループットを最大7.73倍向上させ、8ビットの整数(INT8)量子化と比較して2.53倍向上させることが示されました。これにより、Atomは彼らのサービスへの需要の増加に対応するための実用的な解決策となり、望ましい応答時間を維持しながらLLMがリクエストを処理する速度を大幅に向上させます。

研究者たちは、主な貢献を以下のようにまとめました。

  1. 研究のパフォーマンス分析の一環として、LLMの提供が徹底的に分析されました。低ビットのウェイト-アクティベーションの量子化手法を使用することによる重要なパフォーマンスの利点が特定されました。
  1. Atomというユニークで正確なロービットのウェイト-アクティベーションの量子化手法が提示されました。
  1. 研究チームは、ピークパフォーマンスを保証するためにさまざまな戦略を採用していることを共有しました。混合精度を使用し、主要なアクティベーションとウェイトは精度を保ったまま、残りの部分は低精度を使用しています。細かいグループの量子化は、量子化プロセス中のエラーを減らすために使用されています。
  1. Atomは動的アクティベーションの量子化を使用し、各入力の一意の分布に合わせて量子化エラーを減らします。さらに全体のパフォーマンスを向上させるために、この方法はキーバリューキャッシュの量子化にも対応しています。
  1. 研究では、長期管理(LLM)の提供のための統合フレームワークも提案されています。研究チームは効果的な推論システムを共同設計し、Atomの実際の環境での有用なエンドツーエンドのスループットと待ち時間を示しています。
  1. Atomのパフォーマンスは徹底的に評価され、Atomはわずかな精度の損失を伴う可能な最大スループットの向上を実現することが示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

衝撃的な現実:ChatGPTのデータ漏洩への脆弱性

最近の研究論文「ChatGPTからのトレーニングデータの抽出」は、広く使用されている言語モデルの驚くべき脆弱性を明らかにしま...

AI研究

中国の研究者たちは、RetriKTと呼ばれる新しい圧縮パラダイムを導入しました:大規模な事前学習済み言語モデルの実世界アプリケーションへの展開を革命化するものです

自然言語処理(NLP)のアプリケーションでは、事前学習済み言語モデル(PLMs)であるBERT/RoBERTaを含む、卓越したパフォーマ...

データサイエンス

データサイエンティストが生産性を10倍にするための5つのツール

AIツールは、単調で繰り返されるタスクを自動化することで、データサイエンティストの生産性を最大限に引き上げるのに役立ち...

機械学習

「Co-BioNetに会ってください:モナッシュ大学の敵対的AIシステムが医療画像解析を革新し、広範な人間の注釈なしで精度を向上させています」

ディープラーニングは医療人工知能を大幅に進化させました。しかし、特に画像セグメンテーションのタスクにおいて、訓練に多...

AI研究

CMUとプリンストンの研究者がマンバを発表:多様なモードのディープラーニングアプリケーションにおいてトランスフォーマーの効率を超えるSSMアーキテクチャの画期的な進展

現代の機械学習において、ファウンデーションモデルは、大量のデータで事前に学習され、その後に下流のタスクに対して改変さ...

データサイエンス

常に学習中 AIがデータ漏洩を防ぐ方法

この記事では、データ侵害を防ぐために人工知能の利用について議論しています人工知能が悪意のある活動を検出し、データのパ...