このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模言語モデル(LLM)の提供を行っています
このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模な言語モデル(LLM)の提供を行っています
大規模言語モデル(LLM)は、最近の人工知能コミュニティで最新の導入であり、世界中で大きな話題となっています。これらのモデルは、その驚異的な能力により、研究者、科学者、学生など、誰もが利用しています。これらのモデルは、質問に答える、コンテンツを生成する、テキストを要約する、コードを完成させるなど、人間を模倣する潜在能力を持つため、非常に進歩してきました。
LLMは、感情分析、インテリジェントなチャットボット、コンテンツ作成など、多くのドメインで必要とされています。これらのモデルは、多くの計算リソースを使用するため、GPUリソースを効果的に利用してスループットを増加させます。これは、複数のユーザリクエストをバッチ処理することによって行われ、さらにメモリ効率と計算能力を向上させるために、LLMの量子化技術が使用されています。ただし、8ビットのウェイト-アクティベーションの量子化など、既存の量子化手法では、新しいGPUの可能性を十分に活用していません。これらのGPU上の整数演算子は4ビットですので、現在の量子化技術は最大の効率を追求した設計ではありません。
この問題を解決するために、研究者たちはAtomという新しい方法を導入しました。Atomは、精度を犠牲にせずにスループットを大幅に増加させるために作成されたロービットの量子化技術です。これを達成するために、低ビットの演算子と低ビットの量子化を使用してメモリ使用量を削減します。Atomは細粒度と混合精度の量子化の特別な組み合わせを使用して優れた精度を維持します。
- このAI研究により、チップデザインに適した言語モデルの独自な手法が紹介されています
- オックスフォード大学の研究者たちは、DynPointという人工知能アルゴリズムを開発しましたこのアルゴリズムは、自由な単眼ビデオの新しい視点を迅速に合成することを目的としています
- 中国の研究者たちは、複雑な現実世界の課題を解決するために、大規模言語模型(LLM)がマルチモーダルツールを利用できるようにする人工知能フレームワークであるControlLLMを紹介しました
研究チームは、Atomが具体的なセットアップでの最大スループットを保ちながら、4ビットのウェイト-アクティベーションの量子化構成で評価されたことを共有しました。その結果、Atomは従来の16ビット浮動小数点(FP16)アプローチと比較してエンドツーエンドのスループットを最大7.73倍向上させ、8ビットの整数(INT8)量子化と比較して2.53倍向上させることが示されました。これにより、Atomは彼らのサービスへの需要の増加に対応するための実用的な解決策となり、望ましい応答時間を維持しながらLLMがリクエストを処理する速度を大幅に向上させます。
研究者たちは、主な貢献を以下のようにまとめました。
- 研究のパフォーマンス分析の一環として、LLMの提供が徹底的に分析されました。低ビットのウェイト-アクティベーションの量子化手法を使用することによる重要なパフォーマンスの利点が特定されました。
- Atomというユニークで正確なロービットのウェイト-アクティベーションの量子化手法が提示されました。
- 研究チームは、ピークパフォーマンスを保証するためにさまざまな戦略を採用していることを共有しました。混合精度を使用し、主要なアクティベーションとウェイトは精度を保ったまま、残りの部分は低精度を使用しています。細かいグループの量子化は、量子化プロセス中のエラーを減らすために使用されています。
- Atomは動的アクティベーションの量子化を使用し、各入力の一意の分布に合わせて量子化エラーを減らします。さらに全体のパフォーマンスを向上させるために、この方法はキーバリューキャッシュの量子化にも対応しています。
- 研究では、長期管理(LLM)の提供のための統合フレームワークも提案されています。研究チームは効果的な推論システムを共同設計し、Atomの実際の環境での有用なエンドツーエンドのスループットと待ち時間を示しています。
- Atomのパフォーマンスは徹底的に評価され、Atomはわずかな精度の損失を伴う可能な最大スループットの向上を実現することが示されています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- マイクロソフトの研究者が「LoRAShear LLMの構造的な剪定と知識の回復に対する画期的な人工知能効率的アプローチ」を紹介
- サリー大学の研究者が新しい人工知能(AI)モデルを開発しましたこのモデルは、通信ネットワークが最大76%ものネットワークを節約できる可能性があります
- COSPとUSPの内部:GoogleがLLMsの推論を進めるための新しい方法を研究する
- 「ビジョン・トランスフォーマーの内部機能」
- 「AWS 研究者がジェミニを紹介:大規模な深層学習トレーニングにおける画期的な高速障害回復」
- ミシガン大学の研究者は、AIの心理理論において新領域を開拓し、分類法と厳密な評価プロトコルを明らかにしました
- AIにおける事実性の向上 このAI研究は、より正確かつ反映性のある言語モデルを実現するためのセルフ-RAGを紹介します