より小さく、より速い言語モデルのためのブロック疎行列

Block Sparse Matrices for Smaller and Faster Language Models

空間と時間を節約する、ゼロを一つずつ

以前のブログ投稿では、疎行列とそのニューラルネットワークへの改善効果について紹介しました。

基本的な仮定は、完全な密行列層はしばしば過剰であり、精度の大幅な低下なしに剪定することができるということです。一部の場合では、疎な線形層は精度と/または一般化を向上させることさえあります。

現在利用可能な疎行列計算をサポートするコードは効率に乏しいため、主な問題です。また、公式のPyTorchサポートもまだ待たれています。

それが私たちが忍耐を尽き、この「空白」に取り組むためにこの夏に時間をかけた理由です。今日、私たちは拡張機能pytorch_block_sparseをリリースすることをうれしく思っています。

このライブラリは、それ自体だけでなく、蒸留や量子化などの他のメソッドと組み合わせて使用することにより、ネットワークをより小さく、より高速にすることができます。これはHugging Faceにとって、誰でも低コストでニューラルネットワークを本番で使用し、エンドユーザーの体験を向上させることが重要です。

使用法

提供されるBlockSparseLinearモジュールはtorch.nn.Linearの簡単な置き換えであり、モデルで簡単に使用できます:

# from torch.nn import Linear
from pytorch_block_sparse import BlockSparseLinear

...

# self.fc = nn.Linear(1024, 256)
self.fc = BlockSparseLinear(1024, 256, density=0.1)

この拡張機能は、既存のモデルを「オンザフライ」で変更することができるBlockSparseModelPatcherも提供しています。この例のノートブックに示されています。このようなモデルは、モデルのソースコードに変更を加えることなく、通常どおりにトレーニングすることができます。

NVIDIA CUTLASS

この拡張機能は、Yulhwa Kimによるcutlass tilesparse proof of conceptに基づいています。

これは、CUTLASSに基づくブロック疎行列積に対するC++ CUDAテンプレートを使用しています。

CUTLASSは、高性能なCUDAカーネルを実装するためのCUDA C++テンプレートのコレクションです。CUTLASSを使用することで、カスタムカーネルでcuBLASのパフォーマンスに近づくことができます。アセンブリ言語コードに頼る必要はありません。

最新バージョンには、すべてのAmpere Tensor Coreプリミティブが含まれており、限られた精度の損失とともにx10倍以上の高速化が可能です。次のバージョンのpytorch_block_sparseでは、これらのプリミティブを使用する予定です。なぜなら、ブロックの疎さはTensor Coresの要件と完全に互換性があるからです。

パフォーマンス

ライブラリの現在の段階では、疎行列のパフォーマンスはcuBLASに最適化された密行列の約2倍遅いですが、将来的にはこの点を改善できると自信を持っています。

これは、PyTorchの疎行列にとっては非常に大きな改善です。現在の実装は密行列よりも桁違いに遅いです。

しかし、より重要な点は、疎行列を使用することでパフォーマンスが向上することです。したがって、75%の疎行列は、密行列と比較して約2倍速いです。

メモリの節約はさらに大きいです。たとえば、75%の疎行列の場合、メモリ消費量は期待どおりに4倍減少します。

今後の取り組み

効率的にブロック疎行列層をトレーニングできるようになったのは最初のステップに過ぎません。現在は初期化時に疎さパターンが固定されていますが、学習中に最適化することで大きな改善が期待できます。

したがって、将来のバージョンでは、パラメータの「有用性」を測定するためのツールが提供され、疎さパターンを最適化することができるようになるでしょう。ブロック内のNVIDIA Ampereの50%の疎さパターンは、カッタスのより新しいバージョンへのアップグレードと同様に、さらなるパフォーマンス向上をもたらすでしょう。

ですので、近い将来にさらなる疎さの良さにご期待ください!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

ChatGPTによって発明された10の感情(驚くほど共感できる)

ChatGPTは、私たち人間が感じる複雑な感情の配列を捉え、それに対して新しい言葉を作り出すことにおいて、巧みな能力を持って...

データサイエンス

現代のサイバーセキュリティの脅威に対処する効果的な方法

「サイバーセキュリティの脅威は技術の進歩に伴って増加していますこの記事では一般的な脅威の扱い方をカバーします」

AIニュース

「比喩的に言えば、ChatGPTは生きている」

ChatGPTの成長は年々劇的に進んできました最近、OpenAIはChatGPTが聞くこと、見ること、話すことができるようになったことを...

AI研究

スターリング-7B AIフィードバックからの強化学習によるLLM

UCバークレーの研究チームが、オープンソースの大規模言語モデル(LLM)であるStarling-7Bを導入しています。このモデルは人...

人工知能

「Retrato:セルフィーをプロの写真に変える」

予算の関係でプロの写真撮影が難しい場合、非常に安価なオプションがありますそれが「Retrato」です

機械学習

「ステーブル拡散」は実際にどのように機能するのでしょうか?直感的な説明

この短い記事では、初心者に対して安定した拡散(Stable Diffusion)が直感的にどのように機能するかを説明していますこれは...