より小さく、より速い言語モデルのためのブロック疎行列

Block Sparse Matrices for Smaller and Faster Language Models

空間と時間を節約する、ゼロを一つずつ

以前のブログ投稿では、疎行列とそのニューラルネットワークへの改善効果について紹介しました。

基本的な仮定は、完全な密行列層はしばしば過剰であり、精度の大幅な低下なしに剪定することができるということです。一部の場合では、疎な線形層は精度と/または一般化を向上させることさえあります。

現在利用可能な疎行列計算をサポートするコードは効率に乏しいため、主な問題です。また、公式のPyTorchサポートもまだ待たれています。

それが私たちが忍耐を尽き、この「空白」に取り組むためにこの夏に時間をかけた理由です。今日、私たちは拡張機能pytorch_block_sparseをリリースすることをうれしく思っています。

このライブラリは、それ自体だけでなく、蒸留や量子化などの他のメソッドと組み合わせて使用することにより、ネットワークをより小さく、より高速にすることができます。これはHugging Faceにとって、誰でも低コストでニューラルネットワークを本番で使用し、エンドユーザーの体験を向上させることが重要です。

使用法

提供されるBlockSparseLinearモジュールはtorch.nn.Linearの簡単な置き換えであり、モデルで簡単に使用できます:

# from torch.nn import Linear
from pytorch_block_sparse import BlockSparseLinear

...

# self.fc = nn.Linear(1024, 256)
self.fc = BlockSparseLinear(1024, 256, density=0.1)

この拡張機能は、既存のモデルを「オンザフライ」で変更することができるBlockSparseModelPatcherも提供しています。この例のノートブックに示されています。このようなモデルは、モデルのソースコードに変更を加えることなく、通常どおりにトレーニングすることができます。

NVIDIA CUTLASS

この拡張機能は、Yulhwa Kimによるcutlass tilesparse proof of conceptに基づいています。

これは、CUTLASSに基づくブロック疎行列積に対するC++ CUDAテンプレートを使用しています。

CUTLASSは、高性能なCUDAカーネルを実装するためのCUDA C++テンプレートのコレクションです。CUTLASSを使用することで、カスタムカーネルでcuBLASのパフォーマンスに近づくことができます。アセンブリ言語コードに頼る必要はありません。

最新バージョンには、すべてのAmpere Tensor Coreプリミティブが含まれており、限られた精度の損失とともにx10倍以上の高速化が可能です。次のバージョンのpytorch_block_sparseでは、これらのプリミティブを使用する予定です。なぜなら、ブロックの疎さはTensor Coresの要件と完全に互換性があるからです。

パフォーマンス

ライブラリの現在の段階では、疎行列のパフォーマンスはcuBLASに最適化された密行列の約2倍遅いですが、将来的にはこの点を改善できると自信を持っています。

これは、PyTorchの疎行列にとっては非常に大きな改善です。現在の実装は密行列よりも桁違いに遅いです。

しかし、より重要な点は、疎行列を使用することでパフォーマンスが向上することです。したがって、75%の疎行列は、密行列と比較して約2倍速いです。

メモリの節約はさらに大きいです。たとえば、75%の疎行列の場合、メモリ消費量は期待どおりに4倍減少します。

今後の取り組み

効率的にブロック疎行列層をトレーニングできるようになったのは最初のステップに過ぎません。現在は初期化時に疎さパターンが固定されていますが、学習中に最適化することで大きな改善が期待できます。

したがって、将来のバージョンでは、パラメータの「有用性」を測定するためのツールが提供され、疎さパターンを最適化することができるようになるでしょう。ブロック内のNVIDIA Ampereの50%の疎さパターンは、カッタスのより新しいバージョンへのアップグレードと同様に、さらなるパフォーマンス向上をもたらすでしょう。

ですので、近い将来にさらなる疎さの良さにご期待ください!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

ChatGPTカスタム指示の使用方法(6つのユースケース)

「カスタム指示」は、ChatGPTが応答を生成する際に考慮してほしい個人の好みや要件を追加することができます

データサイエンス

データのアルトリズム:企業エンジンのデジタル燃料

デジタル経済は、知識と情報への均等で迅速かつ無料のアクセスという素晴らしい約束に基づいて構築されてきましたそれから長...

AIニュース

ChatGPTのようなChatBot Zhinaoは、何を言うべきか、何を言うべきでないかを知っています

生成型人工知能(AI)はテック界隈で中心的な役割を果たしていますが、綿密に制御されたインターネット環境での運用はほとん...

人工知能

「エンタープライズ環境におけるゼロトラストの実装」

「ゼロトラストアーキテクチャは、マイクロセグメンテーション、継続的な認証、およびアイデンティティ管理などの要素を統合...

機械学習

最速の道 AIを使用して手術室でがん細胞を分析するヘルスケアスタートアップ

医療機器会社のInvenio Imagingは、手術室で組織生検を評価することができる技術を開発しており、サンプル採取後すぐに、病理...

機械学習

「FastEmbedをご紹介:高速かつ軽量なテキスト埋め込み生成のためのPythonライブラリ」

言葉やフレーズは、埋め込みを使用して高次元空間で効果的に表現することができます。これは、自然言語処理(NLP)の分野で重...