より小さく、より速い言語モデルのためのブロック疎行列

Block Sparse Matrices for Smaller and Faster Language Models

空間と時間を節約する、ゼロを一つずつ

以前のブログ投稿では、疎行列とそのニューラルネットワークへの改善効果について紹介しました。

基本的な仮定は、完全な密行列層はしばしば過剰であり、精度の大幅な低下なしに剪定することができるということです。一部の場合では、疎な線形層は精度と/または一般化を向上させることさえあります。

現在利用可能な疎行列計算をサポートするコードは効率に乏しいため、主な問題です。また、公式のPyTorchサポートもまだ待たれています。

それが私たちが忍耐を尽き、この「空白」に取り組むためにこの夏に時間をかけた理由です。今日、私たちは拡張機能pytorch_block_sparseをリリースすることをうれしく思っています。

このライブラリは、それ自体だけでなく、蒸留や量子化などの他のメソッドと組み合わせて使用することにより、ネットワークをより小さく、より高速にすることができます。これはHugging Faceにとって、誰でも低コストでニューラルネットワークを本番で使用し、エンドユーザーの体験を向上させることが重要です。

使用法

提供されるBlockSparseLinearモジュールはtorch.nn.Linearの簡単な置き換えであり、モデルで簡単に使用できます:

# from torch.nn import Linear
from pytorch_block_sparse import BlockSparseLinear

...

# self.fc = nn.Linear(1024, 256)
self.fc = BlockSparseLinear(1024, 256, density=0.1)

この拡張機能は、既存のモデルを「オンザフライ」で変更することができるBlockSparseModelPatcherも提供しています。この例のノートブックに示されています。このようなモデルは、モデルのソースコードに変更を加えることなく、通常どおりにトレーニングすることができます。

NVIDIA CUTLASS

この拡張機能は、Yulhwa Kimによるcutlass tilesparse proof of conceptに基づいています。

これは、CUTLASSに基づくブロック疎行列積に対するC++ CUDAテンプレートを使用しています。

CUTLASSは、高性能なCUDAカーネルを実装するためのCUDA C++テンプレートのコレクションです。CUTLASSを使用することで、カスタムカーネルでcuBLASのパフォーマンスに近づくことができます。アセンブリ言語コードに頼る必要はありません。

最新バージョンには、すべてのAmpere Tensor Coreプリミティブが含まれており、限られた精度の損失とともにx10倍以上の高速化が可能です。次のバージョンのpytorch_block_sparseでは、これらのプリミティブを使用する予定です。なぜなら、ブロックの疎さはTensor Coresの要件と完全に互換性があるからです。

パフォーマンス

ライブラリの現在の段階では、疎行列のパフォーマンスはcuBLASに最適化された密行列の約2倍遅いですが、将来的にはこの点を改善できると自信を持っています。

これは、PyTorchの疎行列にとっては非常に大きな改善です。現在の実装は密行列よりも桁違いに遅いです。

しかし、より重要な点は、疎行列を使用することでパフォーマンスが向上することです。したがって、75%の疎行列は、密行列と比較して約2倍速いです。

メモリの節約はさらに大きいです。たとえば、75%の疎行列の場合、メモリ消費量は期待どおりに4倍減少します。

今後の取り組み

効率的にブロック疎行列層をトレーニングできるようになったのは最初のステップに過ぎません。現在は初期化時に疎さパターンが固定されていますが、学習中に最適化することで大きな改善が期待できます。

したがって、将来のバージョンでは、パラメータの「有用性」を測定するためのツールが提供され、疎さパターンを最適化することができるようになるでしょう。ブロック内のNVIDIA Ampereの50%の疎さパターンは、カッタスのより新しいバージョンへのアップグレードと同様に、さらなるパフォーマンス向上をもたらすでしょう。

ですので、近い将来にさらなる疎さの良さにご期待ください!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「大規模な言語モデルの探索-パート3」

「この記事は主に自己学習のために書かれていますしたがって、広く深く展開されています興味のあるセクションをスキップした...

データサイエンス

GPT-4 新しいOpenAIモデル

近年、人工知能に基づく自然言語システムの開発は前例のない進歩を遂げています

人工知能

「オッペンハイマーからジェネラティブAIへ:今日の企業にとっての貴重な教訓」

先週末、最新の大ヒット作品「オッペンハイマー」を劇場で3時間観ましたストーリー全体と結末はすでに知っていたにも関わらず...

AIニュース

「デリー政府、提案された電子都市にAIハブを建設する計画」

技術の進歩に向けた重要な一歩として、デリー政府は提案された電子都市にAIハブを構築することを計画しています。この都市は...

AIテクノロジー

「人工知能と画像生成の美学」

はじめに 技術と創造力の融合という興奮を感じる中、人工知能(AI)は画像生成に生命を与え、創造性の概念を変えてきました。...

人工知能

ネットワークの強化:異常検出のためのML、AI、およびDLの力を解放する

「機械学習、人工知能、そして深層学習技術が、異常を精度良く検出することでネットワークセキュリティを向上させる方法を発...