ETH Zurichの研究者が、推論中に0.3%のニューロンしか使用しないが、同様のBERTモデルと同等の性能を発揮するUltraFastBERTを紹介しました

ETH Zurichの研究者による最新技術、UltraFastBERT:推論中にわずか0.3%のニューロンを使用し、同等の性能を発揮

ETHチューリッヒの研究者によるUltraFastBERTの開発は、推論中に使用するニューロンの数を削減する問題に取り組み、他のモデルと同様のパフォーマンスレベルを維持しながら、高速なフィードフォワードネットワーク(FFF)の導入により、ベースラインの実装と比較して大幅な高速化を実現しました。

既存の手法は、ETHチューリッヒの研究者によって提供されたコード、ベンチマーク設定、およびモデルの重みによってサポートされています。また、複数のFFFツリーによる共同計算と、GPT-3などの大規模な言語モデルへの応用の可能性を提案しています。研究では、混合スパーステンソルとデバイス固有の最適化によるさらなる高速化も提案されています。

UltraFastBERTは、推論中の選択的なエンゲージメントによる効率的な言語モデリングを実現しています。従来のモデルのフィードフォワードネットワークを簡略化されたFFFに置き換え、一貫した活性化関数と全ノードの出力重みを使用しながらバイアスを排除しています。複数のFFFツリーで中間層の出力を共同計算することにより、多様なアーキテクチャが可能となります。提供される高レベルのCPUおよびPyTorchの実装により、大幅な高速化が実現され、研究では複数のFFFツリーによる高速化や大規模な言語モデルのフィードフォワードネットワークのFFFへの置換も探求しています。デバイス固有の最適化としては、Intel MKLとNVIDIA cuBLASが提案されています。

UltraFastBERTは、推論中にBERT-baseと比較可能なパフォーマンスを達成し、そのニューロンのわずか0.3%のみを使用しています。1日の単一GPUでトレーニングされ、GLUEの予測パフォーマンスは少なくとも96.0%を維持します。UltraFastBERT-1×11-longは、そのニューロンのわずか0.3%を使用してBERT-baseのパフォーマンスに対応します。より深い高速フィードフォワードネットワークではパフォーマンスが低下しますが、CoLAを除くすべてのUltraFastBERTモデルは少なくとも98.6%の予測パフォーマンスを維持します。クイックフィードフォワードレイヤーによる大幅な高速化が示され、CPUで48倍から78倍、GPUで3.15倍の高速化が実現されており、大規模なモデルの置換の可能性が示唆されています。

結論として、UltraFastBERTは、推論中にそのニューロンのわずかな部分しか使用せずに効率的な言語モデリングを実現するBERTの改良版です。提供されるCPUおよびPyTorchの実装により、それぞれ78倍と40倍の高速化が達成されています。研究は、条件付きニューラル実行のプリミティブの実装によるさらなる高速化の可能性を示唆しています。わずか0.3%のニューロンしか使用していないにも関わらず、UltraFastBERTの最良モデルはBERT-baseのパフォーマンスに匹敵し、効率的な言語モデリングの可能性を示しています。UltraFastBERTは、将来のより高速かつリソースフレンドリーなモデルの道を開く効率的な言語モデリングの潜在的な進歩を示しています。

今後の研究の提案内には、ハイブリッドベクトルレベルスパーステンソルとデバイス固有の最適化を使用した効率的なFFF推論の実装、条件付きニューラル実行の完全なポテンシャルの探索、大規模な言語モデルのフィードフォワードネットワークをFFFに置換することによる最適化の可能性についての議論が含まれています。将来の作業では、PyTorchやTensorFlowなどの一般的なフレームワークで再現性のある実装と、UltraFastBERTや類似の効率的な言語モデルのパフォーマンスと実用的な影響を評価するための幅広いベンチマークに焦点を当てることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

データを持っていますか?SMOTEとGANが合成データを作成する方法

合成データは、開発者やデータサイエンティストにとって大きな課題であるAI/MLモデルの訓練に十分でクリーンなデータを持つこ...

データサイエンス

「ゼロからLLMを構築する方法」

「これは、大規模言語モデル(LLM)を実践的に使用するシリーズの6番目の記事です以前の記事では、プロンプトエンジニアリン...

人工知能

「AWSは責任ある生成AIへの取り組みを再確認する」

人工知能(AI)や機械学習の先駆者として、AWSは責任を持って生成的AIの開発と展開に取り組んでいます生成的AIは、私たちの時...

データサイエンス

レコメンデーションシステムにおけるディープラーニング:入門

レコメンダーシステムは、現在最も急速に進化している産業用機械学習アプリケーションの一つですビジネス的な観点から見れば...

AI研究

Google Quantum AIの研究者が、拡張性のある量子エラー訂正のための漏洩管理において大きな進展を達成

最近、Google Quantum AIと他の研究機関の研究者がNature Physicsに発表した論文で、量子コンピューティングにおける重要な課...

AI研究

スタンフォード研究所がFlashAttention-2を発表:長い文脈の言語モデルの速度と効率の飛躍

過去の1年間、自然言語処理は著しい進歩を遂げており、長い文脈を備えた言語モデルが登場しました。これらのモデルには、32k...