Search Results RT-1

ETH Zurichの研究者が、推論中に0.3%のニューロンしか使用しないが、同様のBERTモデルと同等の性能を発揮するUltraFastBERTを紹介しました

ETHチューリッヒの研究者によるUltraFastBERTの開発は、推論中に使用するニューロンの数を削減する問題に取り組み、他のモデルと同様のパフォーマンスレベルを維持しながら、高速なフィードフォワードネットワーク（FFF）の導入により、ベースラインの実装と比較して大幅な高速化を実現しました。既存の手法は、ETHチューリッヒの研究者によって提供されたコード、ベンチマーク設定、およびモデルの重みによってサポートされています。また、複数のFFFツリーによる共同計算と、GPT-3などの大規模な言語モデルへの応用の可能性を提案しています。研究では、混合スパーステンソルとデバイス固有の最適化によるさらなる高速化も提案されています。 UltraFastBERTは、推論中の選択的なエンゲージメントによる効率的な言語モデリングを実現しています。従来のモデルのフィードフォワードネットワークを簡略化されたFFFに置き換え、一貫した活性化関数と全ノードの出力重みを使用しながらバイアスを排除しています。複数のFFFツリーで中間層の出力を共同計算することにより、多様なアーキテクチャが可能となります。提供される高レベルのCPUおよびPyTorchの実装により、大幅な高速化が実現され、研究では複数のFFFツリーによる高速化や大規模な言語モデルのフィードフォワードネットワークのFFFへの置換も探求しています。デバイス固有の最適化としては、Intel MKLとNVIDIA cuBLASが提案されています。 UltraFastBERTは、推論中にBERT-baseと比較可能なパフォーマンスを達成し、そのニューロンのわずか0.3％のみを使用しています。1日の単一GPUでトレーニングされ、GLUEの予測パフォーマンスは少なくとも96.0％を維持します。UltraFastBERT-1×11-longは、そのニューロンのわずか0.3％を使用してBERT-baseのパフォーマンスに対応します。より深い高速フィードフォワードネットワークではパフォーマンスが低下しますが、CoLAを除くすべてのUltraFastBERTモデルは少なくとも98.6％の予測パフォーマンスを維持します。クイックフィードフォワードレイヤーによる大幅な高速化が示され、CPUで48倍から78倍、GPUで3.15倍の高速化が実現されており、大規模なモデルの置換の可能性が示唆されています。結論として、UltraFastBERTは、推論中にそのニューロンのわずかな部分しか使用せずに効率的な言語モデリングを実現するBERTの改良版です。提供されるCPUおよびPyTorchの実装により、それぞれ78倍と40倍の高速化が達成されています。研究は、条件付きニューラル実行のプリミティブの実装によるさらなる高速化の可能性を示唆しています。わずか0.3％のニューロンしか使用していないにも関わらず、UltraFastBERTの最良モデルはBERT-baseのパフォーマンスに匹敵し、効率的な言語モデリングの可能性を示しています。UltraFastBERTは、将来のより高速かつリソースフレンドリーなモデルの道を開く効率的な言語モデリングの潜在的な進歩を示しています。今後の研究の提案内には、ハイブリッドベクトルレベルスパーステンソルとデバイス固有の最適化を使用した効率的なFFF推論の実装、条件付きニューラル実行の完全なポテンシャルの探索、大規模な言語モデルのフィードフォワードネットワークをFFFに置換することによる最適化の可能性についての議論が含まれています。将来の作業では、PyTorchやTensorFlowなどの一般的なフレームワークで再現性のある実装と、UltraFastBERTや類似の効率的な言語モデルのパフォーマンスと実用的な影響を評価するための幅広いベンチマークに焦点を当てることができます。