ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介

ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークQMoEを紹介

複数の専門サブネットワークの出力を組み合わせて予測や意思決定を行うために設計されたニューラルネットワークモデルは、エキスパートの混合(MoE)と呼ばれます。このアーキテクチャは、複雑で多様なデータを取り扱う際に特に有用であり、データの異なるサブセットや側面に対して特殊なモデルを効果的に処理する必要がある場合に適しています。MoEモデルは、特定の入力に対してパフォーマンスが低いエキスパートの出力を無視することを学ぶことができるため、データ中の外れ値やノイズに対してより堅牢です。

MoEアーキテクチャの計算コストは、モデルの具体的な設計、対応するタスクの複雑さ、トレーニングや推論に使用されるハードウェアによって大きく異なる場合があります。特に多くのエキスパートや複雑なゲーティングメカニズムが関与する場合、MoEアーキテクチャは従来のニューラルネットワークよりも計算コストが高くなる場合があります。たとえば、SwitchTransformer-c2048モデルは1.6兆個のパラメータを持ち、効率的に実行するには3.2 TBのアクセラレータメモリが必要です。これは困難で高価なものとなっています。

研究者は、QMoEと呼ばれる新しいフレームワークにおいて、このメモリ問題の解決策を提案しています。QMoEは、1ビット未満のパラメータごとに1.6兆個のパラメータを圧縮する正確なスケーラブルなアルゴリズムから構成されています。これにより、160 GB以下にSwitchTransformer-c2048モデルの1.6兆個のパラメータを圧縮することができ、単一のGPUで1日以内に処理することができます。これは、1ビット未満のパラメータによる正確な圧縮が実現可能であり、手頃な再トレーニング不要の圧縮技術によって達成される初めての事例です。

これは通常、特定のモデルコンポーネントのコピーを作成し、各コンポーネントがすべての入力トークンのサブセットのみを処理するようにすることで実現されます。ルータレイヤーは一般的に、対応する入力-コンポーネント割り当てを決定します。量子化は、モデルサイズやその対応するモデル重みを低い数値精度にするために現在使用されている方法です。ただし、一部のMoEは非常に大きいため、4倍以上の削減率が必要になる場合があります。極端に低い精度でモデルを量子化するには、より洗練されたデータ依存の方法が必要です。

完全精度(32ビットまたは16ビット)の重みとアクティベーションを持つニューラルネットワークをトレーニングする代わりに、データ依存の量子化手法は、量子化された重みとアクティベーションでモデルをトレーニングします。これにより、モデルは低精度数値表現の制限に適応することを学ぶことができます。データ依存の量子化のための人気のあるフレームワークやツールには、TensorFlow、PyTorch、TensorRTなどがあり、量子化に対するサポートを組み込んでいます。

研究者は、デコーディング操作とエンコード行列に対して合理的な効率を持つことを考慮しています。彼らの今後の研究では、事前に訓練されたベースモデルの直接圧縮に焦点を当てる予定です。そして将来的には、圧縮モデルを特定の下流タスクに向けて調整するフィネチューニングも行う予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

Amazon SageMakerを使用してモデルの精度を向上させるために、ファンデーションモデルを使用します

「住宅の価値を決定することは機械学習(ML)の典型的な例ですこの投稿では、ビジュアル質問応答(VQA)のために特に設計され...

機械学習

レオナルドAI:Midjourneyの新たな競合相手

レオナルドAIは、ミッドジャーニーがこれまで築いてきた地位に挑戦する注目すべき代替手段として徐々に浮上しています

機械学習

「GPTモデルの信頼性に関する詳細な分析」

最近のグローバルな世論調査では、半数以上の回答者が、この新興技術を金融計画や医療ガイダンスなどの機密性の高い分野に利...

機械学習

MLCommonsは、臨床効果を提供するためのAIモデルのベンチマークを行うためのオープンソースプラットフォームであるMedPerfを紹介します

AIモデルの有効性を大規模かつ多様な実世界データセットで評価することは、医療AIの臨床翻訳において重要です。MLCommonsとい...

AI研究

安全で信頼性の高い自動操縦飛行への一歩

安全性と安定性のしばしば相反する目標を満たすための新しいAIベースのアプローチにより、自律ロボットの制御が可能になりました

機械学習

「低コスト四足ロボットはパルクールをマスターできるのか? アジャイルなロボット運動のための革命的な学習システムを公開する」

複雑な物理的タスク、例えば困難な環境でのナビゲーションなどをロボットに実行させるという課題は、ロボティクスにおいて長...