ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介

ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークQMoEを紹介

複数の専門サブネットワークの出力を組み合わせて予測や意思決定を行うために設計されたニューラルネットワークモデルは、エキスパートの混合(MoE)と呼ばれます。このアーキテクチャは、複雑で多様なデータを取り扱う際に特に有用であり、データの異なるサブセットや側面に対して特殊なモデルを効果的に処理する必要がある場合に適しています。MoEモデルは、特定の入力に対してパフォーマンスが低いエキスパートの出力を無視することを学ぶことができるため、データ中の外れ値やノイズに対してより堅牢です。

MoEアーキテクチャの計算コストは、モデルの具体的な設計、対応するタスクの複雑さ、トレーニングや推論に使用されるハードウェアによって大きく異なる場合があります。特に多くのエキスパートや複雑なゲーティングメカニズムが関与する場合、MoEアーキテクチャは従来のニューラルネットワークよりも計算コストが高くなる場合があります。たとえば、SwitchTransformer-c2048モデルは1.6兆個のパラメータを持ち、効率的に実行するには3.2 TBのアクセラレータメモリが必要です。これは困難で高価なものとなっています。

研究者は、QMoEと呼ばれる新しいフレームワークにおいて、このメモリ問題の解決策を提案しています。QMoEは、1ビット未満のパラメータごとに1.6兆個のパラメータを圧縮する正確なスケーラブルなアルゴリズムから構成されています。これにより、160 GB以下にSwitchTransformer-c2048モデルの1.6兆個のパラメータを圧縮することができ、単一のGPUで1日以内に処理することができます。これは、1ビット未満のパラメータによる正確な圧縮が実現可能であり、手頃な再トレーニング不要の圧縮技術によって達成される初めての事例です。

これは通常、特定のモデルコンポーネントのコピーを作成し、各コンポーネントがすべての入力トークンのサブセットのみを処理するようにすることで実現されます。ルータレイヤーは一般的に、対応する入力-コンポーネント割り当てを決定します。量子化は、モデルサイズやその対応するモデル重みを低い数値精度にするために現在使用されている方法です。ただし、一部のMoEは非常に大きいため、4倍以上の削減率が必要になる場合があります。極端に低い精度でモデルを量子化するには、より洗練されたデータ依存の方法が必要です。

完全精度(32ビットまたは16ビット)の重みとアクティベーションを持つニューラルネットワークをトレーニングする代わりに、データ依存の量子化手法は、量子化された重みとアクティベーションでモデルをトレーニングします。これにより、モデルは低精度数値表現の制限に適応することを学ぶことができます。データ依存の量子化のための人気のあるフレームワークやツールには、TensorFlow、PyTorch、TensorRTなどがあり、量子化に対するサポートを組み込んでいます。

研究者は、デコーディング操作とエンコード行列に対して合理的な効率を持つことを考慮しています。彼らの今後の研究では、事前に訓練されたベースモデルの直接圧縮に焦点を当てる予定です。そして将来的には、圧縮モデルを特定の下流タスクに向けて調整するフィネチューニングも行う予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「OpenAIの研究者たちは、敵対的なトレーニングを行わずに高品質なデータサンプリングのための先進的なコンシステンシーモデルを開拓しました」

一貫性モデルは、敵対的なトレーニングに頼らずに、単一のステップで高品質のデータを生成するために設計された生成モデルの...

データサイエンス

「緑を守る:加速されたアナリティクスがコストと炭素排出を削減する」

企業は、加速されたコンピューティングが収益向上に貢献するだけでなく、地球にポジティブな影響を与えることを発見していま...

データサイエンス

機械学習システムにおけるデータ品質の維持

機械学習(ML)の眩しい世界では、洗練されたアルゴリズム、魅力的な視覚化、印象的な予測を考案する魅力に夢中になることは...

データサイエンス

ドローンは、液体ニューラルネットワークを使用して未知の環境をナビゲートします

MITの研究者たちは、脳に着想を得た液体ニューラルネットワークを使用して、自律ドローンのナビゲーションにおける新しい進歩...

データサイエンス

ChatGPTの応用:産業全体におけるポテンシャルの開放

チャットGPTの応用は、仕事や家庭のあらゆる分野で私たちの生活を変えつつありますしかし、どのようにビジネスはそれを成長に...

データサイエンス

データから洞察へ:データ分析のための生成AIの活用

「生成AIはデータ分析を革新し、生成AIのデータ分析への影響を探求し、組織が情報に基づいた意思決定にデータを活用する方法...