ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介

ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークQMoEを紹介

複数の専門サブネットワークの出力を組み合わせて予測や意思決定を行うために設計されたニューラルネットワークモデルは、エキスパートの混合(MoE)と呼ばれます。このアーキテクチャは、複雑で多様なデータを取り扱う際に特に有用であり、データの異なるサブセットや側面に対して特殊なモデルを効果的に処理する必要がある場合に適しています。MoEモデルは、特定の入力に対してパフォーマンスが低いエキスパートの出力を無視することを学ぶことができるため、データ中の外れ値やノイズに対してより堅牢です。

MoEアーキテクチャの計算コストは、モデルの具体的な設計、対応するタスクの複雑さ、トレーニングや推論に使用されるハードウェアによって大きく異なる場合があります。特に多くのエキスパートや複雑なゲーティングメカニズムが関与する場合、MoEアーキテクチャは従来のニューラルネットワークよりも計算コストが高くなる場合があります。たとえば、SwitchTransformer-c2048モデルは1.6兆個のパラメータを持ち、効率的に実行するには3.2 TBのアクセラレータメモリが必要です。これは困難で高価なものとなっています。

研究者は、QMoEと呼ばれる新しいフレームワークにおいて、このメモリ問題の解決策を提案しています。QMoEは、1ビット未満のパラメータごとに1.6兆個のパラメータを圧縮する正確なスケーラブルなアルゴリズムから構成されています。これにより、160 GB以下にSwitchTransformer-c2048モデルの1.6兆個のパラメータを圧縮することができ、単一のGPUで1日以内に処理することができます。これは、1ビット未満のパラメータによる正確な圧縮が実現可能であり、手頃な再トレーニング不要の圧縮技術によって達成される初めての事例です。

これは通常、特定のモデルコンポーネントのコピーを作成し、各コンポーネントがすべての入力トークンのサブセットのみを処理するようにすることで実現されます。ルータレイヤーは一般的に、対応する入力-コンポーネント割り当てを決定します。量子化は、モデルサイズやその対応するモデル重みを低い数値精度にするために現在使用されている方法です。ただし、一部のMoEは非常に大きいため、4倍以上の削減率が必要になる場合があります。極端に低い精度でモデルを量子化するには、より洗練されたデータ依存の方法が必要です。

完全精度(32ビットまたは16ビット)の重みとアクティベーションを持つニューラルネットワークをトレーニングする代わりに、データ依存の量子化手法は、量子化された重みとアクティベーションでモデルをトレーニングします。これにより、モデルは低精度数値表現の制限に適応することを学ぶことができます。データ依存の量子化のための人気のあるフレームワークやツールには、TensorFlow、PyTorch、TensorRTなどがあり、量子化に対するサポートを組み込んでいます。

研究者は、デコーディング操作とエンコード行列に対して合理的な効率を持つことを考慮しています。彼らの今後の研究では、事前に訓練されたベースモデルの直接圧縮に焦点を当てる予定です。そして将来的には、圧縮モデルを特定の下流タスクに向けて調整するフィネチューニングも行う予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

OpenAIが「スーパーアラインメント」を紹介:安全で整合性のあるAIの道を切り拓く

OpenAIは、超整合開発を紹介しています。これは、その広範な能力により、人類のために非常に大きな約束を持っています。超知...

機械学習

「2023年の最高のAI文法チェッカーツール」

Grammarly  Grammarlyは、人工知能によって強力にサポートされたウェブベースのライティングチューターです。文法、スペル、...

機械学習

2023年のトップジェネレーティブAI企業

最新の人工知能のブレイクスルーと世界中のデータ量の増加により、テキスト、音楽、画像などの新しいオリジナルコンテンツを...

機械学習

「GCPの生成AI機能を活用して変革するBFSIサービス」

「ジェネラティブAI(Gen AI)サービスがクラウドプラットフォーム上で収束することで、BFSIセクターなどの産業革新に前例の...

人工知能

「GPT-4の能力と限界を探索する」

「GPT-4の公開:データサイエンスへの影響を解読し、その強みと限界を探る」

データサイエンス

「野心的なAI規制に対する力強いプロセス:オックスフォード研究からの3ステップソリューション」

「もしアカウンタブルマネージャーやプロダクトオーナー、プロジェクトマネージャー、もしくはデータサイエンティストで、AI...