ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介

ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークQMoEを紹介

複数の専門サブネットワークの出力を組み合わせて予測や意思決定を行うために設計されたニューラルネットワークモデルは、エキスパートの混合(MoE)と呼ばれます。このアーキテクチャは、複雑で多様なデータを取り扱う際に特に有用であり、データの異なるサブセットや側面に対して特殊なモデルを効果的に処理する必要がある場合に適しています。MoEモデルは、特定の入力に対してパフォーマンスが低いエキスパートの出力を無視することを学ぶことができるため、データ中の外れ値やノイズに対してより堅牢です。

MoEアーキテクチャの計算コストは、モデルの具体的な設計、対応するタスクの複雑さ、トレーニングや推論に使用されるハードウェアによって大きく異なる場合があります。特に多くのエキスパートや複雑なゲーティングメカニズムが関与する場合、MoEアーキテクチャは従来のニューラルネットワークよりも計算コストが高くなる場合があります。たとえば、SwitchTransformer-c2048モデルは1.6兆個のパラメータを持ち、効率的に実行するには3.2 TBのアクセラレータメモリが必要です。これは困難で高価なものとなっています。

研究者は、QMoEと呼ばれる新しいフレームワークにおいて、このメモリ問題の解決策を提案しています。QMoEは、1ビット未満のパラメータごとに1.6兆個のパラメータを圧縮する正確なスケーラブルなアルゴリズムから構成されています。これにより、160 GB以下にSwitchTransformer-c2048モデルの1.6兆個のパラメータを圧縮することができ、単一のGPUで1日以内に処理することができます。これは、1ビット未満のパラメータによる正確な圧縮が実現可能であり、手頃な再トレーニング不要の圧縮技術によって達成される初めての事例です。

これは通常、特定のモデルコンポーネントのコピーを作成し、各コンポーネントがすべての入力トークンのサブセットのみを処理するようにすることで実現されます。ルータレイヤーは一般的に、対応する入力-コンポーネント割り当てを決定します。量子化は、モデルサイズやその対応するモデル重みを低い数値精度にするために現在使用されている方法です。ただし、一部のMoEは非常に大きいため、4倍以上の削減率が必要になる場合があります。極端に低い精度でモデルを量子化するには、より洗練されたデータ依存の方法が必要です。

完全精度(32ビットまたは16ビット)の重みとアクティベーションを持つニューラルネットワークをトレーニングする代わりに、データ依存の量子化手法は、量子化された重みとアクティベーションでモデルをトレーニングします。これにより、モデルは低精度数値表現の制限に適応することを学ぶことができます。データ依存の量子化のための人気のあるフレームワークやツールには、TensorFlow、PyTorch、TensorRTなどがあり、量子化に対するサポートを組み込んでいます。

研究者は、デコーディング操作とエンコード行列に対して合理的な効率を持つことを考慮しています。彼らの今後の研究では、事前に訓練されたベースモデルの直接圧縮に焦点を当てる予定です。そして将来的には、圧縮モデルを特定の下流タスクに向けて調整するフィネチューニングも行う予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

スタンフォード大学の新しい人工知能研究は、説明が意思決定時のAIシステムへの過度の依存を軽減する方法を示しています

近年の人工知能(AI)のブームは、AIの能力によって仕事がより速く、より少ない労力で行われることによって、人間の生活がど...

機械学習

GPTとBERT:どちらが優れているのか?

生成AIの人気の高まりに伴い、大規模言語モデルの数も増加していますこの記事では、GPTとBERTの2つのモデルを比較しますGPT(...

人工知能

「2023年のトップAI画像から動画を生成するツール」

Genmo Genmoは、テキストをページの二次元以上に超えるビジュアル形式に変換する、人工知能によるビデオ生成システムです。自...

データサイエンス

新しいAI研究が「SWIM-IR」をリリース!2800万対33の言語にわたる大規模な合成多言語検索データセット

Google Research、Google DeepMind、そしてウォータールー大学の研究者は、多言語リトリーバルにおける限られた人間によって...

データサイエンス

次元の呪いの真の範囲を可視化する

非常に多くの特徴を持つ観測の振る舞いを視覚化するために、モンテカルロ法を使用する

AIテクノロジー

イネイテンスとは何か?人工知能にとって重要なのか?(パート2)

「生物学と人工知能における先天性の問題は、人間のようなAIの将来にとって重要ですこの2部構成の深い探求は、この概念とその...