ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介

ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークQMoEを紹介

複数の専門サブネットワークの出力を組み合わせて予測や意思決定を行うために設計されたニューラルネットワークモデルは、エキスパートの混合(MoE)と呼ばれます。このアーキテクチャは、複雑で多様なデータを取り扱う際に特に有用であり、データの異なるサブセットや側面に対して特殊なモデルを効果的に処理する必要がある場合に適しています。MoEモデルは、特定の入力に対してパフォーマンスが低いエキスパートの出力を無視することを学ぶことができるため、データ中の外れ値やノイズに対してより堅牢です。

MoEアーキテクチャの計算コストは、モデルの具体的な設計、対応するタスクの複雑さ、トレーニングや推論に使用されるハードウェアによって大きく異なる場合があります。特に多くのエキスパートや複雑なゲーティングメカニズムが関与する場合、MoEアーキテクチャは従来のニューラルネットワークよりも計算コストが高くなる場合があります。たとえば、SwitchTransformer-c2048モデルは1.6兆個のパラメータを持ち、効率的に実行するには3.2 TBのアクセラレータメモリが必要です。これは困難で高価なものとなっています。

研究者は、QMoEと呼ばれる新しいフレームワークにおいて、このメモリ問題の解決策を提案しています。QMoEは、1ビット未満のパラメータごとに1.6兆個のパラメータを圧縮する正確なスケーラブルなアルゴリズムから構成されています。これにより、160 GB以下にSwitchTransformer-c2048モデルの1.6兆個のパラメータを圧縮することができ、単一のGPUで1日以内に処理することができます。これは、1ビット未満のパラメータによる正確な圧縮が実現可能であり、手頃な再トレーニング不要の圧縮技術によって達成される初めての事例です。

これは通常、特定のモデルコンポーネントのコピーを作成し、各コンポーネントがすべての入力トークンのサブセットのみを処理するようにすることで実現されます。ルータレイヤーは一般的に、対応する入力-コンポーネント割り当てを決定します。量子化は、モデルサイズやその対応するモデル重みを低い数値精度にするために現在使用されている方法です。ただし、一部のMoEは非常に大きいため、4倍以上の削減率が必要になる場合があります。極端に低い精度でモデルを量子化するには、より洗練されたデータ依存の方法が必要です。

完全精度(32ビットまたは16ビット)の重みとアクティベーションを持つニューラルネットワークをトレーニングする代わりに、データ依存の量子化手法は、量子化された重みとアクティベーションでモデルをトレーニングします。これにより、モデルは低精度数値表現の制限に適応することを学ぶことができます。データ依存の量子化のための人気のあるフレームワークやツールには、TensorFlow、PyTorch、TensorRTなどがあり、量子化に対するサポートを組み込んでいます。

研究者は、デコーディング操作とエンコード行列に対して合理的な効率を持つことを考慮しています。彼らの今後の研究では、事前に訓練されたベースモデルの直接圧縮に焦点を当てる予定です。そして将来的には、圧縮モデルを特定の下流タスクに向けて調整するフィネチューニングも行う予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

イリノイ大学の研究者は、コードのための完全なオープンソース大規模言語モデル(LLM)のシリーズであるマジコーダを紹介しました

イリノイ大学アーバナ・シャンペーン校と清華大学の研究者チームは、オープンソースのコードスニペットからの低バイアスと高...

データサイエンス

オムニヴォアに会ってください:産業デザイナーがアートとOpenUSDを組み合わせて、AIトレーニング用の3Dアセットを作成します

編集者注:この投稿は、NVIDIA OmniverseとOpenUSDを使用して3Dワークフローを加速し、仮想世界を作成する個々のクリエイター...

機械学習

「Gradio-liteと出会う:Pyodideを使用してブラウザでインタラクティブな機械学習ベースのライブラリ(Gradio)を向上させるJavaScriptライブラリ」

Gradioは、機械学習モデルのユーザーインターフェースの作成を簡略化するオープンソースのPythonライブラリです。開発者やデ...

AI研究

UCバークレーの研究者たちは、「RLIF」という強化学習方法を導入しましたこの方法は、対話型の模倣学習に非常に近い環境での介入から学ぶものです

UCバークレーの研究者たちは、ユーザーの介入シグナルをリインフォースメントラーニング(RL)と統合した学習ベースの制御問...

コンピュータサイエンス

「AIツールにより、アジア系のMIT学生のプロフェッショナルなヘッドショットが白人に変わる」

「これは間違いなく問題だと思います」と王ロナさんは述べ、「ソフトウェアを作る人々がこのようなバイアスに気付き、それら...

機械学習

DORSalとは 3Dシーンの生成とオブジェクトレベルの編集のための3D構造拡散モデル

人工知能は、Generative AIとLarge Language Models(LLMs)の導入により進化しています。GPT、BERT、PaLMなどのよく知られた...