このAI論文では、これらの課題に対処しながらMoEsの利点を維持するために、完全に微分可能な疎なTransformerであるSoft MoEを提案しています

The proposed Soft MoE is a fully differentiable sparse Transformer that maintains the advantages of MoEs while addressing these challenges.

大きなTransformerが適切に機能するには、より多くの計算コストが必要です。最近の研究では、モデルのサイズとトレーニングデータは同時にスケーリングする必要があり、トレーニングの計算リソースを最大限に活用するために必要です。モデルの拡張性を可能にする代替手法として、専門家のスパースミックスが考えられています。言語、ビジョン、およびマルチモーダルモデルでは、ネットワーク全体でトークンパスウェイをスパースに活性化するための手法が最近開発されています。スパースMoE Transformerの中心にあるのは、各入力トークンに適用するモジュールを選択することであり、これは離散最適化の課題です。

これらのモジュールはしばしばMLP(多層パーセプトロン)であり、専門家と呼ばれています。適切なトークンと専門家のペアリングを特定するためには、線形プログラム、強化学習、決定論的な固定ルール、最適輸送、トークンごとの上位kの専門家、および専門家ごとの上位kのトークンなど、さまざまな手法が使用されます。専門家の利用率をバランスさせ、未割り当てのトークンを減らすためには、ヒューリスティックな補助的な損失がしばしば必要です。小さな推論バッチサイズ、一意の入力、または転移学習は、これらの問題を分布外設定で悪化させることがあります。Google DeepMindの研究者は、これらの問題のいくつかに対処する新しい戦略であるSoft MoEを提供しています。

Soft MoEは、トークンと専門家の間の良いハードな割り当てを求めるスパースで離散的なルーターではなく、トークンを組み合わせることによってソフトな割り当てを行います。彼らは特に、トークンと専門家の両方に依存するいくつかの重み付き平均を構築し、それぞれの重み付き平均を関連する専門家で処理します。スパースMoEの中心にある離散プロセスによって引き起こされる上記の多くの問題は、ソフトMoEモデルでは存在しません。一般的なスパースMoE手法では、望ましい挙動を課す補助的な損失があり、これらの補助的な損失はルーティングスコアに依存します。ルーターパラメータは、専門家の出力を選択されたルーティングスコアと後置乗算することで学習されます。

観察によると、これらのアルゴリズムはしばしばランダムな固定ルーティングと同様のパフォーマンスを発揮します。Soft MoEは、各入力トークンに依存して各ルーティングパラメータを直接更新することにより、この問題を回避します。彼らは、巨大な割合の入力トークンがネットワーク内で同時に離散的なパスを変更できることに気付き、トレーニング中にトレーニングの問題を引き起こすと述べています。ソフトルーティングは、ルーターのトレーニング時に安定性を提供することができます。多くの専門家が存在する場合、ハードルーティングも困難です。ほとんどの作品は少数の専門家でのみ訓練されるためです。彼らはSoft MoEが数千の専門家にスケーラブルでバランスの取れたモデルであることを示しています。

最後に、推論中にバッチ効果はありません。つまり、1つの入力が複数の入力のルーティングと予測に影響を与えることはありません。訓練には約半分の時間しかかからず、Soft MoE L/16はViT H/14を上流、フューショット、およびファインチューニングで上回り、推論でも速くなります。また、同等のトレーニング量の後、Soft MoE B/16はViT H/14よりも上流の指標で勝ち、フューショットとファインチューニングではViT H/14と同等のパフォーマンスを発揮します。Soft MoE B/16はViT H/14のパラメータの5.5倍を持っていながら、推論は5.7倍速くなります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「3つの医療機関が生成型AIを使用している方法」

「Med-PaLM 2および他の生成型AIソリューションを使用するGoogle Cloudのヘルスケア顧客を紹介します」

AIテクノロジー

NVIDIAは、AIプロセッサの供給において日本を優先しています

人工知能(AI)技術の世界的な覇権争いを反映した重要な動きとして、NVIDIAのCEOであるJensen Huangは、日本の急増するAIプロ...

人工知能

ChatGPTを使用してバイラルになる方法

大量のバイラルポテンシャルを持つコンテンツアイデアを生成するために、これらの詳細なChatGPTプロンプトを使用してください

データサイエンス

「バリー・ディラー対生成AI:著作権法的な戦い」

メディアの大物であるバリー・ディラー氏と一部の著名な出版社は、人工知能(AI)システムのトレーニングで公開された作品の...

人工知能

ChatGPTのデジタル商品をオンラインで販売するプロンプト

ChatGPTは、オンラインでデジタル製品を販売して収益を上げたい人にとって、ありがたい存在です

データサイエンス

『ブンブンの向こう側 産業における生成型AIの実用的な応用を探求する』

イントロダクション 現代の世界は「ジェネレーティブAI」という言葉で賑わっています。McKinsey、KPMG、Gartner、Bloombergな...