このAI論文では、これらの課題に対処しながらMoEsの利点を維持するために、完全に微分可能な疎なTransformerであるSoft MoEを提案しています
The proposed Soft MoE is a fully differentiable sparse Transformer that maintains the advantages of MoEs while addressing these challenges.
大きなTransformerが適切に機能するには、より多くの計算コストが必要です。最近の研究では、モデルのサイズとトレーニングデータは同時にスケーリングする必要があり、トレーニングの計算リソースを最大限に活用するために必要です。モデルの拡張性を可能にする代替手法として、専門家のスパースミックスが考えられています。言語、ビジョン、およびマルチモーダルモデルでは、ネットワーク全体でトークンパスウェイをスパースに活性化するための手法が最近開発されています。スパースMoE Transformerの中心にあるのは、各入力トークンに適用するモジュールを選択することであり、これは離散最適化の課題です。
これらのモジュールはしばしばMLP(多層パーセプトロン)であり、専門家と呼ばれています。適切なトークンと専門家のペアリングを特定するためには、線形プログラム、強化学習、決定論的な固定ルール、最適輸送、トークンごとの上位kの専門家、および専門家ごとの上位kのトークンなど、さまざまな手法が使用されます。専門家の利用率をバランスさせ、未割り当てのトークンを減らすためには、ヒューリスティックな補助的な損失がしばしば必要です。小さな推論バッチサイズ、一意の入力、または転移学習は、これらの問題を分布外設定で悪化させることがあります。Google DeepMindの研究者は、これらの問題のいくつかに対処する新しい戦略であるSoft MoEを提供しています。
Soft MoEは、トークンと専門家の間の良いハードな割り当てを求めるスパースで離散的なルーターではなく、トークンを組み合わせることによってソフトな割り当てを行います。彼らは特に、トークンと専門家の両方に依存するいくつかの重み付き平均を構築し、それぞれの重み付き平均を関連する専門家で処理します。スパースMoEの中心にある離散プロセスによって引き起こされる上記の多くの問題は、ソフトMoEモデルでは存在しません。一般的なスパースMoE手法では、望ましい挙動を課す補助的な損失があり、これらの補助的な損失はルーティングスコアに依存します。ルーターパラメータは、専門家の出力を選択されたルーティングスコアと後置乗算することで学習されます。
観察によると、これらのアルゴリズムはしばしばランダムな固定ルーティングと同様のパフォーマンスを発揮します。Soft MoEは、各入力トークンに依存して各ルーティングパラメータを直接更新することにより、この問題を回避します。彼らは、巨大な割合の入力トークンがネットワーク内で同時に離散的なパスを変更できることに気付き、トレーニング中にトレーニングの問題を引き起こすと述べています。ソフトルーティングは、ルーターのトレーニング時に安定性を提供することができます。多くの専門家が存在する場合、ハードルーティングも困難です。ほとんどの作品は少数の専門家でのみ訓練されるためです。彼らはSoft MoEが数千の専門家にスケーラブルでバランスの取れたモデルであることを示しています。
最後に、推論中にバッチ効果はありません。つまり、1つの入力が複数の入力のルーティングと予測に影響を与えることはありません。訓練には約半分の時間しかかからず、Soft MoE L/16はViT H/14を上流、フューショット、およびファインチューニングで上回り、推論でも速くなります。また、同等のトレーニング量の後、Soft MoE B/16はViT H/14よりも上流の指標で勝ち、フューショットとファインチューニングではViT H/14と同等のパフォーマンスを発揮します。Soft MoE B/16はViT H/14のパラメータの5.5倍を持っていながら、推論は5.7倍速くなります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- AWSは、大規模なゲーミング会社のために、Large Language Model (LLM) を使って有害なスピーチを分類するためのファインチューニングを行います
- AIの力による教育:パーソナライズされた成功のための学習の変革
- 一貫性のあるAIビデオエディターが登場しました:TokenFlowは、一貫性のあるビデオ編集のために拡散特徴を使用するAIモデルです
- 「メタに立ち向かい、開発者を強力にサポートするために、アリババがAIモデルをオープンソース化」
- 「CT2Hairに会ってください:ダウンストリームグラフィックスアプリケーションで使用するために適した高精細な3Dヘアモデルを完全自動で作成するフレームワーク」
- 「Jupyter AIに会おう:マジックコマンドとチャットインターフェースでジェネラティブ人工知能をJupyterノートブックにもたらす新しいオープンソースプロジェクト」
- 「OpenAIを任意のLLM(Language Model)と交換し、すべてを1行で行うことを想像してください!Genoss GPTに会ってください:OpenAI SDKと互換性のあるAPIで、GPT4ALLなどのオープンソースモデルをベースにして構築されています」