このAI論文では、これらの課題に対処しながらMoEsの利点を維持するために、完全に微分可能な疎なTransformerであるSoft MoEを提案しています

The proposed Soft MoE is a fully differentiable sparse Transformer that maintains the advantages of MoEs while addressing these challenges.

大きなTransformerが適切に機能するには、より多くの計算コストが必要です。最近の研究では、モデルのサイズとトレーニングデータは同時にスケーリングする必要があり、トレーニングの計算リソースを最大限に活用するために必要です。モデルの拡張性を可能にする代替手法として、専門家のスパースミックスが考えられています。言語、ビジョン、およびマルチモーダルモデルでは、ネットワーク全体でトークンパスウェイをスパースに活性化するための手法が最近開発されています。スパースMoE Transformerの中心にあるのは、各入力トークンに適用するモジュールを選択することであり、これは離散最適化の課題です。

これらのモジュールはしばしばMLP(多層パーセプトロン)であり、専門家と呼ばれています。適切なトークンと専門家のペアリングを特定するためには、線形プログラム、強化学習、決定論的な固定ルール、最適輸送、トークンごとの上位kの専門家、および専門家ごとの上位kのトークンなど、さまざまな手法が使用されます。専門家の利用率をバランスさせ、未割り当てのトークンを減らすためには、ヒューリスティックな補助的な損失がしばしば必要です。小さな推論バッチサイズ、一意の入力、または転移学習は、これらの問題を分布外設定で悪化させることがあります。Google DeepMindの研究者は、これらの問題のいくつかに対処する新しい戦略であるSoft MoEを提供しています。

Soft MoEは、トークンと専門家の間の良いハードな割り当てを求めるスパースで離散的なルーターではなく、トークンを組み合わせることによってソフトな割り当てを行います。彼らは特に、トークンと専門家の両方に依存するいくつかの重み付き平均を構築し、それぞれの重み付き平均を関連する専門家で処理します。スパースMoEの中心にある離散プロセスによって引き起こされる上記の多くの問題は、ソフトMoEモデルでは存在しません。一般的なスパースMoE手法では、望ましい挙動を課す補助的な損失があり、これらの補助的な損失はルーティングスコアに依存します。ルーターパラメータは、専門家の出力を選択されたルーティングスコアと後置乗算することで学習されます。

観察によると、これらのアルゴリズムはしばしばランダムな固定ルーティングと同様のパフォーマンスを発揮します。Soft MoEは、各入力トークンに依存して各ルーティングパラメータを直接更新することにより、この問題を回避します。彼らは、巨大な割合の入力トークンがネットワーク内で同時に離散的なパスを変更できることに気付き、トレーニング中にトレーニングの問題を引き起こすと述べています。ソフトルーティングは、ルーターのトレーニング時に安定性を提供することができます。多くの専門家が存在する場合、ハードルーティングも困難です。ほとんどの作品は少数の専門家でのみ訓練されるためです。彼らはSoft MoEが数千の専門家にスケーラブルでバランスの取れたモデルであることを示しています。

最後に、推論中にバッチ効果はありません。つまり、1つの入力が複数の入力のルーティングと予測に影響を与えることはありません。訓練には約半分の時間しかかからず、Soft MoE L/16はViT H/14を上流、フューショット、およびファインチューニングで上回り、推論でも速くなります。また、同等のトレーニング量の後、Soft MoE B/16はViT H/14よりも上流の指標で勝ち、フューショットとファインチューニングではViT H/14と同等のパフォーマンスを発揮します。Soft MoE B/16はViT H/14のパラメータの5.5倍を持っていながら、推論は5.7倍速くなります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

AIを使って若返る方法:新しい抗加齢薬が発見される

AIアルゴリズムが突破口を開き、老化や年齢関連疾患と戦う可能性のある潜在的な薬剤を特定するのに重要な役割を果たしました...

データサイエンス

「Jupyter AIに会おう Jupyterノートブックで人工知能の力を解き放つ」

人工知能(AI)とコーディングの革新的な進歩において、Project Jupyterはそのツールキットに画期的な追加を導入します。それ...

データサイエンス

イノベーションを推進するための重要なツール:データレイクハウスにおけるジェネラティブAIの向上

LLMおよびジェネレーティブAIアプリの登場により、データは全エコシステムの中心的な要素となっています本記事では、データレ...

データサイエンス

「LLMテクノロジーの理解」

「LLMテクノロジーの進歩を発見しましょうLLMテクノロジーの世界を探求し、AIとNLPの分野における重要な役割を見つけましょう」

データサイエンス

「Langchainとは何ですか?そして、大規模言語モデルとは何ですか?」

この包括的な記事では、LangChainとLarge Language Modelsの両方を探求します両方を理解するために、簡単なチュートリアルを...

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...