このAI論文では、これらの課題に対処しながらMoEsの利点を維持するために、完全に微分可能な疎なTransformerであるSoft MoEを提案しています

The proposed Soft MoE is a fully differentiable sparse Transformer that maintains the advantages of MoEs while addressing these challenges.

大きなTransformerが適切に機能するには、より多くの計算コストが必要です。最近の研究では、モデルのサイズとトレーニングデータは同時にスケーリングする必要があり、トレーニングの計算リソースを最大限に活用するために必要です。モデルの拡張性を可能にする代替手法として、専門家のスパースミックスが考えられています。言語、ビジョン、およびマルチモーダルモデルでは、ネットワーク全体でトークンパスウェイをスパースに活性化するための手法が最近開発されています。スパースMoE Transformerの中心にあるのは、各入力トークンに適用するモジュールを選択することであり、これは離散最適化の課題です。

これらのモジュールはしばしばMLP(多層パーセプトロン)であり、専門家と呼ばれています。適切なトークンと専門家のペアリングを特定するためには、線形プログラム、強化学習、決定論的な固定ルール、最適輸送、トークンごとの上位kの専門家、および専門家ごとの上位kのトークンなど、さまざまな手法が使用されます。専門家の利用率をバランスさせ、未割り当てのトークンを減らすためには、ヒューリスティックな補助的な損失がしばしば必要です。小さな推論バッチサイズ、一意の入力、または転移学習は、これらの問題を分布外設定で悪化させることがあります。Google DeepMindの研究者は、これらの問題のいくつかに対処する新しい戦略であるSoft MoEを提供しています。

Soft MoEは、トークンと専門家の間の良いハードな割り当てを求めるスパースで離散的なルーターではなく、トークンを組み合わせることによってソフトな割り当てを行います。彼らは特に、トークンと専門家の両方に依存するいくつかの重み付き平均を構築し、それぞれの重み付き平均を関連する専門家で処理します。スパースMoEの中心にある離散プロセスによって引き起こされる上記の多くの問題は、ソフトMoEモデルでは存在しません。一般的なスパースMoE手法では、望ましい挙動を課す補助的な損失があり、これらの補助的な損失はルーティングスコアに依存します。ルーターパラメータは、専門家の出力を選択されたルーティングスコアと後置乗算することで学習されます。

観察によると、これらのアルゴリズムはしばしばランダムな固定ルーティングと同様のパフォーマンスを発揮します。Soft MoEは、各入力トークンに依存して各ルーティングパラメータを直接更新することにより、この問題を回避します。彼らは、巨大な割合の入力トークンがネットワーク内で同時に離散的なパスを変更できることに気付き、トレーニング中にトレーニングの問題を引き起こすと述べています。ソフトルーティングは、ルーターのトレーニング時に安定性を提供することができます。多くの専門家が存在する場合、ハードルーティングも困難です。ほとんどの作品は少数の専門家でのみ訓練されるためです。彼らはSoft MoEが数千の専門家にスケーラブルでバランスの取れたモデルであることを示しています。

最後に、推論中にバッチ効果はありません。つまり、1つの入力が複数の入力のルーティングと予測に影響を与えることはありません。訓練には約半分の時間しかかからず、Soft MoE L/16はViT H/14を上流、フューショット、およびファインチューニングで上回り、推論でも速くなります。また、同等のトレーニング量の後、Soft MoE B/16はViT H/14よりも上流の指標で勝ち、フューショットとファインチューニングではViT H/14と同等のパフォーマンスを発揮します。Soft MoE B/16はViT H/14のパラメータの5.5倍を持っていながら、推論は5.7倍速くなります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

DEF CONでハッカーたちがいたずらをしてAIの脆弱性を暴露

ラスベガスで開催されるDEF CONハッキングカンファレンスでは、知恵とテクノロジーの魅力的な衝突が行われます。ハッカーたち...

機械学習

音声合成:進化、倫理、そして法律

ロマン・ガーリン、シニアバイスプレジデント @イノベーション、スポートレーダー この記事では、音声合成の進化を辿り、それ...

AIニュース

Windows 12はAIの魔法機能を搭載:テクノロジーの未来への一端

Microsoft(マイクロソフト)は、次世代のWindows OSの大規模なアップデート「ハドソンバレー」と呼ばれるものを熱心に開発し...

機械学習

DeepMind RoboCat:自己学習ロボットAIモデル

世界的に有名なAI研究所であるDeepMindは、ロボットアームの様々なモデルを使用して幅広い複雑なタスクを実行できるAIモデルR...

機械学習

「人工知能の世界を探索する:初心者ガイド」

この記事では、人工知能の新興で興奮するような分野について、さまざまなシステムの種類、リスク、利点について説明します

データサイエンス

「深層学習技術を利用した人工知能(AI)によるADASの向上」

ディープラーニングは、リアルタイムのセンサーデータを使用して、正確な物体検出、衝突予測、および積極的な意思決定を実現...