「混合エキスパートモデルの理解に向けて」
「混合エキスパートモデルの理解を深めるために」
新しい研究で、MoEモデルを学習する際の内部で何が起こるかが明らかになりました
専門家の混合(MoE)モデルは、現代の機械学習アプリケーションで最も強力な技術の1つとして急速に台頭しており、Switch TransformerやGPT-4のようなブレイクスルーを可能にしています。実際には、その全体の影響をまだ見始めたばかりです!
ただし、MoEが最初にうまく機能する理由が驚くほどわかっていません。MoEはいつ機能するのでしょうか?ゲートはなぜすべてのトレーニング例を同じ専門家に送らないのでしょうか?モデルはどの専門家も同一になる状態にはならないのでしょうか?専門家は具体的にどのように特化し、何に関するのでしょうか?ゲートは具体的に何を学習するのでしょうか?
幸いなことに、研究がこれらの疑問に一部答えを示し始めています。さあ、見てみましょう。
MoEモデル-照明の基礎知識
簡単に説明すると、MoEは1991年の論文「Adaptive Mixtures of Local Experts」で発明されました。その論文の共著者は、AIの教父であるジェフリー・ヒントン氏です。MoEの鍵となるアイデアは、入力xから出力yをモデル化する際に、いくつかの「専門家」Eを組み合わせ、各専門家の重みを「ゲートネットワーク」Gが制御することです。
ゲートネットワークGは、単純な線形モデルで表されます。
ここで、Wは学習可能な行列であり、トレーニング例を専門家に割り当てます。MoEモデルのトレーニング時の学習目標は、次の2点です:
- 専門家は与えられた入力を最適な出力(つまり、予測)に処理するために学習します。
- ゲートは、正しいトレーニング例を正しい専門家に「ルーティング」すること、つまりルーティング行列Wを学習することを学習します。
MoEは、ゲーティング値が最も大きい単一の専門家の計算のみで計算を実行する場合に特に強力であることが示されています。つまり、yを次のように近似します。
ここで、Gの最大値のインデックスをIとします。これを「ハードルーティング」または「スパースゲーティング」と呼び、Switchのブレイクスルーにおける主要な技術となっています…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles