専門家モデルを用いた機械学習:入門

機械学習の専門家モデル入門

数十年前のアイデアが今日、途方もなく大きなニューラルネットワークのトレーニングを可能にする方法

(Pexels)

エキスパートモデルは、機械学習において最も有用な発明の一つですが、それほど十分に注目されていません。実際、エキスパートモデリングは、単に「途方もなく大きい」ニューラルネットワークをトレーニングすることができるだけでなく(後で詳しく説明します)、人間の脳のように学習するモデルを構築することも可能です。すなわち、異なる領域が異なるタイプの入力に特化して学習することができます。

この記事では、エキスパートモデリングの主要なイノベーションを紹介し、最近のブレークスルーであるSwitch TransformerやExpert Choice Routingアルゴリズムなどにつながる要素を見ていきます。しかし、まずはすべての始まりである「Mixtures of Experts」という論文に戻りましょう。

Mixtures of Experts(1991年)

The original MoE model from 1991. Image credit: Jabocs et al 1991, Adaptive Mixtures of Local Experts.

エキスパートの混合(MoE)のアイデアは、AIの神様として知られるジェフリー・ヒントンを含む共著者によって3年以上前にさかのぼります。MoEの中心的なアイデアは、出力「y」を「エキスパート」Eの組み合わせによってモデル化し、各エキスパートの重みを「ゲーティングネットワーク」Gが制御することです。

この文脈でのエキスパートは、どのような種類のモデルでも構いませんが、通常は多層ニューラルネットワークが選ばれ、ゲーティングネットワークは

ここで、Wは学習可能な行列であり、トレーニング例をエキスパートに割り当てます。MoEモデルのトレーニングでは、学習目標は次の2つです:

  1. エキスパートは、与えられた出力を最適な出力(つまり、予測)に処理するように学習します。
  2. ゲーティングネットワークは、ルーティング行列Wを共同で学習することにより、正しいトレーニング例を正しいエキスパートに「ルーティング」することを学習します。

では、なぜこれを行う必要があるのでしょうか?そして、なぜこれが機能するのでしょうか?大まかなレベルで、このアプローチを使用する主な動機は3つあります:

まず第一に、MoEはモデルのスパース性により、ニューラルネットワークを非常に大きなサイズまでスケーリングすることが可能です。つまり、全体的なモデルは大きいですが、実際に利用されるのはごく一部の…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Google AIは、アクティブノイズキャンセリング(ANC)ヘッドフォンのための人工知能搭載の革新的な心臓モニタリングモダリティである音響脈波計(APG)を導入します

コンシューマーエレクトロニクスと健康技術の分野において、活発なノイズキャンセリング(ANC)ウェアラブルに健康モニタリン...

機械学習

「生成AIの10年からの教訓」

「生成AIの未来を理解するためには、それがどこから来たのか、そして技術とともに進化する課題と機会を見ることが役立ちます」

AIニュース

AIと自動化

「AIと自動化技術が優れたリターンを提供する一方で、関連するリスクを理解し最小化するために慎重に取り組む必要がある方法...

機械学習

アプリケーションの近代化における生成AIの活用

「生成AIは、極度の自動化の時代において、アプリケーションの近代化プログラムを加速させるための強力なエンエーブラーとな...

機械学習

「加速、効率的なAIシステムの新しいクラスがスーパーコンピューティングの次の時代を示す」

エヌビディアは、今日のSC23で、科学や産業の研究センターを新たなパフォーマンスとエネルギー効率のレベルに引き上げる次世...

AIニュース

「OpenAIやLM Studioに頼らずにAutoGenを使用する方法」

イントロダクション OpenAIやLMスタジオに頼らずに、あなた自身のAIチームを作成する準備はできていますか?もはや銀行を荒ら...