専門家モデルを用いた機械学習:入門

機械学習の専門家モデル入門

数十年前のアイデアが今日、途方もなく大きなニューラルネットワークのトレーニングを可能にする方法

(Pexels)

エキスパートモデルは、機械学習において最も有用な発明の一つですが、それほど十分に注目されていません。実際、エキスパートモデリングは、単に「途方もなく大きい」ニューラルネットワークをトレーニングすることができるだけでなく(後で詳しく説明します)、人間の脳のように学習するモデルを構築することも可能です。すなわち、異なる領域が異なるタイプの入力に特化して学習することができます。

この記事では、エキスパートモデリングの主要なイノベーションを紹介し、最近のブレークスルーであるSwitch TransformerやExpert Choice Routingアルゴリズムなどにつながる要素を見ていきます。しかし、まずはすべての始まりである「Mixtures of Experts」という論文に戻りましょう。

Mixtures of Experts(1991年)

The original MoE model from 1991. Image credit: Jabocs et al 1991, Adaptive Mixtures of Local Experts.

エキスパートの混合(MoE)のアイデアは、AIの神様として知られるジェフリー・ヒントンを含む共著者によって3年以上前にさかのぼります。MoEの中心的なアイデアは、出力「y」を「エキスパート」Eの組み合わせによってモデル化し、各エキスパートの重みを「ゲーティングネットワーク」Gが制御することです。

この文脈でのエキスパートは、どのような種類のモデルでも構いませんが、通常は多層ニューラルネットワークが選ばれ、ゲーティングネットワークは

ここで、Wは学習可能な行列であり、トレーニング例をエキスパートに割り当てます。MoEモデルのトレーニングでは、学習目標は次の2つです:

  1. エキスパートは、与えられた出力を最適な出力(つまり、予測)に処理するように学習します。
  2. ゲーティングネットワークは、ルーティング行列Wを共同で学習することにより、正しいトレーニング例を正しいエキスパートに「ルーティング」することを学習します。

では、なぜこれを行う必要があるのでしょうか?そして、なぜこれが機能するのでしょうか?大まかなレベルで、このアプローチを使用する主な動機は3つあります:

まず第一に、MoEはモデルのスパース性により、ニューラルネットワークを非常に大きなサイズまでスケーリングすることが可能です。つまり、全体的なモデルは大きいですが、実際に利用されるのはごく一部の…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

OpenAIの需要急増により、ChatGPT Plusの申し込みを一時停止します

人工知能のパイオニアであるOpenAIは、需要の急増に苦しんでおり、そのためプレミアムChatGPT Plusサービスの新規申し込みを...

機械学習

ビジネスにおけるオープンソースと専有モデルの選択:生成型人工知能の展開において

ジェネレーティブAIへの関心の高まりにより、2023年中頃には約350社の企業がこの分野に参入しました[1]それぞれが基礎モデル...

人工知能

I/O 2023 で発表した100のこと

Google I/O 2023はニュースとローンチで満ち溢れていましたここではI/Oで発表された100のことを紹介します

人工知能

「GPT4Readability — リードミーをもう一度書く必要はありません」

複雑なPythonのコードベースをナビゲートすることは、特にプロジェクトに十分なドキュメンテーションがない場合には困難なタ...

機械学習

SiMa.aiが世界最強のAIチップをインドに持ち込む

アメリカのAIチップスタートアップ、SiMa.aiは、初代AIチップの量産を発表し、画期的な進展を遂げました。TSMC 16nmテクノロ...

AIニュース

GoogleがAI搭載の文法チェッカー機能を追加:有効にする方法を学びましょう

オンラインの世界に波紋を広げる動きとして、Googleが静かに新しいツールを発表しました。このツールは、あなたの言語力を洗...