専門家モデルを用いた機械学習:入門

機械学習の専門家モデル入門

数十年前のアイデアが今日、途方もなく大きなニューラルネットワークのトレーニングを可能にする方法

(Pexels)

エキスパートモデルは、機械学習において最も有用な発明の一つですが、それほど十分に注目されていません。実際、エキスパートモデリングは、単に「途方もなく大きい」ニューラルネットワークをトレーニングすることができるだけでなく(後で詳しく説明します)、人間の脳のように学習するモデルを構築することも可能です。すなわち、異なる領域が異なるタイプの入力に特化して学習することができます。

この記事では、エキスパートモデリングの主要なイノベーションを紹介し、最近のブレークスルーであるSwitch TransformerやExpert Choice Routingアルゴリズムなどにつながる要素を見ていきます。しかし、まずはすべての始まりである「Mixtures of Experts」という論文に戻りましょう。

Mixtures of Experts(1991年)

The original MoE model from 1991. Image credit: Jabocs et al 1991, Adaptive Mixtures of Local Experts.

エキスパートの混合(MoE)のアイデアは、AIの神様として知られるジェフリー・ヒントンを含む共著者によって3年以上前にさかのぼります。MoEの中心的なアイデアは、出力「y」を「エキスパート」Eの組み合わせによってモデル化し、各エキスパートの重みを「ゲーティングネットワーク」Gが制御することです。

この文脈でのエキスパートは、どのような種類のモデルでも構いませんが、通常は多層ニューラルネットワークが選ばれ、ゲーティングネットワークは

ここで、Wは学習可能な行列であり、トレーニング例をエキスパートに割り当てます。MoEモデルのトレーニングでは、学習目標は次の2つです:

  1. エキスパートは、与えられた出力を最適な出力(つまり、予測)に処理するように学習します。
  2. ゲーティングネットワークは、ルーティング行列Wを共同で学習することにより、正しいトレーニング例を正しいエキスパートに「ルーティング」することを学習します。

では、なぜこれを行う必要があるのでしょうか?そして、なぜこれが機能するのでしょうか?大まかなレベルで、このアプローチを使用する主な動機は3つあります:

まず第一に、MoEはモデルのスパース性により、ニューラルネットワークを非常に大きなサイズまでスケーリングすることが可能です。つまり、全体的なモデルは大きいですが、実際に利用されるのはごく一部の…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「IoTエッジデバイスのためのクラウドベースのAI/MLサービスの探索」

AIとMLは、自動運転車、ウェブ検索、音声認識などの進歩を可能にしましたIoTデバイスのAIとMLの探求に興味がある場合、お手伝...

データサイエンス

「OpenAIとMetaが著作権侵害で訴えられる」

驚くべき法的な展開により、有名なコメディアンのサラ・シルバーマン、著名な作家のクリストファー・ゴールデンとリチャード...

機械学習

エコジェンに会ってください:生物学者や生態学者のためにリアルな鳥の歌を生成するために設計された新しいディープラーニングのアプローチ

ディープラーニングの登場は、さまざまな分野に大きな影響を与え、さまざまな領域にその影響を広げています。注目すべき応用...

AI研究

このAI論文は、MITが化学研究のために深層学習モデルのスケーリングを探究しています

MITの研究者は、化学のための生成的事前トレーニングモデル(ChemGPT)とグラフニューラルネットワークフォースフィールド(G...

機械学習

「BoomiのCEOが統合と自動化プラットフォームのビジョンを概説」

「AIを活用したプラットフォームがデジタルの分断を乗り越え、開発者に力を与え、企業がより迅速にデータからビジネス価値を...

AIニュース

「GPT-4が怠け者です:OpenAIが認める」

OpenAIは、GPT-4が予期せぬ動作を示し、一部のユーザーから「怠惰」と評される中で懸念が浮上しています。最新のGPT-4に関す...