ミストラルAIの最新のエキスパート(MoE)8x7Bモデル

ミストラルAIの最新モデル、エキスパート(MoE)8x7B

Mistral AIは、パリを拠点とするオープンソースモデルの新興企業であり、最新の大規模言語モデル(LLM)、MoE 8x7Bを簡単なトレントリンクを通じてリリースし、従来のGoogleのアプローチとは異なり、AIコミュニティ内での会話と興奮を引き起こしました。

Mistral AIのリリースに対するアプローチは常に非伝統的なものでした。論文やブログ、プレスリリースなどの通常の付属物を捨て、彼らの戦略はAIコミュニティの注意を独自に引き付けることで効果的でした。

最近、同社はAndreessen Horowitzが主導するファンドラウンドを経て、驚異的な20億ドルの評価を達成しました。このファンドラウンドは、11億8000万ドルのシードラウンドであり、ヨーロッパ史上最大のものであるという記録を打ち立てました。資金調達の成功に加えて、Mistral AIはオープンソースAIにおける規制緩和を提唱するEU AI Actの議論にも積極的に関与しています。

MoE 8x7Bが注目を集める理由

Mixtral 8x7Bは、「スケールダウンされたGPT-4」と評され、8つのエキスパートを持つMixture of Experts(MoE)フレームワークを活用しています。各エキスパートは1110億のパラメータを持ち、550億の共有アテンションパラメータと組み合わされ、モデルごとに合計1660億のパラメータを提供します。この設計の選択は重要であり、各トークンの推論に2つのエキスパートのみが関与することを可能にし、より効率的かつ焦点を絞ったAI処理へのシフトを示しています。

Mixtralの主なハイライトの1つは、32000トークンという広範なコンテキストを処理できる能力です。このモデルの多言語対応には、英語、フランス語、イタリア語、ドイツ語、スペイン語への堅牢なサポートが含まれており、グローバルな開発者コミュニティに対応しています。

Mixtralの事前トレーニングでは、オープンWebからのデータを使用し、エキスパートとルータの両方のトレーニングを同時に行います。この方法により、モデルはパラメータスペースだけでなく、触れてきた膨大なデータのニュアンスにも正確にチューニングされます。

Mixtral 8x7Bが素晴らしいスコアを収める

Mixtral 8x7Bが素晴らしいスコアを収める

Mixtral 8x7Bは、LLaMA 2 70Bを上回り、GPT-3.5と競争し、特にMBPPタスクでは60.7%の成功率を達成し、他のモデルよりもはるかに高い成績を収めています。さらに、指示に従うモデルに最適化された厳格なMT-Benchでも、Mixtral 8x7Bが素晴らしいスコアを収め、ほぼGPT-3.5に匹敵します。

エキスパートの混合(MoE)フレームワークの理解

エキスパートの混合(MoE)モデルは、Mistral AIのMoE 8x7Bなどの最新の言語モデルに組み込まれて注目を浴びていますが、実際には数年前から存在する基本的な概念に根ざしています。ここで、そのアイデアの起源を基にする先駆的な研究論文を見直しましょう。

MoEのコンセプト

エキスパートの混合(MoE)は、ニューラルネットワークアーキテクチャのパラダイムシフトを表しています。あらゆるタイプのデータを処理するための均質なネットワークを使用する従来のモデルとは異なり、MoEはより専門化されたモジュラーなアプローチを採用しています。それは複数の「エキスパート」ネットワークから構成されており、それぞれが特定のデータやタスクを処理するように設計されており、入力データを最適なエキスパートに動的に誘導する「ゲーティングネットワーク」によって監視されています。

再帰言語モデルに埋め込まれたエキスパートの混合(MoE)層

再帰言語モデルに埋め込まれたエキスパートの混合(MoE)層 (出典)

 

上の画像は、言語モデルに埋め込まれたMoEレイヤーの高レベルな概観を示しています。本質的には、MoEレイヤーは複数のフィードフォワードサブネットワーク、すなわち「エキスパート」と呼ばれるものから構成されており、それぞれがデータの異なる側面の処理に特化する可能性を持っています。図で示されているゲーティングネットワークは、特定の入力に対してどのエキスパートの組み合わせが活性化されるかを決定します。この条件付きの活性化により、ネットワークは計算要求の急増なしに容量を大幅に増やすことができます。

MoEレイヤーの機能

実際には、ゲーティングネットワークは入力(図ではG(x)と表示されています)を評価し、それを処理するためにスパースなエキスパートのセットを選択します。この選択はゲーティングネットワークの出力によって調整され、各エキスパートの「投票」や最終出力への寄与を決定します。たとえば、図に示されているように、特定の入力トークンごとに出力を計算するためには、2つのエキスパートのみが選択される場合があります。これにより、計算リソースを最も必要とする場所に集中させることで、プロセスを効率化します。

 

MoEレイヤーを備えたTransformerエンコーダー(出典

上の2つの図は、伝統的なTransformerエンコーダーとMoEレイヤーが組み合わさったモデルの対比を示しています。自己注意とフィードフォワード層が順次に積み重ねられることで知られるTransformerアーキテクチャは、言語関連のタスクにおける効果的な性能で広く知られています。MoEレイヤーの導入により、いくつかのフィードフォワード層が置換され、モデルの容量がより効果的にスケーリングされるようになります。

増強されたモデルでは、MoEレイヤーが複数のデバイスに分散されていることが示されており、モデルパラレルのアプローチが示されています。これは、非常に大きなモデルのスケーリング時に重要であり、GPUやTPUなどのデバイスのクラスターに計算負荷とメモリ要件を分散することが可能になります。このシャーディングは、数十億から1兆以上のパラメータを持つモデルのトレーニングと展開を効率的に行うために不可欠です。

LLMでのスパースMoEアプローチと指示調整

スパースミクスチャーオブエキスパート(MoE)によるスケーラブルな言語モデリング」というタイトルの論文では、指示調整技術とミクスチャーオブエキスパートアーキテクチャの統合により、大規模な言語モデル(LLM)の改善を図る革新的なアプローチについて説明しています。

この論文では、モデルの一般的な事前トレーニングとタスク固有の微調整の間の不一致により、MoEモデルが等しい計算容量を持つ密なモデルと比較してタスクパフォーマンスが低下するという一般的な課題を強調しています。

指示調整は、モデルをより自然な言語の指示に従うように調整するトレーニング方法です。これにより、タスクパフォーマンスが向上します。この論文では、指示調整と組み合わせることで、MoEモデルが密なモデルよりも顕著に改善すると示唆しています。この技術により、モデルの事前トレーニング表現がより効果的に指示に従うように整合され、大きなパフォーマンス向上が実現されます。

研究者たちは、3つの実験設定で研究を行い、MoEモデルが直接のタスク固有の微調整では初めはパフォーマンスが低下することを示しました。ただし、指示調整が適用されると、MoEモデルは特にタスク固有の微調整と併せて優れたパフォーマンスを発揮します。これは、指示調整がMoEモデルが下流タスクで密なモデルを上回るために重要なステップであることを示唆しています。

指示調整がMoEに及ぼす影響

指示調整がMoEに及ぼす影響

また、この論文では、これらの概念の成功した適用例であるFLAN-MOE32Bモデルを紹介しています。特筆すべきは、1/3の計算リソースしか使用せずに、FLAN-PALM62Bという密なモデルよりもベンチマークタスクで優れた性能を発揮することです。これは、スパースMoEモデルと指示調整の組み合わせによって、LLMの効率とパフォーマンスに新たな基準が設定される可能性を示しています。

現実世界のシナリオでのミクスチャーオブエキスパートの実装

MoEモデルの柔軟性により、さまざまなアプリケーションに適しています:

  • 自然言語処理(NLP): MoEモデルは、人間の言語の微妙なニュアンスや複雑さをより効果的に処理できるため、高度なNLPタスクに適しています。
  • 画像とビデオの処理: 高解像度の処理を必要とするタスクでは、MoEが画像やビデオフレームの異なる側面を管理し、品質と処理速度の両方を向上させることができます。
  • カスタマイズ可能なAIソリューション: 企業や研究者はMoEモデルを特定のタスクに合わせてカスタマイズすることで、より的確で効果的なAIソリューションを実現できます。

課題と考慮事項

MoEモデルは多くの利点を提供しますが、同時に独特な課題も存在します:

  • トレーニングと調整の複雑さ:MoEモデルの分散性は、トレーニングプロセスを複雑にし、エキスパートとゲーティングネットワークの注意深いバランスと調整を必要とします。
  • リソース管理:複数のエキスパート間で計算リソースを効率的に管理することは、MoEモデルの利点を最大限に引き出すために重要です。

特に言語モデルの領域において、MoE層をニューラルネットワークに組み込むことは、以前は計算制約のために実現困難だった大規模なモデルのスケーリングへの道を開くものです。MoE層によって可能になる条件付き計算により、計算リソースの効率的な分散が実現され、より大きく、より能力の高いモデルのトレーニングが可能となります。私たちが AI システムにより多くを要求し続けるにつれて、MoE搭載トランスフォーマーのようなアーキテクチャが、様々なドメインでの複雑で大規模なタスクを処理するための標準となるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Javaを使用した脳コンピュータインターフェース(BCI)アプリケーションの開発:開発者のためのガイド」

BCIsは脳デバイスの通信を可能にし、Javaはライブラリを使用して開発を支援しています課題には信号の品質と倫理が含まれます

機械学習

「AIを活用した言語学習のためのパーソナルボイスボット」

新しい言語をマスターする最も効果的な方法は何ですか?話すことです!しかし、他の人の前で新しい単語やフレーズを試すこと...

AI研究

「MITのインドの学生が声を必要としない会話デバイスを開発」

魅力的な進展として、名門マサチューセッツ工科大学(MIT)の学生が革新的なAI対応デバイス、AlterEgoを紹介しました。AlterE...

機械学習

悪質なコンテンツ検出のためのLLM:利点と欠点

この投稿では、インターネット上の有害なコンテンツを特定するための2つの異なる方法を評価しますそれは、教師あり分類器のト...

人工知能

「生成AIの規制」

生成型の人工知能(AI)が注目を集める中、この技術を規制する必要性が高まっていますなぜなら、この技術は大規模な人口に対...

機械学習

Google AIがMedLMを導入:医療業界の利用事例に特化したファミリー型基盤モデル

Googleの研究者たちは、現在米国で利用可能な医療業界のために調整されたモデルの基礎であるMedLMを紹介しました。これは、Go...