ミストラルAIの最新のエキスパート(MoE)8x7Bモデル
ミストラルAIの最新モデル、エキスパート(MoE)8x7B
Mistral AIは、パリを拠点とするオープンソースモデルの新興企業であり、最新の大規模言語モデル(LLM)、MoE 8x7Bを簡単なトレントリンクを通じてリリースし、従来のGoogleのアプローチとは異なり、AIコミュニティ内での会話と興奮を引き起こしました。
Mistral AIのリリースに対するアプローチは常に非伝統的なものでした。論文やブログ、プレスリリースなどの通常の付属物を捨て、彼らの戦略はAIコミュニティの注意を独自に引き付けることで効果的でした。
最近、同社はAndreessen Horowitzが主導するファンドラウンドを経て、驚異的な20億ドルの評価を達成しました。このファンドラウンドは、11億8000万ドルのシードラウンドであり、ヨーロッパ史上最大のものであるという記録を打ち立てました。資金調達の成功に加えて、Mistral AIはオープンソースAIにおける規制緩和を提唱するEU AI Actの議論にも積極的に関与しています。
MoE 8x7Bが注目を集める理由
- LLMの理論的思考力を向上させるための方法:コードの連鎖を促進する解明
- マイクロソフトAIチームがPhi-2を紹介:2.7Bパラメーターの小型言語モデルで、優れた推論能力と言語理解能力を示します
- このAI論文では、大規模言語モデルでの関連しない行動について探求されています:“シミュレートされた株式取引におけるGPT-4の欺瞞的な戦略”
Mixtral 8x7Bは、「スケールダウンされたGPT-4」と評され、8つのエキスパートを持つMixture of Experts(MoE)フレームワークを活用しています。各エキスパートは1110億のパラメータを持ち、550億の共有アテンションパラメータと組み合わされ、モデルごとに合計1660億のパラメータを提供します。この設計の選択は重要であり、各トークンの推論に2つのエキスパートのみが関与することを可能にし、より効率的かつ焦点を絞ったAI処理へのシフトを示しています。
Mixtralの主なハイライトの1つは、32000トークンという広範なコンテキストを処理できる能力です。このモデルの多言語対応には、英語、フランス語、イタリア語、ドイツ語、スペイン語への堅牢なサポートが含まれており、グローバルな開発者コミュニティに対応しています。
Mixtralの事前トレーニングでは、オープンWebからのデータを使用し、エキスパートとルータの両方のトレーニングを同時に行います。この方法により、モデルはパラメータスペースだけでなく、触れてきた膨大なデータのニュアンスにも正確にチューニングされます。
Mixtral 8x7Bが素晴らしいスコアを収める
Mixtral 8x7Bは、LLaMA 2 70Bを上回り、GPT-3.5と競争し、特にMBPPタスクでは60.7%の成功率を達成し、他のモデルよりもはるかに高い成績を収めています。さらに、指示に従うモデルに最適化された厳格なMT-Benchでも、Mixtral 8x7Bが素晴らしいスコアを収め、ほぼGPT-3.5に匹敵します。
エキスパートの混合(MoE)フレームワークの理解
エキスパートの混合(MoE)モデルは、Mistral AIのMoE 8x7Bなどの最新の言語モデルに組み込まれて注目を浴びていますが、実際には数年前から存在する基本的な概念に根ざしています。ここで、そのアイデアの起源を基にする先駆的な研究論文を見直しましょう。
MoEのコンセプト
エキスパートの混合(MoE)は、ニューラルネットワークアーキテクチャのパラダイムシフトを表しています。あらゆるタイプのデータを処理するための均質なネットワークを使用する従来のモデルとは異なり、MoEはより専門化されたモジュラーなアプローチを採用しています。それは複数の「エキスパート」ネットワークから構成されており、それぞれが特定のデータやタスクを処理するように設計されており、入力データを最適なエキスパートに動的に誘導する「ゲーティングネットワーク」によって監視されています。
再帰言語モデルに埋め込まれたエキスパートの混合(MoE)層 (出典)
上の画像は、言語モデルに埋め込まれたMoEレイヤーの高レベルな概観を示しています。本質的には、MoEレイヤーは複数のフィードフォワードサブネットワーク、すなわち「エキスパート」と呼ばれるものから構成されており、それぞれがデータの異なる側面の処理に特化する可能性を持っています。図で示されているゲーティングネットワークは、特定の入力に対してどのエキスパートの組み合わせが活性化されるかを決定します。この条件付きの活性化により、ネットワークは計算要求の急増なしに容量を大幅に増やすことができます。
MoEレイヤーの機能
実際には、ゲーティングネットワークは入力(図ではG(x)
と表示されています)を評価し、それを処理するためにスパースなエキスパートのセットを選択します。この選択はゲーティングネットワークの出力によって調整され、各エキスパートの「投票」や最終出力への寄与を決定します。たとえば、図に示されているように、特定の入力トークンごとに出力を計算するためには、2つのエキスパートのみが選択される場合があります。これにより、計算リソースを最も必要とする場所に集中させることで、プロセスを効率化します。
MoEレイヤーを備えたTransformerエンコーダー(出典)
上の2つの図は、伝統的なTransformerエンコーダーとMoEレイヤーが組み合わさったモデルの対比を示しています。自己注意とフィードフォワード層が順次に積み重ねられることで知られるTransformerアーキテクチャは、言語関連のタスクにおける効果的な性能で広く知られています。MoEレイヤーの導入により、いくつかのフィードフォワード層が置換され、モデルの容量がより効果的にスケーリングされるようになります。
増強されたモデルでは、MoEレイヤーが複数のデバイスに分散されていることが示されており、モデルパラレルのアプローチが示されています。これは、非常に大きなモデルのスケーリング時に重要であり、GPUやTPUなどのデバイスのクラスターに計算負荷とメモリ要件を分散することが可能になります。このシャーディングは、数十億から1兆以上のパラメータを持つモデルのトレーニングと展開を効率的に行うために不可欠です。
LLMでのスパースMoEアプローチと指示調整
「スパースミクスチャーオブエキスパート(MoE)によるスケーラブルな言語モデリング」というタイトルの論文では、指示調整技術とミクスチャーオブエキスパートアーキテクチャの統合により、大規模な言語モデル(LLM)の改善を図る革新的なアプローチについて説明しています。
この論文では、モデルの一般的な事前トレーニングとタスク固有の微調整の間の不一致により、MoEモデルが等しい計算容量を持つ密なモデルと比較してタスクパフォーマンスが低下するという一般的な課題を強調しています。
指示調整は、モデルをより自然な言語の指示に従うように調整するトレーニング方法です。これにより、タスクパフォーマンスが向上します。この論文では、指示調整と組み合わせることで、MoEモデルが密なモデルよりも顕著に改善すると示唆しています。この技術により、モデルの事前トレーニング表現がより効果的に指示に従うように整合され、大きなパフォーマンス向上が実現されます。
研究者たちは、3つの実験設定で研究を行い、MoEモデルが直接のタスク固有の微調整では初めはパフォーマンスが低下することを示しました。ただし、指示調整が適用されると、MoEモデルは特にタスク固有の微調整と併せて優れたパフォーマンスを発揮します。これは、指示調整がMoEモデルが下流タスクで密なモデルを上回るために重要なステップであることを示唆しています。
指示調整がMoEに及ぼす影響
また、この論文では、これらの概念の成功した適用例であるFLAN-MOE32Bモデルを紹介しています。特筆すべきは、1/3の計算リソースしか使用せずに、FLAN-PALM62Bという密なモデルよりもベンチマークタスクで優れた性能を発揮することです。これは、スパースMoEモデルと指示調整の組み合わせによって、LLMの効率とパフォーマンスに新たな基準が設定される可能性を示しています。
現実世界のシナリオでのミクスチャーオブエキスパートの実装
MoEモデルの柔軟性により、さまざまなアプリケーションに適しています:
- 自然言語処理(NLP): MoEモデルは、人間の言語の微妙なニュアンスや複雑さをより効果的に処理できるため、高度なNLPタスクに適しています。
- 画像とビデオの処理: 高解像度の処理を必要とするタスクでは、MoEが画像やビデオフレームの異なる側面を管理し、品質と処理速度の両方を向上させることができます。
- カスタマイズ可能なAIソリューション: 企業や研究者はMoEモデルを特定のタスクに合わせてカスタマイズすることで、より的確で効果的なAIソリューションを実現できます。
課題と考慮事項
MoEモデルは多くの利点を提供しますが、同時に独特な課題も存在します:
- トレーニングと調整の複雑さ:MoEモデルの分散性は、トレーニングプロセスを複雑にし、エキスパートとゲーティングネットワークの注意深いバランスと調整を必要とします。
- リソース管理:複数のエキスパート間で計算リソースを効率的に管理することは、MoEモデルの利点を最大限に引き出すために重要です。
特に言語モデルの領域において、MoE層をニューラルネットワークに組み込むことは、以前は計算制約のために実現困難だった大規模なモデルのスケーリングへの道を開くものです。MoE層によって可能になる条件付き計算により、計算リソースの効率的な分散が実現され、より大きく、より能力の高いモデルのトレーニングが可能となります。私たちが AI システムにより多くを要求し続けるにつれて、MoE搭載トランスフォーマーのようなアーキテクチャが、様々なドメインでの複雑で大規模なタスクを処理するための標準となるでしょう。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このAI論文では、EdgeSAMを紹介していますエッジデバイス上で高速で効率的な画像セグメンテーションを進めるための機械学習を発展させています
- モデルインサイトの視覚化:ディープラーニングにおけるGrad-CAMのガイド
- Amazon SageMaker Studioで生産性を向上させる:JupyterLab Spacesと生成AIツールを紹介
- LangChain表現言語とLLMを使用した検証実装のチェーン’ (LangChainひょうげんげんごとLLMをしようしたけんしょうじっそうのチェーン)
- 「LangChainとは何ですか?利用事例と利点」
- リトリーバル・オーグメンテッド・ジェネレーションを使用して、安定した拡散プロンプトを改善しましょう
- 「Amazon ComprehendのためのPDFの事前ラベル付けを自動化する」