ミストラルAI (8x7b)、専門家(MoE)モデルの初のオープンソースモデルをリリース
ミストラルAI (8x7b)、専門家(MoE)モデルの初のオープンソースモデルをリリース
ミストラルは、オープンソースの世界への取り組みを継続し、トレントを通じて最初の560億トークンモデル(8つのモデル、各7,000億トークン)をリリースすることを発表しました!
数日前、GPT4がエキスパートモデルのモデルであることが明らかになりました。これには合計2200億のパラメータを持つ8つのモデルが含まれており、効果的なサイズは1.76兆パラメータとなります。思い出をリフレッシュするために、私はその記事を書きました。
GPT-4内の8つの小さなモデルはどのように機能しますか?
著者:Dr. Mandar Karhade、MD. PhD. 元にAI誌で公開されました。「エキスパートモデル」の秘密が明らかになりました。
towardsai.net
要するに、モデルのエキスパートまたはMoEは、モデルのオーケストラとして機能します。与えられた質問に回答するか、与えられた文脈に応じて応答するモデルを決定する指揮者モデルがあります。選択されたモデルは出力を生成し、応答として共有されます。
すべてのモデルからの応答を取得して適切なものを選択する、または異なるモデルからの応答を評価して応答を返すなど、他の指揮やオーケストレーションの方法もありますが、基本的なコンセプトは共通です!多くのモデルから適切な応答を選択するための指揮者として機能するメタモデルがあります(つまり、モデルの組み合わせ)。これらのモデルは、言語の特定の機能または側面でトレーニングされ、単一の一般的なモデルと比較してモデルの総合的なパフォーマンスがはるかに優れています。
これは80:20の典型的な戦略です。エキスパートモデルは、大きなモデルに比べて80%のタスクを非常に優れたパフォーマンスで実行できます。また、各時間には8つのモデルのうち1つのみを使用するため、計算コストを効果的に削減できます。
ミストラルMoEへの戻り
ミストラルは、GPT4からの応答を使用してトレーニングされたGPT4のミニチュアバージョンをミストラルのスタイルでリリースし、サイズを大幅に削減しながらほとんどの機能を維持しています。そして、このモデルは私たちのような一般の人々に無料でダウンロードできます!
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles