Mixtral-8x7B スパースなエキスパートの混合理解と実行

Mixtral-8x7B スパースなエキスパートが混合理解と実践に挑む

GPT-3.5やLlama 2 70Bを効率的に上回る方法

Image by 8385 from Pixabay

最近の多くの大規模言語モデル(LLM)は、非常に似たようなニューラルアーキテクチャを使用しています。例えば、ファルコン、ミストラル、およびLlama 2モデルは、セルフアテンションとMLPモジュールの組み合わせを使用しています。

一方、ミストラルAIは、Mistral 7Bも作成したが、大幅に異なるアーキテクチャの新しいLLMを発表しました:Mixtral-8x7Bは、8つのエキスパートモデルのスパースな混合です。

Mixtralは総計46.7Bのパラメータを持っています。それにもかかわらず、Mixtral-8x7Bはそのアーキテクチャのおかげで、一般のハードウェアで効率的に動作することができます。Mixtral-8x7Bの推論は他の同程度のモデルよりもはるかに高速でありながら、ほとんどのタスクでそれらを上回ります。

この記事では、スパースな専門家の混合とは何か、およびそれが標準モデルと比較してどのように推論が速くなるのかを説明します。そして、一般のハードウェアでMixtral-8x7Bを使用して微調整する方法を見ていきます。

以下に、QLoRAの微調整とMixtral-8x7Bの推論をデモンストレーションしたNotebookのリンクを紹介します:

Notebookを入手する(#32)

スパースな専門家の混合

Image by the author

スパースな専門家の混合(SMoE)は、伝統的なモデルの効率性とスケーラビリティを改善するために設計された一種のニューラルネットワークアーキテクチャです。専門のサブネットワークを使用して、モデルが入力空間の異なる部分を学習することができるようにするために、専門家の混合の概念が導入されました。Mixtralには8つの専門家のサブネットワークがあります。

モデル名の「8x7B」は若干誤解を招く可能性があります。このモデルには合計46.7Bのパラメータがあり、8x7Bのパラメータが持つべきパラメータの約100億パラメータよりもずっと少ないです。実際、Mixtral-8x7Bは56Bのパラメータモデルではありません。セルフアテンションなどのいくつかのモジュールは、8つの専門家のサブネットワークと共有されています。

Transformersでモデルをロードして表示すると、モデルの構造がより理解しやすくなります:

MixtralForCausalLM(…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more