「Mixtral 8x7Bについて知っていること ミストラルの新しいオープンソースLLM」

「ミストラル8x7Bをさらに知る 新しいオープンソースLLMの特徴」

新しいモデルは、専門家のアーキテクチャの革新的な組み合わせを活用しています。

DALL-Eを使用して作成されました

私は最近、AIに焦点を当てた教育系のニュースレターを始めました。すでに16万人以上の購読者がいます。TheSequenceは、ハイプやニュースなどを排除したML志向のニュースレターで、5分で読めます。機械学習プロジェクト、研究論文、およびコンセプトについて最新情報を提供することを目標としています。ぜひ以下から購読して試してみてください:

TheSequence | Jesus Rodriguez | Substack

機械学習、人工知能、データの最新動向を追いつづけるための最良の情報源

thesequence.substack.com

Mistral AIは、オープンソースLLMの限界を押し広げている最も革新的な企業の1つです。Mistralの最初のリリースであるMistral 7Bは、市場で最も採用されているオープンソースLLMの1つとなりました。数日前、彼らはMixtral 8x7Bという2番目のリリースのトレントリンクを公開しました。これはかなり興味深いです。

Mixtral 8x7Bの興味深い点は、ほとんどのLLMが採用している一体型のアプローチとは異なる新しいアーキテクチャの形態を探索していることです。このモデルは、専門家の混合アプローチに基づいており、新しいものではありませんが、LLMのスケールでの効果はまだ証明されていません。

Mixtral 8x7Bについてはあまり詳細に公開されていませんが、以下に関連するいくつかの詳細を示しました:

アーキテクチャ

Mixtral 8x7Bは、スパースな専門家の混合(SMoE)アーキテクチャに基づいており、スパースモデリング技術と専門家の混合フレームワークを組み合わせています。

ディープラーニング理論では、スパースモデルはその潜在能力を認識されています。従来の密なモデルとは異なり、スパースモデルは条件付き計算として知られる方法を使用します。この技術により、Mistralは広範なネットワーク内の指定された専門家に特定の入力を指示することができます。このアプローチにはいくつかの利点があります。最も注目すべきは、モデルのサイズを拡張する際にその計算要件を比例して増やさずに済むという点です。このスケーラビリティは効率的であり、また環境にも持続可能なものであり、AIモデルの高パフォーマンスを実現する上で重要です。さらに、ニューラルネットワークのスパース性は、マルチタスキングや継続的学習のシナリオでは有利な自然なセグメンテーションをもたらします。密なモデルはこれらのタスクに苦労することがあり、一度に多くのタスクや連続的に学習することで以前のタスクのパフォーマンスが低下するネガティブな干渉や壮大な忘却などの問題に直面することがあります。

MistralのSMoEコンポーネントは、各々が単純な順送り型ニューラルネットワークである複数の専門家から構成されています。これらの専門家は訓練可能なゲーティングネットワークによって管理されています。ゲーティングネットワークの役割は重要であり、各特定の入力に対してどの組み合わせの専門家を起動するかを決定します。この選択プロセスはスパースです。つまり、任意の入力に対してわずかな専門家が選ばれます。Mistralの専門家とゲーティングシステムを含むネットワーク全体は、ニューラルネットワークのトレーニングの基本的な手法であるバックプロパゲーションを通じて洗練されます。この統合されたトレーニングアプローチにより、Mistralのすべての部分が調和して動作し、データの処理および分析のパフォーマンスを最適化します。

画像クレジット:https://arxiv.org/abs/1701.06538

Mixtral 8x7B

Mixtral 8x7Bは、SMoEアーキテクチャに基づいています。このモデルは、オープンウェイトアーキテクチャとして注目されており、Apache 2.0ライセンスの下で自由にアクセスできます。AIベンチマークの分野では、MistralはLlama2 70Bモデルをほとんどの評価で上回り、6倍高速な推論を提供しています。これは、容認ライセンスの下で利用可能な最も効率的なオープンウェイトモデルとして目立っており、コストパフォーマンス評価で優れた成績を収めています。なお、Mistralは標準ベンチマークでGPT3.5と競合またはその性能を上回る優れた結果を示しています。

ミストラルの能力は多岐にわたります。32,000トークンまでの広範なコンテキストを効率的に処理します。言語能力は英語、フランス語、イタリア語、ドイツ語、スペイン語など、複数の言語にわたります。コード生成のドメインでは、ミストラルは驚異的な強さを示します。さらに、命令に従うモデルとして微調整されると、MT-Benchで8.3という印象的なスコアを達成します。

Mixtral 8x7Bはデコーダ専用モデルを利用しているネットワークです。そのアーキテクチャは、8つの異なるパラメータグループから選択する前方伝播ブロックによって特徴づけられます。各レイヤーの各トークンに対して、専門のルーターネットワークが2つの「専門家」と呼ばれるグループを選択し、トークンを処理します。その出力は加算的に結合されます。この革新的な技術により、ミストラルはコストとレイテンシーの制御を保ちながら、パラメータ数を増やすことができます。つまり、ミストラルは総パラメータ数450億を誇りますが、トークンあたりにはわずか120億しか使用しません。その結果、ミストラルは12億のパラメータしか持たないモデルと同じ効率とコストで入力を処理し、出力を生成します。

ミストラルのトレーニングはオープンウェブからのデータを使用し、専門家とルーターネットワークの両方の開発に同時に焦点を当てて行われます。このアプローチは、ミストラルがAIの領域において疎なアーキテクチャを持つオープンモデルの先頭に立つ先進的な能力と効率を支えています。

ベースリリースとともに、ミストラルはSupervised Fine-tuningおよびDirect Preference Optimization(DPO)を使用した命令に従うモデルであるMixtral 8x7B Instructをリリースしました。

パフォーマンス

Mistralは、LLaMA 2 70BやGPT 3.5などのはるかに大きなモデルと同等のパフォーマンスを持つことを証明するため、さまざまなベンチマークでMistral 8x7Bを評価しました。

画像の著作権: Mistral AI

以下のチャートは、推論予算に対するパフォーマンスをいくつかのキーキャパビリティで分析しています。

画像の著作権: Mistral AI

Mixtral 8x7Bの使用方法

Mixtral 8x7Bはついにリリースされましたが、まだ多くのプラットフォームで製品化されていません。モデルを使用するための主要な方法は、新たに発表されたMistralプラットフォームです。

from mistralai.client import MistralClientfrom mistralai.models.chat_completion import ChatMessageapi_key = os.environ["MISTRAL_API_KEY"]model = "mistral-small"client = MistralClient(api_key=api_key)messages = [    ChatMessage(role="user", content="What is the best French cheese?")]# Streamingなしchat_response = client.chat(    model=model,    messages=messages,)# Streamingありfor chunk in client.chat_stream(model=model, messages=messages):    print(chunk)

さらに、Hugging Face経由でモデルを使用することもできます

from transformers import AutoModelForCausalLM, AutoTokenizermodel_id = "mistralai/Mixtral-8x7B-v0.1"tokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(model_id)text = "Hello my name is"inputs = tokenizer(text, return_tensors="pt")outputs = model.generate(**inputs, max_new_tokens=20)print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Mixtral 8x7BはオープンソースLLMの進化における興味深い一歩です。おそらく、モデルの詳細については今後数週間で明らかになるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「スコア!チームNVIDIAが推薦システムでトロフィーを獲得」

4つの大陸に広がる5人の機械学習のエキスパートで構成されるクラックチームが、最先端の推薦システムを構築するための激しい...

機械学習

「AIとのプログラミング」

ジェネレーティブプログラミングはどのようにプログラミング言語を変革するのでしょうか?早い段階で既に見られる問題は、ど...

人工知能

「Bard」を活用するための10の役立つ方法

「アイデアのブレストから旅行のスケジュール作成まで、Bardがあなたの仕事を手助けする10の方法をチェックしてみてください」

機械学習

悪質なコンテンツ検出のためのLLM:利点と欠点

この投稿では、インターネット上の有害なコンテンツを特定するための2つの異なる方法を評価しますそれは、教師あり分類器のト...

AIテクノロジー

イーロン・マスクが「Grok」を紹介:反抗的なダッシュのあるおしゃべりAIチャットボット

テック界は興奮に包まれています。スペースXやテスラなど画期的な事業の立案者であるイーロン・マスクが、彼の新しいAI会社、...

データサイエンス

「2023年の公共セクターにおけるデータストリーミングの状況」

この投稿では、アメリカの国防総省、NASA、ドイツ鉄道などのケーススタディを交えながら、公共セクターや政府におけるデータ...