「Mixtral 8x7Bについて知っていることミストラルの新しいオープンソースLLM」

「ミストラル8x7Bをさらに知る新しいオープンソースLLMの特徴」

新しいモデルは、専門家のアーキテクチャの革新的な組み合わせを活用しています。

私は最近、AIに焦点を当てた教育系のニュースレターを始めました。すでに16万人以上の購読者がいます。TheSequenceは、ハイプやニュースなどを排除したML志向のニュースレターで、5分で読めます。機械学習プロジェクト、研究論文、およびコンセプトについて最新情報を提供することを目標としています。ぜひ以下から購読して試してみてください：

TheSequence | Jesus Rodriguez | Substack

機械学習、人工知能、データの最新動向を追いつづけるための最良の情報源

thesequence.substack.com

Mistral AIは、オープンソースLLMの限界を押し広げている最も革新的な企業の1つです。Mistralの最初のリリースであるMistral 7Bは、市場で最も採用されているオープンソースLLMの1つとなりました。数日前、彼らはMixtral 8x7Bという2番目のリリースのトレントリンクを公開しました。これはかなり興味深いです。

Mixtral 8x7Bの興味深い点は、ほとんどのLLMが採用している一体型のアプローチとは異なる新しいアーキテクチャの形態を探索していることです。このモデルは、専門家の混合アプローチに基づいており、新しいものではありませんが、LLMのスケールでの効果はまだ証明されていません。

Mixtral 8x7Bについてはあまり詳細に公開されていませんが、以下に関連するいくつかの詳細を示しました：

アーキテクチャ

Mixtral 8x7Bは、スパースな専門家の混合（SMoE）アーキテクチャに基づいており、スパースモデリング技術と専門家の混合フレームワークを組み合わせています。

ディープラーニング理論では、スパースモデルはその潜在能力を認識されています。従来の密なモデルとは異なり、スパースモデルは条件付き計算として知られる方法を使用します。この技術により、Mistralは広範なネットワーク内の指定された専門家に特定の入力を指示することができます。このアプローチにはいくつかの利点があります。最も注目すべきは、モデルのサイズを拡張する際にその計算要件を比例して増やさずに済むという点です。このスケーラビリティは効率的であり、また環境にも持続可能なものであり、AIモデルの高パフォーマンスを実現する上で重要です。さらに、ニューラルネットワークのスパース性は、マルチタスキングや継続的学習のシナリオでは有利な自然なセグメンテーションをもたらします。密なモデルはこれらのタスクに苦労することがあり、一度に多くのタスクや連続的に学習することで以前のタスクのパフォーマンスが低下するネガティブな干渉や壮大な忘却などの問題に直面することがあります。

MistralのSMoEコンポーネントは、各々が単純な順送り型ニューラルネットワークである複数の専門家から構成されています。これらの専門家は訓練可能なゲーティングネットワークによって管理されています。ゲーティングネットワークの役割は重要であり、各特定の入力に対してどの組み合わせの専門家を起動するかを決定します。この選択プロセスはスパースです。つまり、任意の入力に対してわずかな専門家が選ばれます。Mistralの専門家とゲーティングシステムを含むネットワーク全体は、ニューラルネットワークのトレーニングの基本的な手法であるバックプロパゲーションを通じて洗練されます。この統合されたトレーニングアプローチにより、Mistralのすべての部分が調和して動作し、データの処理および分析のパフォーマンスを最適化します。

画像クレジット：https://arxiv.org/abs/1701.06538

Mixtral 8x7B

Mixtral 8x7Bは、SMoEアーキテクチャに基づいています。このモデルは、オープンウェイトアーキテクチャとして注目されており、Apache 2.0ライセンスの下で自由にアクセスできます。AIベンチマークの分野では、MistralはLlama2 70Bモデルをほとんどの評価で上回り、6倍高速な推論を提供しています。これは、容認ライセンスの下で利用可能な最も効率的なオープンウェイトモデルとして目立っており、コストパフォーマンス評価で優れた成績を収めています。なお、Mistralは標準ベンチマークでGPT3.5と競合またはその性能を上回る優れた結果を示しています。

ミストラルの能力は多岐にわたります。32,000トークンまでの広範なコンテキストを効率的に処理します。言語能力は英語、フランス語、イタリア語、ドイツ語、スペイン語など、複数の言語にわたります。コード生成のドメインでは、ミストラルは驚異的な強さを示します。さらに、命令に従うモデルとして微調整されると、MT-Benchで8.3という印象的なスコアを達成します。

Mixtral 8x7Bはデコーダ専用モデルを利用しているネットワークです。そのアーキテクチャは、8つの異なるパラメータグループから選択する前方伝播ブロックによって特徴づけられます。各レイヤーの各トークンに対して、専門のルーターネットワークが2つの「専門家」と呼ばれるグループを選択し、トークンを処理します。その出力は加算的に結合されます。この革新的な技術により、ミストラルはコストとレイテンシーの制御を保ちながら、パラメータ数を増やすことができます。つまり、ミストラルは総パラメータ数450億を誇りますが、トークンあたりにはわずか120億しか使用しません。その結果、ミストラルは12億のパラメータしか持たないモデルと同じ効率とコストで入力を処理し、出力を生成します。

ミストラルのトレーニングはオープンウェブからのデータを使用し、専門家とルーターネットワークの両方の開発に同時に焦点を当てて行われます。このアプローチは、ミストラルがAIの領域において疎なアーキテクチャを持つオープンモデルの先頭に立つ先進的な能力と効率を支えています。

ベースリリースとともに、ミストラルはSupervised Fine-tuningおよびDirect Preference Optimization（DPO）を使用した命令に従うモデルであるMixtral 8x7B Instructをリリースしました。

パフォーマンス

Mistralは、LLaMA 2 70BやGPT 3.5などのはるかに大きなモデルと同等のパフォーマンスを持つことを証明するため、さまざまなベンチマークでMistral 8x7Bを評価しました。

以下のチャートは、推論予算に対するパフォーマンスをいくつかのキーキャパビリティで分析しています。

Mixtral 8x7Bの使用方法

Mixtral 8x7Bはついにリリースされましたが、まだ多くのプラットフォームで製品化されていません。モデルを使用するための主要な方法は、新たに発表されたMistralプラットフォームです。

from mistralai.client import MistralClientfrom mistralai.models.chat_completion import ChatMessageapi_key = os.environ["MISTRAL_API_KEY"]model = "mistral-small"client = MistralClient(api_key=api_key)messages = [    ChatMessage(role="user", content="What is the best French cheese?")]# Streamingなしchat_response = client.chat(    model=model,    messages=messages,)# Streamingありfor chunk in client.chat_stream(model=model, messages=messages):    print(chunk)

さらに、Hugging Face経由でモデルを使用することもできます：

from transformers import AutoModelForCausalLM, AutoTokenizermodel_id = "mistralai/Mixtral-8x7B-v0.1"tokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(model_id)text = "Hello my name is"inputs = tokenizer(text, return_tensors="pt")outputs = model.generate(**inputs, max_new_tokens=20)print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Mixtral 8x7BはオープンソースLLMの進化における興味深い一歩です。おそらく、モデルの詳細については今後数週間で明らかになるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Artificial IntelligenceGenerative AILarge Language ModelsMachine learningThesequence

Was this article helpful?

93 out of 132 found this helpful

「Mixtral 8x7Bについて知っていることミストラルの新しいオープンソースLLM」

新しいモデルは、専門家のアーキテクチャの革新的な組み合わせを活用しています。

TheSequence | Jesus Rodriguez | Substack

機械学習、人工知能、データの最新動向を追いつづけるための最良の情報源

アーキテクチャ

Mixtral 8x7B

パフォーマンス

Mixtral 8x7Bの使用方法

Was this article helpful?

「このAIニュースレターは、あなたが必要とするすべてです #77」

「仕事を守るために自動化を避ける」

機械学習

「生成AIを使って、あらゆる感情に対応するWhatsAppステッカーを作成する」

「機械学習入門：その多様な形式を探索する」

オープンソースのベクトルデータベースChromaDBを使用して、セマンティック検索アプリケーションを構築する

OpenAIはGPT-3.5 Turboのファインチューニングによるカスタムパワーを解放します

「チャンドラヤーン3の着陸：AIとセンサーがISROの壮大な月探査を支援」

「Googleバードを効果的に使用する5つの方法」

「Mixtral 8x7Bについて知っていること ミストラルの新しいオープンソースLLM」

新しいモデルは、専門家のアーキテクチャの革新的な組み合わせを活用しています。

TheSequence | Jesus Rodriguez | Substack

機械学習、人工知能、データの最新動向を追いつづけるための最良の情報源

アーキテクチャ

Mixtral 8x7B

パフォーマンス

Mixtral 8x7Bの使用方法

Was this article helpful?

「Mixtral 8x7Bについて知っていることミストラルの新しいオープンソースLLM」