MPT-30B:モザイクMLは新しいLLMを使用して、NLPの限界を em>GPT-3を凌駕します
MPT-30Bは新しいLLMを使用し、NLPの限界を超えるGPT-3を実現します
MosaicMLは、AIの展開とスケーラビリティのソリューションを提供する生成AI企業です。彼らの最新の大規模言語モデル(LLM)MPT-30Bは、AIコミュニティで話題となっています。
MosaicMLのLLMの旅は、2023年5月にMPT-7B(Mosaic Pretrained Transformer)のリリースから始まり、3つのバリアントが付属していました:
- MPT-7B-StoryWriter-65k+(長編ストーリー生成用)
- MPT-7B-Instruct(短い形式の指示に従うためのもの)
- MPT-7B-Chat(対話生成用)
これらのモデルは、オープンソースの性質、商業利用可能性、および拡張コンテキストウィンドウを処理する能力により、MLコミュニティで大きな成功を収めました。
最も重要なことは、このモデルが他の類似モデル(LLaMA-7B、StableLM 7Bなど)と同等または優れたパフォーマンスを発揮したことです。6月までに、MPT-7Bシリーズは300万回以上ダウンロードされました。6月22日、MosaicMLはさらにオープンソースの基礎モデルの基準を引き上げるためにMPT-30Bをリリースしました。
MPT-30B:GPT-3を超えるパワフルなLLM
MPT-30Bは、17%のGPT-3パラメータ、つまり30Bのみで、GPT-3-175Bよりも強力なオープンソースおよび商業ライセンスのデコーダベースのLLMです。複数のタスクでGPT-3を上回る性能を発揮します。以下は、MPT-30BとGPT-3の比較です。
出典
MPT-30Bは、以前のMPT-7Bモデルを基にしています。同じサイズのモデルと比較して、トレーニング時に計算量が効率的です。例えば、LLaMA-30BはMPT-30Bよりも約1.44倍のFLOPs予算を使用し、Falcon-40BはMPT-30Bよりも約1.27倍のFLOPs予算を使用しました。以下は、MPT-30Bが前身モデルに比べてさまざまなタスクで改善されたことを示すイラストです。
出典
MPT-30Bの特徴の一部は次の通りです:
8kトークンコンテキストウィンドウ
LLMのコンテキストウィンドウとは、モデルが出力を生成する前に考慮するトークンの範囲を指します。MPT-30Bは、トレーニング時に8000トークンのコンテキストウィンドウを持っていました。最初に2kトークンのシーケンスを使用して1Tトークンでトレーニングされ、その後さらに8000トークンシーケンス(およそ6000単語)の50Bトークンでトレーニングされました。
ALiBiサポート
この機能を説明するために、以下の質問を考えてみましょう:
MPT-30Bは、自身がトレーニングされたものよりも長いシーケンスに対してどのように理解し、予測することができるのでしょうか?
MPT-30Bは、Attention with Linear Biases(ALiBi)技術を使用して、ファインチューニングや推論時に8kトークンを超えるコンテキストウィンドウを拡張することで、より長いシーケンスを理解します。
シーケンス内の各単語にベクトルを割り当てる位置埋め込みではなく、ALiBiではキーとクエリトークン間の注意スコアを計算します。キーとクエリトークンが近くにある場合、ペナルティは低くなりますが、それ以外の場合は高くなります。その結果、基礎となるトランスフォーマーアーキテクチャは長い形式の入力に対して予測を行うことができます。
FlashAttentionによる効率的な推論およびトレーニングパフォーマンス
トランスフォーマーの重要な要素であるAttention、つまり入力シーケンスの関連部分に焦点を当てることは、特に長いテキストシーケンスを処理する場合には遅く、メモリを多く消費します。
FlashAttentionは、Cornell大学の研究者によって提案されたアプローチで、MPT-30Bのこの問題を解決します。タイリングと呼ばれる技術を使用することで、FlashAttentionはモデルがメモリから読み取る回数や書き込む回数を減らし、処理を高速化します。したがって、モデルは効率的なトレーニングと推論のために最先端のFlashAttention技術とNVIDIAのFasterTransformer最適化ライブラリを使用しています。
トレーニングとデプロイの容易さ
開発者は、MPT-30Bをゼロからトレーニングするか、MosaicMLのチェックポイントを使用してより迅速なデプロイを行うことができます。また、特定のデータセットに対してドメイン固有のユースケースに合わせてファインチューニングすることも可能です。
モデルのサイズは、特定のGPU(16ビット精度の1xA100-80GBまたは8ビット精度の1xA100-40GB)での容易なデプロイを可能にするために選ばれました。つまり、このモデルはこれらのGPUのメモリ制限内に収まるように設計されています。
コーディングの能力
MPT-30Bは、優れたコーディングの能力も提供しています。HumanEvalは、OpenAIがリリースした手作りのプログラミング問題を含むデータセットです。HumanEvalデータセットでは、このモデルはStarCoderシリーズなどの特定のLLMモデルを上回っています。
出典
ファインチューニングされたバリアント:MPT-30B-Instruct & MPT-30B-Chat
MPT-30B-Instruct
LLMは主に質問応答、テキスト要約、言語翻訳などの指示に使用されます。MPT-30B-Instructは、特定の指示に従うタスクに特化してファインチューニングされたMPT-30Bの商業利用可能なバリアントです(商業CC-By-SA-3.0ライセンスを維持)。ファインチューニングには、次のデータセットが使用されました:
- FLAN
- P3
- Alpaca
- Dolly-15k
Dollyデータセットは、AnthropicのHelpful and Harmlessデータセットでさらに増強され、指示のファインチューニングに使用されました。さらに、以下のさまざまなデータセットがデータ拡張のために使用されました:
- CompetitionMath
- GradeSchoolMath
- DialogSum
- DuoRC
- QASPER
- QuALITY
- SummScreen
- Spider
MPT-30B-Chat
MPT-30B-Chatは、対話生成のためにファインチューニングされたMPT-30Bのバージョンです。これはCC-By-NC-SA-4.0ライセンスの下でリリースされた研究成果であり、非商業利用のみが許可されています。このモデルは、次の言語データセットを使用してファインチューニングされました:
- Airoboros/GPT4-1.2
- Baize
- Camel
- GPTeacher
- Guanaco
- LongCoversations
- ShareGPT
- WizardLM
LLMは、数十億ドル規模の生成AI市場の大部分を占めており、昨年ChatGPTが景色を変えた後、短期間で著しい成長を遂げています。MPTファミリーはこの革命の基盤の一部です。近い将来、MPTファミリーよりもはるかに強力で効率的な商業利用可能なオープンソースモデルが登場することが期待されます。
最新のAIニュースは、unite.aiをご覧ください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles