MPT-30B：モザイクMLは新しいLLMを使用して、NLPの限界を em>GPT-3を凌駕します

MPT-30Bは新しいLLMを使用し、NLPの限界を超えるGPT-3を実現します

MosaicMLは、AIの展開とスケーラビリティのソリューションを提供する生成AI企業です。彼らの最新の大規模言語モデル（LLM）MPT-30Bは、AIコミュニティで話題となっています。

MosaicMLのLLMの旅は、2023年5月にMPT-7B（Mosaic Pretrained Transformer）のリリースから始まり、3つのバリアントが付属していました：

MPT-7B-StoryWriter-65k+（長編ストーリー生成用）
MPT-7B-Instruct（短い形式の指示に従うためのもの）
MPT-7B-Chat（対話生成用）

これらのモデルは、オープンソースの性質、商業利用可能性、および拡張コンテキストウィンドウを処理する能力により、MLコミュニティで大きな成功を収めました。

最も重要なことは、このモデルが他の類似モデル（LLaMA-7B、StableLM 7Bなど）と同等または優れたパフォーマンスを発揮したことです。6月までに、MPT-7Bシリーズは300万回以上ダウンロードされました。6月22日、MosaicMLはさらにオープンソースの基礎モデルの基準を引き上げるためにMPT-30Bをリリースしました。

MPT-30B：GPT-3を超えるパワフルなLLM

MPT-30Bは、17%のGPT-3パラメータ、つまり30Bのみで、GPT-3-175Bよりも強力なオープンソースおよび商業ライセンスのデコーダベースのLLMです。複数のタスクでGPT-3を上回る性能を発揮します。以下は、MPT-30BとGPT-3の比較です。

出典

MPT-30Bは、以前のMPT-7Bモデルを基にしています。同じサイズのモデルと比較して、トレーニング時に計算量が効率的です。例えば、LLaMA-30BはMPT-30Bよりも約1.44倍のFLOPs予算を使用し、Falcon-40BはMPT-30Bよりも約1.27倍のFLOPs予算を使用しました。以下は、MPT-30Bが前身モデルに比べてさまざまなタスクで改善されたことを示すイラストです。

出典

MPT-30Bの特徴の一部は次の通りです：

8kトークンコンテキストウィンドウ

LLMのコンテキストウィンドウとは、モデルが出力を生成する前に考慮するトークンの範囲を指します。MPT-30Bは、トレーニング時に8000トークンのコンテキストウィンドウを持っていました。最初に2kトークンのシーケンスを使用して1Tトークンでトレーニングされ、その後さらに8000トークンシーケンス（およそ6000単語）の50Bトークンでトレーニングされました。

ALiBiサポート

この機能を説明するために、以下の質問を考えてみましょう：

MPT-30Bは、自身がトレーニングされたものよりも長いシーケンスに対してどのように理解し、予測することができるのでしょうか？

MPT-30Bは、Attention with Linear Biases（ALiBi）技術を使用して、ファインチューニングや推論時に8kトークンを超えるコンテキストウィンドウを拡張することで、より長いシーケンスを理解します。

シーケンス内の各単語にベクトルを割り当てる位置埋め込みではなく、ALiBiではキーとクエリトークン間の注意スコアを計算します。キーとクエリトークンが近くにある場合、ペナルティは低くなりますが、それ以外の場合は高くなります。その結果、基礎となるトランスフォーマーアーキテクチャは長い形式の入力に対して予測を行うことができます。

FlashAttentionによる効率的な推論およびトレーニングパフォーマンス

トランスフォーマーの重要な要素であるAttention、つまり入力シーケンスの関連部分に焦点を当てることは、特に長いテキストシーケンスを処理する場合には遅く、メモリを多く消費します。

FlashAttentionは、Cornell大学の研究者によって提案されたアプローチで、MPT-30Bのこの問題を解決します。タイリングと呼ばれる技術を使用することで、FlashAttentionはモデルがメモリから読み取る回数や書き込む回数を減らし、処理を高速化します。したがって、モデルは効率的なトレーニングと推論のために最先端のFlashAttention技術とNVIDIAのFasterTransformer最適化ライブラリを使用しています。

トレーニングとデプロイの容易さ

開発者は、MPT-30Bをゼロからトレーニングするか、MosaicMLのチェックポイントを使用してより迅速なデプロイを行うことができます。また、特定のデータセットに対してドメイン固有のユースケースに合わせてファインチューニングすることも可能です。

モデルのサイズは、特定のGPU（16ビット精度の1xA100-80GBまたは8ビット精度の1xA100-40GB）での容易なデプロイを可能にするために選ばれました。つまり、このモデルはこれらのGPUのメモリ制限内に収まるように設計されています。

コーディングの能力

MPT-30Bは、優れたコーディングの能力も提供しています。HumanEvalは、OpenAIがリリースした手作りのプログラミング問題を含むデータセットです。HumanEvalデータセットでは、このモデルはStarCoderシリーズなどの特定のLLMモデルを上回っています。

出典

ファインチューニングされたバリアント：MPT-30B-Instruct & MPT-30B-Chat

MPT-30B-Instruct

LLMは主に質問応答、テキスト要約、言語翻訳などの指示に使用されます。MPT-30B-Instructは、特定の指示に従うタスクに特化してファインチューニングされたMPT-30Bの商業利用可能なバリアントです（商業CC-By-SA-3.0ライセンスを維持）。ファインチューニングには、次のデータセットが使用されました：

FLAN
P3
Alpaca
Dolly-15k

Dollyデータセットは、AnthropicのHelpful and Harmlessデータセットでさらに増強され、指示のファインチューニングに使用されました。さらに、以下のさまざまなデータセットがデータ拡張のために使用されました：

CompetitionMath
GradeSchoolMath
DialogSum
DuoRC
QASPER
QuALITY
SummScreen
Spider

MPT-30B-Chat

MPT-30B-Chatは、対話生成のためにファインチューニングされたMPT-30Bのバージョンです。これはCC-By-NC-SA-4.0ライセンスの下でリリースされた研究成果であり、非商業利用のみが許可されています。このモデルは、次の言語データセットを使用してファインチューニングされました：

Airoboros/GPT4-1.2
Baize
Camel
GPTeacher
Guanaco
LongCoversations
ShareGPT
WizardLM

LLMは、数十億ドル規模の生成AI市場の大部分を占めており、昨年ChatGPTが景色を変えた後、短期間で著しい成長を遂げています。MPTファミリーはこの革命の基盤の一部です。近い将来、MPTファミリーよりもはるかに強力で効率的な商業利用可能なオープンソースモデルが登場することが期待されます。

最新のAIニュースは、unite.aiをご覧ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Artificial IntelligenceGenerative AILarge Language ModelsMosaicMLMPT-30BNatural language processingtransformer

Was this article helpful?

93 out of 132 found this helpful

MPT-30B：モザイクMLは新しいLLMを使用して、NLPの限界を em>GPT-3を凌駕します

MPT-30B：GPT-3を超えるパワフルなLLM

8kトークンコンテキストウィンドウ

ALiBiサポート

FlashAttentionによる効率的な推論およびトレーニングパフォーマンス

トレーニングとデプロイの容易さ

コーディングの能力

ファインチューニングされたバリアント：MPT-30B-Instruct & MPT-30B-Chat

MPT-30B-Instruct

MPT-30B-Chat

Was this article helpful?

より一般的なロボットへのスタッキング

2023年7月のMac向けの最高のデータ復旧ツール10選

機械学習

「生成型AI：CHATGPT、Dall-E、Midjourneyなどの背後にあるアイデア」

関数呼び出し：GPTチャットボットを何にでも統合する

スウェーデンからの持続可能なソリューションの推進

「CMUの研究者がBUTD-DETRを導入：言語発話に直接依存し、発話で言及されるすべてのオブジェクトを検出する人工知能（AI）モデル」

メタAIは、オープンで創造的なAIモデルを使って倫理的に建設するために、パープルラマをコミュニティの支援として発表しました

生成AIモデル：マーチャンダイジング分析のユーザーエクスペリエンス向上