MPT-30B:モザイクMLは新しいLLMを使用して、NLPの限界を em>GPT-3を凌駕します

MPT-30Bは新しいLLMを使用し、NLPの限界を超えるGPT-3を実現します

MosaicMLは、AIの展開とスケーラビリティのソリューションを提供する生成AI企業です。彼らの最新の大規模言語モデル(LLM)MPT-30Bは、AIコミュニティで話題となっています。

MosaicMLのLLMの旅は、2023年5月にMPT-7B(Mosaic Pretrained Transformer)のリリースから始まり、3つのバリアントが付属していました:

  1. MPT-7B-StoryWriter-65k+(長編ストーリー生成用)
  2. MPT-7B-Instruct(短い形式の指示に従うためのもの)
  3. MPT-7B-Chat(対話生成用)

これらのモデルは、オープンソースの性質、商業利用可能性、および拡張コンテキストウィンドウを処理する能力により、MLコミュニティで大きな成功を収めました。

最も重要なことは、このモデルが他の類似モデル(LLaMA-7B、StableLM 7Bなど)と同等または優れたパフォーマンスを発揮したことです。6月までに、MPT-7Bシリーズは300万回以上ダウンロードされました。6月22日、MosaicMLはさらにオープンソースの基礎モデルの基準を引き上げるためにMPT-30Bをリリースしました。

MPT-30B:GPT-3を超えるパワフルなLLM

MPT-30Bは、17%のGPT-3パラメータ、つまり30Bのみで、GPT-3-175Bよりも強力なオープンソースおよび商業ライセンスのデコーダベースのLLMです。複数のタスクでGPT-3を上回る性能を発揮します。以下は、MPT-30BとGPT-3の比較です。

出典

MPT-30Bは、以前のMPT-7Bモデルを基にしています。同じサイズのモデルと比較して、トレーニング時に計算量が効率的です。例えば、LLaMA-30BはMPT-30Bよりも約1.44倍のFLOPs予算を使用し、Falcon-40BはMPT-30Bよりも約1.27倍のFLOPs予算を使用しました。以下は、MPT-30Bが前身モデルに比べてさまざまなタスクで改善されたことを示すイラストです。

出典

MPT-30Bの特徴の一部は次の通りです:

8kトークンコンテキストウィンドウ

LLMのコンテキストウィンドウとは、モデルが出力を生成する前に考慮するトークンの範囲を指します。MPT-30Bは、トレーニング時に8000トークンのコンテキストウィンドウを持っていました。最初に2kトークンのシーケンスを使用して1Tトークンでトレーニングされ、その後さらに8000トークンシーケンス(およそ6000単語)の50Bトークンでトレーニングされました。

ALiBiサポート

この機能を説明するために、以下の質問を考えてみましょう:

MPT-30Bは、自身がトレーニングされたものよりも長いシーケンスに対してどのように理解し、予測することができるのでしょうか?

MPT-30Bは、Attention with Linear Biases(ALiBi)技術を使用して、ファインチューニングや推論時に8kトークンを超えるコンテキストウィンドウを拡張することで、より長いシーケンスを理解します。

シーケンス内の各単語にベクトルを割り当てる位置埋め込みではなく、ALiBiではキーとクエリトークン間の注意スコアを計算します。キーとクエリトークンが近くにある場合、ペナルティは低くなりますが、それ以外の場合は高くなります。その結果、基礎となるトランスフォーマーアーキテクチャは長い形式の入力に対して予測を行うことができます。

FlashAttentionによる効率的な推論およびトレーニングパフォーマンス

トランスフォーマーの重要な要素であるAttention、つまり入力シーケンスの関連部分に焦点を当てることは、特に長いテキストシーケンスを処理する場合には遅く、メモリを多く消費します。

FlashAttentionは、Cornell大学の研究者によって提案されたアプローチで、MPT-30Bのこの問題を解決します。タイリングと呼ばれる技術を使用することで、FlashAttentionはモデルがメモリから読み取る回数や書き込む回数を減らし、処理を高速化します。したがって、モデルは効率的なトレーニングと推論のために最先端のFlashAttention技術とNVIDIAのFasterTransformer最適化ライブラリを使用しています。

トレーニングとデプロイの容易さ

開発者は、MPT-30Bをゼロからトレーニングするか、MosaicMLのチェックポイントを使用してより迅速なデプロイを行うことができます。また、特定のデータセットに対してドメイン固有のユースケースに合わせてファインチューニングすることも可能です。

モデルのサイズは、特定のGPU(16ビット精度の1xA100-80GBまたは8ビット精度の1xA100-40GB)での容易なデプロイを可能にするために選ばれました。つまり、このモデルはこれらのGPUのメモリ制限内に収まるように設計されています。

コーディングの能力

MPT-30Bは、優れたコーディングの能力も提供しています。HumanEvalは、OpenAIがリリースした手作りのプログラミング問題を含むデータセットです。HumanEvalデータセットでは、このモデルはStarCoderシリーズなどの特定のLLMモデルを上回っています。

出典

ファインチューニングされたバリアント:MPT-30B-Instruct & MPT-30B-Chat

MPT-30B-Instruct

LLMは主に質問応答、テキスト要約、言語翻訳などの指示に使用されます。MPT-30B-Instructは、特定の指示に従うタスクに特化してファインチューニングされたMPT-30Bの商業利用可能なバリアントです(商業CC-By-SA-3.0ライセンスを維持)。ファインチューニングには、次のデータセットが使用されました:

  1. FLAN
  2. P3
  3. Alpaca
  4. Dolly-15k

Dollyデータセットは、AnthropicのHelpful and Harmlessデータセットでさらに増強され、指示のファインチューニングに使用されました。さらに、以下のさまざまなデータセットがデータ拡張のために使用されました:

  1. CompetitionMath
  2. GradeSchoolMath
  3. DialogSum
  4. DuoRC
  5. QASPER
  6. QuALITY
  7. SummScreen
  8. Spider

MPT-30B-Chat

MPT-30B-Chatは、対話生成のためにファインチューニングされたMPT-30Bのバージョンです。これはCC-By-NC-SA-4.0ライセンスの下でリリースされた研究成果であり、非商業利用のみが許可されています。このモデルは、次の言語データセットを使用してファインチューニングされました:

  1. Airoboros/GPT4-1.2
  2. Baize
  3. Camel
  4. GPTeacher
  5. Guanaco
  6. LongCoversations
  7. ShareGPT
  8. WizardLM

LLMは、数十億ドル規模の生成AI市場の大部分を占めており、昨年ChatGPTが景色を変えた後、短期間で著しい成長を遂げています。MPTファミリーはこの革命の基盤の一部です。近い将来、MPTファミリーよりもはるかに強力で効率的な商業利用可能なオープンソースモデルが登場することが期待されます。

最新のAIニュースは、unite.aiをご覧ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

開発者が安全に生成AIと協力する方法

SDLCが生成AIがもたらす生産性向上とコードセキュリティへのリスクのバランスを保つための4つのヒント

人工知能

「AI時代における組織の価値を引き出す」

「AIはAIに脅かされるのではなく、より能力を高め、自主性を増し、強い関係を築くことによって、個人の自己決定力を向上させ...

人工知能

「Img2Prompt AI モデルを使用して画像をプロンプトに変換する方法:ステップバイステップガイド」

「シンプルなAPI呼び出しと少しのNode.jsで画像からプロンプトを収集します」

人工知能

大規模展開向けのモデル量子化に深く掘り下げる

イントロダクション AIにおいて、大規模なモデルをクラウド環境に展開するという2つの異なる課題が浮かび上がっています。こ...

機械学習

Google DeepMindは、ChatGPTを超えるアルゴリズムの開発に取り組んでいます

画期的な発表により、GoogleのDeepMind AI研究所のCEOであるデミス・ハサビス氏は、革新的なAIシステムであるGeminiの開発を...

機械学習

マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツー...