MPT-30B:モザイクMLは新しいLLMを使用して、NLPの限界を em>GPT-3を凌駕します

MPT-30Bは新しいLLMを使用し、NLPの限界を超えるGPT-3を実現します

MosaicMLは、AIの展開とスケーラビリティのソリューションを提供する生成AI企業です。彼らの最新の大規模言語モデル(LLM)MPT-30Bは、AIコミュニティで話題となっています。

MosaicMLのLLMの旅は、2023年5月にMPT-7B(Mosaic Pretrained Transformer)のリリースから始まり、3つのバリアントが付属していました:

  1. MPT-7B-StoryWriter-65k+(長編ストーリー生成用)
  2. MPT-7B-Instruct(短い形式の指示に従うためのもの)
  3. MPT-7B-Chat(対話生成用)

これらのモデルは、オープンソースの性質、商業利用可能性、および拡張コンテキストウィンドウを処理する能力により、MLコミュニティで大きな成功を収めました。

最も重要なことは、このモデルが他の類似モデル(LLaMA-7B、StableLM 7Bなど)と同等または優れたパフォーマンスを発揮したことです。6月までに、MPT-7Bシリーズは300万回以上ダウンロードされました。6月22日、MosaicMLはさらにオープンソースの基礎モデルの基準を引き上げるためにMPT-30Bをリリースしました。

MPT-30B:GPT-3を超えるパワフルなLLM

MPT-30Bは、17%のGPT-3パラメータ、つまり30Bのみで、GPT-3-175Bよりも強力なオープンソースおよび商業ライセンスのデコーダベースのLLMです。複数のタスクでGPT-3を上回る性能を発揮します。以下は、MPT-30BとGPT-3の比較です。

出典

MPT-30Bは、以前のMPT-7Bモデルを基にしています。同じサイズのモデルと比較して、トレーニング時に計算量が効率的です。例えば、LLaMA-30BはMPT-30Bよりも約1.44倍のFLOPs予算を使用し、Falcon-40BはMPT-30Bよりも約1.27倍のFLOPs予算を使用しました。以下は、MPT-30Bが前身モデルに比べてさまざまなタスクで改善されたことを示すイラストです。

出典

MPT-30Bの特徴の一部は次の通りです:

8kトークンコンテキストウィンドウ

LLMのコンテキストウィンドウとは、モデルが出力を生成する前に考慮するトークンの範囲を指します。MPT-30Bは、トレーニング時に8000トークンのコンテキストウィンドウを持っていました。最初に2kトークンのシーケンスを使用して1Tトークンでトレーニングされ、その後さらに8000トークンシーケンス(およそ6000単語)の50Bトークンでトレーニングされました。

ALiBiサポート

この機能を説明するために、以下の質問を考えてみましょう:

MPT-30Bは、自身がトレーニングされたものよりも長いシーケンスに対してどのように理解し、予測することができるのでしょうか?

MPT-30Bは、Attention with Linear Biases(ALiBi)技術を使用して、ファインチューニングや推論時に8kトークンを超えるコンテキストウィンドウを拡張することで、より長いシーケンスを理解します。

シーケンス内の各単語にベクトルを割り当てる位置埋め込みではなく、ALiBiではキーとクエリトークン間の注意スコアを計算します。キーとクエリトークンが近くにある場合、ペナルティは低くなりますが、それ以外の場合は高くなります。その結果、基礎となるトランスフォーマーアーキテクチャは長い形式の入力に対して予測を行うことができます。

FlashAttentionによる効率的な推論およびトレーニングパフォーマンス

トランスフォーマーの重要な要素であるAttention、つまり入力シーケンスの関連部分に焦点を当てることは、特に長いテキストシーケンスを処理する場合には遅く、メモリを多く消費します。

FlashAttentionは、Cornell大学の研究者によって提案されたアプローチで、MPT-30Bのこの問題を解決します。タイリングと呼ばれる技術を使用することで、FlashAttentionはモデルがメモリから読み取る回数や書き込む回数を減らし、処理を高速化します。したがって、モデルは効率的なトレーニングと推論のために最先端のFlashAttention技術とNVIDIAのFasterTransformer最適化ライブラリを使用しています。

トレーニングとデプロイの容易さ

開発者は、MPT-30Bをゼロからトレーニングするか、MosaicMLのチェックポイントを使用してより迅速なデプロイを行うことができます。また、特定のデータセットに対してドメイン固有のユースケースに合わせてファインチューニングすることも可能です。

モデルのサイズは、特定のGPU(16ビット精度の1xA100-80GBまたは8ビット精度の1xA100-40GB)での容易なデプロイを可能にするために選ばれました。つまり、このモデルはこれらのGPUのメモリ制限内に収まるように設計されています。

コーディングの能力

MPT-30Bは、優れたコーディングの能力も提供しています。HumanEvalは、OpenAIがリリースした手作りのプログラミング問題を含むデータセットです。HumanEvalデータセットでは、このモデルはStarCoderシリーズなどの特定のLLMモデルを上回っています。

出典

ファインチューニングされたバリアント:MPT-30B-Instruct & MPT-30B-Chat

MPT-30B-Instruct

LLMは主に質問応答、テキスト要約、言語翻訳などの指示に使用されます。MPT-30B-Instructは、特定の指示に従うタスクに特化してファインチューニングされたMPT-30Bの商業利用可能なバリアントです(商業CC-By-SA-3.0ライセンスを維持)。ファインチューニングには、次のデータセットが使用されました:

  1. FLAN
  2. P3
  3. Alpaca
  4. Dolly-15k

Dollyデータセットは、AnthropicのHelpful and Harmlessデータセットでさらに増強され、指示のファインチューニングに使用されました。さらに、以下のさまざまなデータセットがデータ拡張のために使用されました:

  1. CompetitionMath
  2. GradeSchoolMath
  3. DialogSum
  4. DuoRC
  5. QASPER
  6. QuALITY
  7. SummScreen
  8. Spider

MPT-30B-Chat

MPT-30B-Chatは、対話生成のためにファインチューニングされたMPT-30Bのバージョンです。これはCC-By-NC-SA-4.0ライセンスの下でリリースされた研究成果であり、非商業利用のみが許可されています。このモデルは、次の言語データセットを使用してファインチューニングされました:

  1. Airoboros/GPT4-1.2
  2. Baize
  3. Camel
  4. GPTeacher
  5. Guanaco
  6. LongCoversations
  7. ShareGPT
  8. WizardLM

LLMは、数十億ドル規模の生成AI市場の大部分を占めており、昨年ChatGPTが景色を変えた後、短期間で著しい成長を遂げています。MPTファミリーはこの革命の基盤の一部です。近い将来、MPTファミリーよりもはるかに強力で効率的な商業利用可能なオープンソースモデルが登場することが期待されます。

最新のAIニュースは、unite.aiをご覧ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「両方の世界のベスト:人間の開発者とAIの協力者」

「これは、開発者を対象とした生成型AI生産性ツール(例:Github Copilot、ChatGPT、Amazon CodeWhisperer)が構造にどのよう...

AIテクノロジー

ピカ1.0:ビデオ作成のための新しいAIモデル

世界中で生成AIに魅了されているPikaは、AIを活用した動画作成に特化したスタートアップで、Lightspeed Venture Partnersが主...

データサイエンス

テキストから音声へ - 大規模な言語モデルのトレーニング

はじめに 音楽家の声コマンドをAIが受け取り、美しいメロディックなギターサウンドに変換する世界を想像してみてください。こ...

AIニュース

インドでのGoogle検索は今やAIによって動作しています | 使い方を学びましょう

Googleは、インド人と日本人が情報の広大な領域を探索する方法を再定義する画期的なイノベーションを発表しました。人工知能...

機械学習

このAIニュースレターがあれば、あなたは全てが揃った!#70

今週のAIでは、特に2つの新しいエージェントモデルのリリースに興味を持っていましたNvidiaは、複雑なタスクを自律的に実行す...

人工知能

「ソフトウェアテストの革命化」

AIが自動ソフトウェアテストに与える深遠な影響を掘り下げ、その能力、利点、およびSQAの将来における持つ可能性について探求...