MPT-7Bを紹介します:新しいオープンソースLLM

Introducing MPT-7B A new open-source LLM.

現在、大規模言語モデル(LLM)は大流行しています。しかし、組織としては、適切なリソースがないと、大規模言語モデルの波に乗ることは困難です。大規模言語モデルのトレーニングと展開は困難であり、突然置いてけぼりにされたように感じます。MetaのLLaMAシリーズなど、オープンソースのLLMにより、LLMリソースが利用可能になりました。

そして、オープンソースのコレクションに加わるのは、MosaicML Foundationsのシリーズの最新作、MPT-7Bです。

MPT-7Bとは?

MPTは、MosaicML Pretrained Transformerの略です。MPTモデルは、多くの改善点を備えたGPTスタイルのデコーダー専用トランスフォーマーです。

  • パフォーマンス最適化のレイヤー実装
  • アーキテクチャの変更によるトレーニングの安定性向上
  • 文脈の長さの制限がない

MPT-7Bは、1兆トークンのテキストとコードを使用して、ゼロの人的介入で9.5日間でMosaicMLプラットフォームでトレーニングされたトランスフォーマーモデルです。MosaicMLの費用は約20万ドルです。

それはオープンソースであり、商用利用が可能であり、このツールはビジネスや組織が予測分析や意思決定プロセスに取り組む方法を変えることになります。

MPT-7Bの主な特徴は以下です:

  • 商用利用にライセンスされています
  • 大量のデータ(1兆トークン)でトレーニングされています
  • 極めて長い入力を処理できます
  • 高速なトレーニングと推論のために最適化されています
  • 非常に効率的なオープンソーストレーニングコードです。

MPT-7Bは、基本モデルであり、他のオープンソースの7B-20Bモデルよりも優れていることが示されています。MPT-7Bの品質はLLaMA-7Bに匹敵します。MosaicML Foundationは、品質を評価するために11のオープンソースベンチマークを用意し、業界標準の方法で評価しました。

MosaicML Foundationsは、3つの追加のファインチューンモデルもリリースします:

  1. MPT-7B-Instruct
  2. MPT-7B-Chat
  3. MPT-7B-StoryWriter-65k+

MPT-7B-Instruct

MPT-7B-Instructモデルは、短い形式の指示文に従います。2021年5月14日時点で26,834件があり、簡単な質問をした場合には、すぐに回答が得られます。質問があって、単純な回答が必要な場合は、MPT-7B-Instructを使用してください。

なぜこれが素晴らしいのでしょうか?通常、LLMは提供された入力に基づいてテキストの生成を続けるように教育されます。しかし、入力を指示として扱うLLMが必要な場合があります。指示ファインチューニングにより、LLMは指示に従う出力を実行できます。

MPT-7B-Chat

はい、また別のチャットボットが登場しました。MPT-7B-Chatは、対話を生成します。たとえば、コンテキストを与えてスピーチを生成するようにチャットボットに依頼した場合、会話形式のテキストが生成されます。また、記事から段落を言い換えたツイートを書きたい場合は、対話を生成することができます!

なぜこれが素晴らしいのでしょうか?MPT-7B Chatは、さまざまな会話タスクに対応するために準備が整っており、ユーザーにとってよりシームレスで魅力的なマルチターンの対話を提供します。

MPT-7B-StoryWriter-65k+

これは物語作家向けです!長い文脈を持つ物語を書きたい人のために、MPT-7B-StoryWriter-65k+はそのように設計されたモデルです。MPT-7Bを65kトークンの文脈長でファインチューニングして構築されたモデルであり、65kトークンを超えた推定も可能です。MosaicML Foundationは、A100-80GB GPUの単一ノードで84kトークンを生成することができました。

なぜこれが素晴らしいのか?これは、ほとんどのオープンソースのLLMが数千トークンまでのシーケンスしか処理できないためです。しかし、MosaicMLプラットフォームの8xA100-80GBの単一ノードを使用するだけで、MPT-7Bをファインチューニングして、最大65kのコンテキスト長を処理できます!

MPT-7Bの構築についての詳細

MosaicMLチームはわずか数週間でこれらのモデルを構築しました。データの準備、トレーニング、ファインチューニング、デプロイメントにわずか数週間しかかかりませんでした。

データは様々なソースから取得され、各ソースで10億トークンが利用可能でした。有効なトークン数は各ソースで10億になりました!チームは、EleutherAIの、GPT-NeoX、および20Bトークナイザーを使用して、多様なデータでトレーニングを行い、一貫したスペース区切りを適用し、その他の処理を行いました。

すべてのMPT-7Bモデルは、Oracle CloudのA100-40GBおよびA100-80GB GPUを使用して、MosaicMLプラットフォームでトレーニングされました。

MPT-7Bのツールやコストについて詳しく知りたい場合は、MPT-7Bブログを読んでください。

まとめ

MosaicMLプラットフォームは、組織がカスタムLLMを構築するための最適な出発点と考えられます。このオープンソースのリソースが利用可能であることにより、組織はこれらのツールを利用して現在の組織上の課題を改善することにより自由に感じることができます。

顧客は、任意のコンピューティングプロバイダーやデータソースでLLMをトレーニングでき、効率性、プライバシー、コストの透明性を維持できます。

MPT-7Bをどのように使用する予定ですか?以下のコメントでお知らせください。Nisha Aryaは、VoAGIのデータサイエンティスト、フリーランスのテクニカルライター、コミュニティマネージャーです。彼女は特に、データサイエンスのキャリアアドバイスやチュートリアル、理論的な知識を提供することに興味があります。また、人間の寿命の長さに人工知能がどのように貢献できるかを探求したいと思っています。彼女は、他の人を指導しながら自分の技術的な知識と文章力を広げ、向上させることを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「LangChain、Activeloop、そしてGPT-4を使用して、Redditのソースコードをリバースエンジニアリングするための分かりやすいガイド」

この記事では、Redditのバージョン1のソースコードをリバースエンジニアリングして、その動作をより理解します

データサイエンス

「AIと.NETの連携による現実世界のソリューションを強化する」

テクノロジーの絶えず進化する風景において、人工知能(AI)と.NETフレームワークの融合は、画期的な革新の道を切り開いてき...

データサイエンス

SIGGRAPH特別講演:NVIDIAのCEOがLAショーに生成AIをもたらす

生成AIがますますデジタルでハイパーコネクテッドな世界に広がる中、NVIDIAの創設者兼CEOであるJensen Huang氏は、世界最高の...

機械学習

アプリケーションの近代化における生成AIの活用

「生成AIは、極度の自動化の時代において、アプリケーションの近代化プログラムを加速させるための強力なエンエーブラーとな...

機械学習

「イギリスのテックフェスティバルが、クリエイティブ産業でAIを活用するスタートアップ企業を紹介する」

英国最大的技术节之一,企业和初创公司本周正展示他们最新的创新成果,举办研讨会,并庆祝位于英国西南部的技术生态系统的不...

AIテクノロジー

NVIDIAは、AIプロセッサの供給において日本を優先しています

人工知能(AI)技術の世界的な覇権争いを反映した重要な動きとして、NVIDIAのCEOであるJensen Huangは、日本の急増するAIプロ...