MPT-7Bを紹介します:新しいオープンソースLLM

Introducing MPT-7B A new open-source LLM.

現在、大規模言語モデル(LLM)は大流行しています。しかし、組織としては、適切なリソースがないと、大規模言語モデルの波に乗ることは困難です。大規模言語モデルのトレーニングと展開は困難であり、突然置いてけぼりにされたように感じます。MetaのLLaMAシリーズなど、オープンソースのLLMにより、LLMリソースが利用可能になりました。

そして、オープンソースのコレクションに加わるのは、MosaicML Foundationsのシリーズの最新作、MPT-7Bです。

MPT-7Bとは?

MPTは、MosaicML Pretrained Transformerの略です。MPTモデルは、多くの改善点を備えたGPTスタイルのデコーダー専用トランスフォーマーです。

  • パフォーマンス最適化のレイヤー実装
  • アーキテクチャの変更によるトレーニングの安定性向上
  • 文脈の長さの制限がない

MPT-7Bは、1兆トークンのテキストとコードを使用して、ゼロの人的介入で9.5日間でMosaicMLプラットフォームでトレーニングされたトランスフォーマーモデルです。MosaicMLの費用は約20万ドルです。

それはオープンソースであり、商用利用が可能であり、このツールはビジネスや組織が予測分析や意思決定プロセスに取り組む方法を変えることになります。

MPT-7Bの主な特徴は以下です:

  • 商用利用にライセンスされています
  • 大量のデータ(1兆トークン)でトレーニングされています
  • 極めて長い入力を処理できます
  • 高速なトレーニングと推論のために最適化されています
  • 非常に効率的なオープンソーストレーニングコードです。

MPT-7Bは、基本モデルであり、他のオープンソースの7B-20Bモデルよりも優れていることが示されています。MPT-7Bの品質はLLaMA-7Bに匹敵します。MosaicML Foundationは、品質を評価するために11のオープンソースベンチマークを用意し、業界標準の方法で評価しました。

MosaicML Foundationsは、3つの追加のファインチューンモデルもリリースします:

  1. MPT-7B-Instruct
  2. MPT-7B-Chat
  3. MPT-7B-StoryWriter-65k+

MPT-7B-Instruct

MPT-7B-Instructモデルは、短い形式の指示文に従います。2021年5月14日時点で26,834件があり、簡単な質問をした場合には、すぐに回答が得られます。質問があって、単純な回答が必要な場合は、MPT-7B-Instructを使用してください。

なぜこれが素晴らしいのでしょうか?通常、LLMは提供された入力に基づいてテキストの生成を続けるように教育されます。しかし、入力を指示として扱うLLMが必要な場合があります。指示ファインチューニングにより、LLMは指示に従う出力を実行できます。

MPT-7B-Chat

はい、また別のチャットボットが登場しました。MPT-7B-Chatは、対話を生成します。たとえば、コンテキストを与えてスピーチを生成するようにチャットボットに依頼した場合、会話形式のテキストが生成されます。また、記事から段落を言い換えたツイートを書きたい場合は、対話を生成することができます!

なぜこれが素晴らしいのでしょうか?MPT-7B Chatは、さまざまな会話タスクに対応するために準備が整っており、ユーザーにとってよりシームレスで魅力的なマルチターンの対話を提供します。

MPT-7B-StoryWriter-65k+

これは物語作家向けです!長い文脈を持つ物語を書きたい人のために、MPT-7B-StoryWriter-65k+はそのように設計されたモデルです。MPT-7Bを65kトークンの文脈長でファインチューニングして構築されたモデルであり、65kトークンを超えた推定も可能です。MosaicML Foundationは、A100-80GB GPUの単一ノードで84kトークンを生成することができました。

なぜこれが素晴らしいのか?これは、ほとんどのオープンソースのLLMが数千トークンまでのシーケンスしか処理できないためです。しかし、MosaicMLプラットフォームの8xA100-80GBの単一ノードを使用するだけで、MPT-7Bをファインチューニングして、最大65kのコンテキスト長を処理できます!

MPT-7Bの構築についての詳細

MosaicMLチームはわずか数週間でこれらのモデルを構築しました。データの準備、トレーニング、ファインチューニング、デプロイメントにわずか数週間しかかかりませんでした。

データは様々なソースから取得され、各ソースで10億トークンが利用可能でした。有効なトークン数は各ソースで10億になりました!チームは、EleutherAIの、GPT-NeoX、および20Bトークナイザーを使用して、多様なデータでトレーニングを行い、一貫したスペース区切りを適用し、その他の処理を行いました。

すべてのMPT-7Bモデルは、Oracle CloudのA100-40GBおよびA100-80GB GPUを使用して、MosaicMLプラットフォームでトレーニングされました。

MPT-7Bのツールやコストについて詳しく知りたい場合は、MPT-7Bブログを読んでください。

まとめ

MosaicMLプラットフォームは、組織がカスタムLLMを構築するための最適な出発点と考えられます。このオープンソースのリソースが利用可能であることにより、組織はこれらのツールを利用して現在の組織上の課題を改善することにより自由に感じることができます。

顧客は、任意のコンピューティングプロバイダーやデータソースでLLMをトレーニングでき、効率性、プライバシー、コストの透明性を維持できます。

MPT-7Bをどのように使用する予定ですか?以下のコメントでお知らせください。Nisha Aryaは、VoAGIのデータサイエンティスト、フリーランスのテクニカルライター、コミュニティマネージャーです。彼女は特に、データサイエンスのキャリアアドバイスやチュートリアル、理論的な知識を提供することに興味があります。また、人間の寿命の長さに人工知能がどのように貢献できるかを探求したいと思っています。彼女は、他の人を指導しながら自分の技術的な知識と文章力を広げ、向上させることを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

Google フォトのマジックエディター:写真を再構築するための新しいAI編集機能

Magic Editorは、AIを使用して写真を再構想するのを手助けする実験的な編集体験です今年後半には、選択されたPixel電話での早...

機械学習

「マルチタスクアーキテクチャ:包括的なガイド」

多くのタスクを実行するためにニューラルネットワークを訓練することは、マルチタスク学習として知られていますこの投稿では...

AIニュース

AWSを使用したジェネレーティブAIを使用したサーバーレスイメージ生成アプリケーション

このチュートリアルでは、Amazon Bedrockを使用してGoで画像生成ソリューションを構築し、AWS CDKを使用して展開する方法を学...

データサイエンス

「AI企業がソフトウェア供給チェーンの脆弱性に対して被害を受けた場合、何が起こるのか」

OpenAIの侵害を見て、AI企業SSCのハッキングとその可能な影響を推測する自分自身を守るために何ができるか?

人工知能

効率的な開発者ですか?それならAIがあなたの仕事を狙っています

開発における人間とAIの利点は、効果と効率の一致によるものです前者は曖昧で主観的ですが、後者は議論の余地がなくデータに...

機械学習

ディープラーニングのためのPythonとC++による自動微分

このストーリーでは、トレーニングループ中にパラメータの勾配を自動的に計算する現代のディープラーニングフレームワークの...