「Pythia 詳細な研究のための16個のLLMスイート」

Pythia 16 LLM Suites for detailed research

今日、大規模な言語モデルとLLMパワードのChatGPTやGPT-4のようなチャットボットは、私たちの日常生活にうまく統合されています。

しかし、デコーダーのみの自己回帰トランスフォーマーモデルは、LLMアプリケーションが主流になる前から、生成型NLPアプリケーションに広く使用されてきました。トレーニング中にこれらのモデルがどのように進化し、スケールアップするにつれてパフォーマンスがどのように変化するかを理解することは役に立つかもしれません。

Eleuther AIによるプロジェクトであるPythiaは、研究、分析、およびさらなる研究のための再現性を提供する16の大規模言語モデルのスイートです。この記事はPythiaの紹介です。

Pythiaスイートは何を提供していますか？

前述のように、Pythiaは、デコーダーのみの自己回帰トランスフォーマーモデルである16の大規模言語モデルのスイートです。これらのモデルは公開されているデータセットでトレーニングされており、サイズは70Mから12Bのパラメーターまでさまざまです。

すべてのモデルは、同じデータを同じ順序でトレーニングされています。これにより、トレーニングプロセスの再現性が容易になります。トレーニングパイプラインを再現するだけでなく、言語モデルを分析し、詳細に研究することもできます。
さらに、16の言語モデルごとに、トレーニングデータローダーと154以上のモデルチェックポイントのダウンロード機能も提供されています。

トレーニングデータとトレーニングプロセス

では、Pythia LLMスイートの詳細について見ていきましょう。

トレーニングデータセット

Pythia LLMスイートは、次のデータセットでトレーニングされました：

300BトークンのPileデータセット
207Bトークンの重複排除Pileデータセット

最小のモデルと最大のモデルはそれぞれ70Mと12Bのパラメーターを持ち、他のモデルのサイズには160M、410M、1B、1.4B、2.8B、6.9Bが含まれます。

これらのモデルのそれぞれは、Pileと重複したPileの両方のデータセットでトレーニングされ、合計16のモデルが生成されました。以下の表は、モデルのサイズと一部のハイパーパラメーターを示しています。

使用されたハイパーパラメーターの詳細については、「Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling」を参照してください。

トレーニングプロセス

ここでは、アーキテクチャとトレーニングプロセスの概要を説明します：

すべてのモデルには完全な密なレイヤーがあり、フラッシュアテンションが使用されます。
より解釈しやすくするために、結合されていない埋め込み行列が使用されます。
バッチサイズは1024で、シーケンスの長さは2048です。この大きなバッチサイズは、ウォールクロックのトレーニング時間を大幅に短縮します。
トレーニングプロセスでは、データとテンソルの並列処理などの最適化技術も利用されます。

トレーニングプロセスには、Eleuther AIが開発したGPT-Neo-Xライブラリ（DeepSpeedライブラリの機能を含む）が使用されます。

モデルチェックポイント

各モデルには154のチェックポイントがあります。1000イテレーションごとに1つのチェックポイントがあります。さらに、トレーニングプロセスの初期段階でログ間隔でチェックポイントが存在します：1、2、4、8、16、32、64、128、256、および512。

Pythiaは他の言語モデルと比較してどうですか？

Pythia LLMスイートは、OpenAIのLAMBADAバリアントを含む利用可能な言語モデリングベンチマークに対して評価されました。その結果、PythiaのパフォーマンスはOPTおよびBLOOM言語モデルと比較可能であることがわかりました。

利点と制限

Pythia LLMスイートの主な利点は再現性です。データセットは一般公開されており、事前にトークン化されたデータローダーと154のモデルチェックポイントも一般公開されています。ハイパーパラメータの完全なリストも公開されています。これにより、モデルのトレーニングと分析の再現がより簡単になります。

[1]では、著者たちは多言語のテキストコーパスではなく、英語の言語データセットを選択した理由を説明しています。しかし、多言語の大規模言語モデルの再現可能なトレーニングパイプラインは役立つ場合があります。特に、多言語の大規模言語モデルのダイナミクスの研究と研究を促進するために。

ケーススタディの概要

この研究では、Pythiaスイートの大規模言語モデルのトレーニングプロセスの再現性を活用した興味深いケーススタディも紹介されています。

ジェンダーバイアス

すべての大規模言語モデルはバイアスと誤情報の影響を受けやすいです。この研究では、固定割合の代名詞を特定の性別のものにすることで、ジェンダーバイアスを軽減することに焦点を当てています。この事前トレーニングも再現可能です。

記憶

大規模言語モデルの記憶も広く研究されている領域です。シーケンスの記憶はポアソン点プロセスとしてモデル化されます。この研究では、特定のシーケンスの位置がトレーニングデータセット内での記憶に影響を与えるかどうかを理解することを目指しています。その結果、位置は記憶に影響を与えないことが観察されました。

事前トレーニングの用語の頻度の影響

2.8Bパラメータ以上の言語モデルでは、事前トレーニングコーパス内のタスク固有の用語の出現が、質問応答などのタスクのパフォーマンスを向上させることがわかりました。

モデルのサイズと、算術や数理推論などのより複雑なタスクのパフォーマンスとの間にも相関関係があります。

まとめと次のステップ

議論の重要なポイントをまとめましょう。

Eleuther AIのPythiaは、一般公開されているPileデータセットと重複排除されたPileデータセットでトレーニングされた16のLLMスイートです。
LLMのサイズは70Mから12Bパラメータの範囲です。
トレーニングデータとモデルのチェックポイントはオープンソースであり、正確なトレーニングデータローダーを再構成することが可能です。そのため、LLMスイートは大規模言語モデルのトレーニングダイナミクスをより理解するのに役立ちます。

次のステップとして、Hugging Face HubでPythiaスイートのモデルとモデルのチェックポイントを探索してみることができます。

参考文献

[1] Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling, arXiv, 2023 Bala Priya Cは、インド出身の開発者兼技術ライターです。彼女は数学、プログラミング、データサイエンス、コンテンツ作成の交差点での作業が好きです。彼女の関心と専門知識の範囲には、DevOps、データサイエンス、自然言語処理が含まれます。彼女は読書、執筆、コーディング、コーヒーが好きです！現在、彼女はチュートリアル、ハウツーガイド、意見記事などを執筆することで、開発者コミュニティと彼女の知識を共有するための学習に取り組んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Artificial Intelligence

Was this article helpful?

93 out of 132 found this helpful

「Pythia 詳細な研究のための16個のLLMスイート」

Pythiaスイートは何を提供していますか？

トレーニングデータとトレーニングプロセス

トレーニングデータセット

トレーニングプロセス

モデルチェックポイント

Pythiaは他の言語モデルと比較してどうですか？

利点と制限

ケーススタディの概要

ジェンダーバイアス

記憶

事前トレーニングの用語の頻度の影響

まとめと次のステップ

参考文献

Was this article helpful?

LangChainによるAIの変革：テキストデータのゲームチェンジャー

「Pythonによる正規表現のマスタリング」

AI研究

スタンフォード大学の研究者がSequenceMatchを紹介：模倣学習損失を用いたLLMsのトレーニング

なぜGPUはAIに適しているのか

なぜハイプが重要なのか：AIについて現実的な考え方が必要

「Amazon SageMaker StudioでAmazon SageMaker JumpStartを使用して安定したDiffusion XLを利用する」

SalesForceのAI研究者が、マスク不要のOVISを紹介：オープンボキャブラリーインスタンスセグメンテーションマスクジェネレータ

Voxel51 は、コンピュータビジョンデータセット分析のための Python コードを生成するために GPT-3.5 の能力を活用する AI アシスタントである VoxelGPT をオープンソース化しました