「Pythia 詳細な研究のための16個のLLMスイート」

Pythia 16 LLM Suites for detailed research

 

今日、大規模な言語モデルとLLMパワードのChatGPTやGPT-4のようなチャットボットは、私たちの日常生活にうまく統合されています。

しかし、デコーダーのみの自己回帰トランスフォーマーモデルは、LLMアプリケーションが主流になる前から、生成型NLPアプリケーションに広く使用されてきました。トレーニング中にこれらのモデルがどのように進化し、スケールアップするにつれてパフォーマンスがどのように変化するかを理解することは役に立つかもしれません。

Eleuther AIによるプロジェクトであるPythiaは、研究、分析、およびさらなる研究のための再現性を提供する16の大規模言語モデルのスイートです。この記事はPythiaの紹介です。

 

Pythiaスイートは何を提供していますか?

 

前述のように、Pythiaは、デコーダーのみの自己回帰トランスフォーマーモデルである16の大規模言語モデルのスイートです。これらのモデルは公開されているデータセットでトレーニングされており、サイズは70Mから12Bのパラメーターまでさまざまです。

  • すべてのモデルは、同じデータを同じ順序でトレーニングされています。これにより、トレーニングプロセスの再現性が容易になります。トレーニングパイプラインを再現するだけでなく、言語モデルを分析し、詳細に研究することもできます。
  • さらに、16の言語モデルごとに、トレーニングデータローダーと154以上のモデルチェックポイントのダウンロード機能も提供されています。

 

トレーニングデータとトレーニングプロセス

 

では、Pythia LLMスイートの詳細について見ていきましょう。

 

トレーニングデータセット

 

Pythia LLMスイートは、次のデータセットでトレーニングされました:

  • 300BトークンのPileデータセット 
  • 207Bトークンの重複排除Pileデータセット

最小のモデルと最大のモデルはそれぞれ70Mと12Bのパラメーターを持ち、他のモデルのサイズには160M、410M、1B、1.4B、2.8B、6.9Bが含まれます。

これらのモデルのそれぞれは、Pileと重複したPileの両方のデータセットでトレーニングされ、合計16のモデルが生成されました。以下の表は、モデルのサイズと一部のハイパーパラメーターを示しています。

   

使用されたハイパーパラメーターの詳細については、「Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling」を参照してください。

 

トレーニングプロセス

 

ここでは、アーキテクチャとトレーニングプロセスの概要を説明します:

  • すべてのモデルには完全な密なレイヤーがあり、フラッシュアテンションが使用されます。
  • より解釈しやすくするために、結合されていない埋め込み行列が使用されます。
  • バッチサイズは1024で、シーケンスの長さは2048です。この大きなバッチサイズは、ウォールクロックのトレーニング時間を大幅に短縮します。
  • トレーニングプロセスでは、データとテンソルの並列処理などの最適化技術も利用されます。

トレーニングプロセスには、Eleuther AIが開発したGPT-Neo-Xライブラリ(DeepSpeedライブラリの機能を含む)が使用されます。

 

モデルチェックポイント

 

各モデルには154のチェックポイントがあります。1000イテレーションごとに1つのチェックポイントがあります。さらに、トレーニングプロセスの初期段階でログ間隔でチェックポイントが存在します:1、2、4、8、16、32、64、128、256、および512。

 

Pythiaは他の言語モデルと比較してどうですか?

 

Pythia LLMスイートは、OpenAIのLAMBADAバリアントを含む利用可能な言語モデリングベンチマークに対して評価されました。その結果、PythiaのパフォーマンスはOPTおよびBLOOM言語モデルと比較可能であることがわかりました。

 

利点と制限

Pythia LLMスイートの主な利点は再現性です。データセットは一般公開されており、事前にトークン化されたデータローダーと154のモデルチェックポイントも一般公開されています。ハイパーパラメータの完全なリストも公開されています。これにより、モデルのトレーニングと分析の再現がより簡単になります。

[1]では、著者たちは多言語のテキストコーパスではなく、英語の言語データセットを選択した理由を説明しています。しかし、多言語の大規模言語モデルの再現可能なトレーニングパイプラインは役立つ場合があります。特に、多言語の大規模言語モデルのダイナミクスの研究と研究を促進するために。

ケーススタディの概要

この研究では、Pythiaスイートの大規模言語モデルのトレーニングプロセスの再現性を活用した興味深いケーススタディも紹介されています。

ジェンダーバイアス

すべての大規模言語モデルはバイアスと誤情報の影響を受けやすいです。この研究では、固定割合の代名詞を特定の性別のものにすることで、ジェンダーバイアスを軽減することに焦点を当てています。この事前トレーニングも再現可能です。

記憶

大規模言語モデルの記憶も広く研究されている領域です。シーケンスの記憶はポアソン点プロセスとしてモデル化されます。この研究では、特定のシーケンスの位置がトレーニングデータセット内での記憶に影響を与えるかどうかを理解することを目指しています。その結果、位置は記憶に影響を与えないことが観察されました。

事前トレーニングの用語の頻度の影響

2.8Bパラメータ以上の言語モデルでは、事前トレーニングコーパス内のタスク固有の用語の出現が、質問応答などのタスクのパフォーマンスを向上させることがわかりました。

モデルのサイズと、算術や数理推論などのより複雑なタスクのパフォーマンスとの間にも相関関係があります。

まとめと次のステップ

議論の重要なポイントをまとめましょう。

  • Eleuther AIのPythiaは、一般公開されているPileデータセットと重複排除されたPileデータセットでトレーニングされた16のLLMスイートです。
  • LLMのサイズは70Mから12Bパラメータの範囲です。
  • トレーニングデータとモデルのチェックポイントはオープンソースであり、正確なトレーニングデータローダーを再構成することが可能です。そのため、LLMスイートは大規模言語モデルのトレーニングダイナミクスをより理解するのに役立ちます。

次のステップとして、Hugging Face HubでPythiaスイートのモデルとモデルのチェックポイントを探索してみることができます。

参考文献

[1] Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling, arXiv, 2023     Bala Priya Cは、インド出身の開発者兼技術ライターです。彼女は数学、プログラミング、データサイエンス、コンテンツ作成の交差点での作業が好きです。彼女の関心と専門知識の範囲には、DevOps、データサイエンス、自然言語処理が含まれます。彼女は読書、執筆、コーディング、コーヒーが好きです!現在、彼女はチュートリアル、ハウツーガイド、意見記事などを執筆することで、開発者コミュニティと彼女の知識を共有するための学習に取り組んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

あなたの究極のチャットGPTおよびその他の略語ガイド

ChatGPTについて、誰もが熱狂しているようですこれは文化現象になりましたまだChatGPTの利用者でない場合、この記事はこの革...

機械学習

「Amazon ComprehendのためのPDFの事前ラベル付けを自動化する」

「Amazon Comprehend」はテキストデータから洞察を得るための事前トレーニング済みおよびカスタムAPIを提供する自然言語処理...

AIニュース

「トライするためのトップ50のAIライティングツール(2023年9月)」

Grammarly Grammarlyは文章を向上させるための優れたツールです。文章の文法、スペル、句読点、スタイルをチェックして、明確...

AI研究

UCLとGoogleの研究者が提案する「AudioSlots:オーディオドメインの盲目的なソース分離のためのスロット中心の生成モデル」

最近、集合構造化データ上で動作するアーキテクチャにおけるニューラルネットワークの使用と、非構造化入力から集合構造化出...

機械学習

この AI ペーパーでは、X-Raydar を発表します:画期的なオープンソースの深層ニューラルネットワークによる胸部 X 線異常検出

“` イギリスの様々な大学の研究者たちは、豊富なデータセットを用いて、総合的な胸部X線異常検出のためのオープンソー...

データサイエンス

「MITの研究者達が、シーン内の概念を理解するために機械学習モデルを支援するために、様々なシナリオを描いた画像の新しい注釈付き合成データセットを作成しました」

大規模な事前学習済みのビジョンと言語モデルは、数多くのアプリケーションで驚異的なパフォーマンスを発揮しており、固定さ...