「Pythia 詳細な研究のための16個のLLMスイート」

Pythia 16 LLM Suites for detailed research

 

今日、大規模な言語モデルとLLMパワードのChatGPTやGPT-4のようなチャットボットは、私たちの日常生活にうまく統合されています。

しかし、デコーダーのみの自己回帰トランスフォーマーモデルは、LLMアプリケーションが主流になる前から、生成型NLPアプリケーションに広く使用されてきました。トレーニング中にこれらのモデルがどのように進化し、スケールアップするにつれてパフォーマンスがどのように変化するかを理解することは役に立つかもしれません。

Eleuther AIによるプロジェクトであるPythiaは、研究、分析、およびさらなる研究のための再現性を提供する16の大規模言語モデルのスイートです。この記事はPythiaの紹介です。

 

Pythiaスイートは何を提供していますか?

 

前述のように、Pythiaは、デコーダーのみの自己回帰トランスフォーマーモデルである16の大規模言語モデルのスイートです。これらのモデルは公開されているデータセットでトレーニングされており、サイズは70Mから12Bのパラメーターまでさまざまです。

  • すべてのモデルは、同じデータを同じ順序でトレーニングされています。これにより、トレーニングプロセスの再現性が容易になります。トレーニングパイプラインを再現するだけでなく、言語モデルを分析し、詳細に研究することもできます。
  • さらに、16の言語モデルごとに、トレーニングデータローダーと154以上のモデルチェックポイントのダウンロード機能も提供されています。

 

トレーニングデータとトレーニングプロセス

 

では、Pythia LLMスイートの詳細について見ていきましょう。

 

トレーニングデータセット

 

Pythia LLMスイートは、次のデータセットでトレーニングされました:

  • 300BトークンのPileデータセット 
  • 207Bトークンの重複排除Pileデータセット

最小のモデルと最大のモデルはそれぞれ70Mと12Bのパラメーターを持ち、他のモデルのサイズには160M、410M、1B、1.4B、2.8B、6.9Bが含まれます。

これらのモデルのそれぞれは、Pileと重複したPileの両方のデータセットでトレーニングされ、合計16のモデルが生成されました。以下の表は、モデルのサイズと一部のハイパーパラメーターを示しています。

   

使用されたハイパーパラメーターの詳細については、「Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling」を参照してください。

 

トレーニングプロセス

 

ここでは、アーキテクチャとトレーニングプロセスの概要を説明します:

  • すべてのモデルには完全な密なレイヤーがあり、フラッシュアテンションが使用されます。
  • より解釈しやすくするために、結合されていない埋め込み行列が使用されます。
  • バッチサイズは1024で、シーケンスの長さは2048です。この大きなバッチサイズは、ウォールクロックのトレーニング時間を大幅に短縮します。
  • トレーニングプロセスでは、データとテンソルの並列処理などの最適化技術も利用されます。

トレーニングプロセスには、Eleuther AIが開発したGPT-Neo-Xライブラリ(DeepSpeedライブラリの機能を含む)が使用されます。

 

モデルチェックポイント

 

各モデルには154のチェックポイントがあります。1000イテレーションごとに1つのチェックポイントがあります。さらに、トレーニングプロセスの初期段階でログ間隔でチェックポイントが存在します:1、2、4、8、16、32、64、128、256、および512。

 

Pythiaは他の言語モデルと比較してどうですか?

 

Pythia LLMスイートは、OpenAIのLAMBADAバリアントを含む利用可能な言語モデリングベンチマークに対して評価されました。その結果、PythiaのパフォーマンスはOPTおよびBLOOM言語モデルと比較可能であることがわかりました。

 

利点と制限

Pythia LLMスイートの主な利点は再現性です。データセットは一般公開されており、事前にトークン化されたデータローダーと154のモデルチェックポイントも一般公開されています。ハイパーパラメータの完全なリストも公開されています。これにより、モデルのトレーニングと分析の再現がより簡単になります。

[1]では、著者たちは多言語のテキストコーパスではなく、英語の言語データセットを選択した理由を説明しています。しかし、多言語の大規模言語モデルの再現可能なトレーニングパイプラインは役立つ場合があります。特に、多言語の大規模言語モデルのダイナミクスの研究と研究を促進するために。

ケーススタディの概要

この研究では、Pythiaスイートの大規模言語モデルのトレーニングプロセスの再現性を活用した興味深いケーススタディも紹介されています。

ジェンダーバイアス

すべての大規模言語モデルはバイアスと誤情報の影響を受けやすいです。この研究では、固定割合の代名詞を特定の性別のものにすることで、ジェンダーバイアスを軽減することに焦点を当てています。この事前トレーニングも再現可能です。

記憶

大規模言語モデルの記憶も広く研究されている領域です。シーケンスの記憶はポアソン点プロセスとしてモデル化されます。この研究では、特定のシーケンスの位置がトレーニングデータセット内での記憶に影響を与えるかどうかを理解することを目指しています。その結果、位置は記憶に影響を与えないことが観察されました。

事前トレーニングの用語の頻度の影響

2.8Bパラメータ以上の言語モデルでは、事前トレーニングコーパス内のタスク固有の用語の出現が、質問応答などのタスクのパフォーマンスを向上させることがわかりました。

モデルのサイズと、算術や数理推論などのより複雑なタスクのパフォーマンスとの間にも相関関係があります。

まとめと次のステップ

議論の重要なポイントをまとめましょう。

  • Eleuther AIのPythiaは、一般公開されているPileデータセットと重複排除されたPileデータセットでトレーニングされた16のLLMスイートです。
  • LLMのサイズは70Mから12Bパラメータの範囲です。
  • トレーニングデータとモデルのチェックポイントはオープンソースであり、正確なトレーニングデータローダーを再構成することが可能です。そのため、LLMスイートは大規模言語モデルのトレーニングダイナミクスをより理解するのに役立ちます。

次のステップとして、Hugging Face HubでPythiaスイートのモデルとモデルのチェックポイントを探索してみることができます。

参考文献

[1] Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling, arXiv, 2023     Bala Priya Cは、インド出身の開発者兼技術ライターです。彼女は数学、プログラミング、データサイエンス、コンテンツ作成の交差点での作業が好きです。彼女の関心と専門知識の範囲には、DevOps、データサイエンス、自然言語処理が含まれます。彼女は読書、執筆、コーディング、コーヒーが好きです!現在、彼女はチュートリアル、ハウツーガイド、意見記事などを執筆することで、開発者コミュニティと彼女の知識を共有するための学習に取り組んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「最高のAI画像エンハンサーおよびアップスケーリングツール(2023年)」

これらは、利用可能なトップのAI画像アップスケーラーおよびエンハンサーツールのいくつかです: HitPaw Photo Enhancer(エ...

データサイエンス

なぜデータは新たな石油ではなく、データマーケットプレイスは私たちに失敗したのか

「データは新しい石油」というフレーズは、2006年にクライブ・ハンビーによって作られ、それ以来広く反復されてきましたしか...

データサイエンス

Note This translation conveys the same meaning as the original English phrase, which refers to going from a state of poverty to wealth.

大規模言語モデル(LLM)が世界中を席巻している中、ベクトル検索エンジンも同行していますベクトルデータベースは、LLMの長...

AI研究

スタンフォード大学の研究者たちは、「ギスティング:言語モデルにおける効率的なプロンプト圧縮のための新しい技術」というものを紹介しました

モデルの特殊化は、事前に学習された機械学習モデルを特定のタスクやドメインに適応させることを意味します。言語モデル(LM...

人工知能

「トップの音声からテキストへのAIツール(2023年)」

インテリジェントな音声認識ソフトウェアは、AIとMLによって可能にされた最も価値のある機能の一つであり、自動的にオーディ...

コンピュータサイエンス

「アレクサ、学生たちは A.I. について何を学ぶべきですか?」

学校が強力な新しいA.I.ツールについて生徒に何を教えるかを議論する一方で、テックジャイアント、大学、非営利団体が無料の...