GLM-130B:オープンなバイリンガル事前訓練モデル
GLM-130B:オープンなバイリンガル事前訓練モデルの魅力
GLM-130Bフレームワークは、1300億以上のパラメータを持ち、英語と中国語の両方でテキスト出力を生成することができるバイリンガルの事前学習済み大規模言語モデルです。 GLM-130Bフレームワークは、1000億以上のパラメータのスケールで言語モデルをオープンソース化し、現在はこのような大規模なスケールのモデルのトレーニングは発散や損失の急上昇などの問題によって大きな困難を伴っているため、どのように事前トレーニングできるかについて議論します。
この記事では、GLM-130Bフレームワークについて詳しく説明し、数千億のパラメータを持つ大規模な言語モデルを効果的に事前学習する方法、そして効率と安定性を向上させるためのトレーニングプロセスと設計の選択について探求します。 GLM-130Bフレームワークの機能とアーキテクチャ、トレーニングプロセスによる初期の実験結果と、幅広い英語のベンチマークでのGLM-130Bフレームワークの機能が、現在の最先端のGPT-3フレームワークをかなり上回ることが確認されました。では、GLM-130Bフレームワークがどのように一貫性のある正確で安定した結果を提供するのかを探求していきましょう。
GLM-130Bフレームワークの紹介
特に1000億以上のパラメータを持つフューショットおよびゼロショット設定で動作する大規模な言語モデルは、魅力的なスケーリング法則を持っており、その中でGPT-3フレームワークは、前任のBERTフレームワークよりも優れた性能向上を提供する最も優れたフレームワークの一つです。 しかし、GPT-3フレームワークの人気や広範な応用にもかかわらず、トレーニングプロセスやGPT-3フレームワーク自体は一般の人々には非透明でした。さらに、1000億以上のパラメータでのLLMのトレーニングのためのすべての可能な設計を経験的に列挙することは、計算的に負担がかかるため、大規模なLLMフレームワークの事前トレーニング方法を考案することはさらに重要です。
上記の点から、GPT-3などの高品質な大規模LLMフレームワークの動作およびトレーニングプロセスを共有することは、重要な価値があり、倫理的な懸念を念頭に置いて、GLM-130Bフレームワークは1000億以上のパラメータを持つ正確でオープンソースのLLMを事前トレーニングする試みです。彼らの試みの過程で、GLM-130B開発チームは、大規模なLLMフレームワークの事前トレーニングは、事前トレーニングの安定性、効率性、および収束というさまざまなエンジニアリングと技術的な課題を伴うことに気付きました。
- 第二の電気革命:AmberSemiが電気の物理をデジタル化する方法、そしてそれが重要な理由
- LLMのパフォーマンス比較ーRoberta、Llama 2、およびMistralを使用したLoraによる災害ツイート分析の詳細解説
- 「GPT-4 対 ゼファー-7b-beta:どちらを使うべきか?」
具体的には、GLM-130Bは双方向およびバイリンガルな密なフレームワークであり、1300億以上のパラメータを持ち、96台のNVIDIA DGX-A100 GPUノードのクラスターで約2か月間にわたり4000億トークンで事前トレーニングされています。さらに、GPTスタイルのアーキテクチャではなく、GLM-130BフレームワークはGLMまたはGeneral Language Modelアルゴリズムを利用し、自己回帰的なブランク埋めオブジェクティブと双方向のアテンションの利点を活用しようとしています。次の表は、GPT、BLOOM-176B、OPT-175Bなど、1000億以上のパラメータを持つ他のモデルとGLM-130Bフレームワークを比較しています。
GLM-130Bフレームワークのエンジニアリングおよび開発コンセプトは、GPT-3やPaLM 540Bなどを含むほぼすべての大規模なLLMフレームワークを凌駕し、さまざまなベンチマークで優れたパフォーマンスを発揮します。次の図は、GLM-130Bフレームワークのパフォーマンスを1000億以上のパラメータを持つモデルと比較したものであり、GLM-130Bフレームワークは対応する他のモデルよりも生成毒性とバイアスが大幅に少ないことがわかります。
最後に、GLM-130Bは1000億以上のパラメータを持つフレームワークの研究を多くの開発者に行うための方法を提供するように設計されており、GLM-130Bフレームワークがこれを達成するための2つの方法があります。まず、BLOOMやOPTのように1750億以上のパラメータを使用するのではなく、GLM-130Bフレームワークは1300億のパラメータを使用しています。モデルのサイズは、単独のA100サーバーでも干渉をサポートするためです。次に、他のLLMフレームワークと比較してもGLM-130Bフレームワークを実行するためのGPUの要件が少なくなるように、オリジナルのフレームワークをINT4精度に量子化します。GLM-130Bフレームワークで使用されるINT4の量子化は、パフォーマンスの向上に寄与し、性能の低下はほとんどありません。
GLM-130B : アーキテクチャ
機械学習モデルの帰納的なバイアスは、そのアーキテクチャによって表されます。計算効率や実行可能性の問題から、開発者がさまざまなアーキテクチャ設計を探索できないことは驚くことではありません。それでは、GLM-130Bのアーキテクチャを見てみましょう。
PaLM、GPTなどの大規模なLLMフレームワークは100B以上のパラメータを持ち、自己回帰的な言語モデリングのための従来のデコーダーのみのGPTスタイルのアーキテクチャに基づいて構築されています。一方、GLM-130Bフレームワークは、基礎として自己回帰的な空所補完を活用するトランスフォーマーベースの言語モデルである、双方向のGeneral Language ModelまたはGLMの使用の可能性を探求しています。簡単に説明すると、GLMフレームワークでは、与えられたテキストシーケンスに対して、テキストスパンをサンプリングし、それらを単一のマスクトークンで置き換えます。
General Language Modelの双方向の注意機能は、未修正またはマスク解除されたコンテキストに対して行われ、GLM-130Bフレームワークを一方向のアプローチを使用するGPTスタイルのアプローチとは異なる特徴です。さらに、データの生成と理解の両方をサポートするために、GLMフレームワークは2つの破損戦略を組み合わせ、それぞれが特別でユニークなマスクトークンで示されます。
- [MASK] : [MASK]は文中の短いブランクを使用する破損戦略であり、その長さは入力の一定の割合に相当します。
- [gMASK] : [gMASK]は、プレフィックスコンテキストに対して文末にランダムな長さのブランクを使用する破損戦略です。
GLMフレームワークが採用するアプローチにより、ゼロショットのLAMBADA言語モデリングで80%以上の正確性スコアを記録し、PaLM 540BとGPT-3フレームワークを上回る性能を発揮します。
レイヤーノーマリゼーション
LLMフレームワークのトレーニング不安定性は、開発者が直面する主要な課題の1つであり、適切なLN(レイヤーノーマリゼーション)を使用することで、LLMのトレーニングがサポートされる可能性があります。GLM-130Bフレームワークは、パフォーマンスが向上したため、ポスト-LNアプローチを使用しています。
FFNおよび位置エンコーディング
GLM-130Bフレームワークは、高度な下流のパフォーマンスとトレーニングの安定性を導入するために、フィードフォワードニューラルネットワーク(FFNs)および位置エンコーディングの2つのアプローチを採用しています。
プレトレーニングの設定
GLM-130Bフレームワークのプレトレーニング目標には、少数のトークンのためのマルチタスク学習だけでなく、自己教師ありのGLMによる空所の自己回帰的な補完も含まれています。これにより、GLM-130Bフレームワークが後続のタスクにおいてサポートされることを期待しています。それでは、GLM-130Bフレームワークのプレトレーニングの設定を以下に示します。
自己教師ありの空所補完
先に述べたように、GLM-130Bフレームワークでは、[MASK]および[gMASK]という2つの破損戦略を使用しています。これらの戦略は、個々のトレーニングシーケンスに対して独立に適用されます。空所を埋めるため、[MASK]戦略はトレーニングシーケンスの30%で連続するスパンをマスクし、スパンの長さは入力の15%に相当し、ポアソン分布に従います。残りの70%のシーケンスでは、各シーケンスのプレフィックスがコンテキストとして残され、[gMASK]戦略が残りの部分をマスクし、マスクされた長さは一様分布を使用してサンプリングされます。
マルチタスクインストラクションのプレトレーニング
マルチタスク学習アプローチをプレトレーニングに採用することで、モデルのファインチューニングよりも優れた結果が得られ、ゼロショット設定におけるタスク転送の向上が期待できます。そのため、GLM-130Bフレームワークは、プレトレーニング中に言語生成、理解、情報抽出などのインストラクションを提示した複数のデータセットを使用することを提案しています。
他のマルチタスクプロンプトのファインチューニングを利用したゼロショットタスク転送手法と比較して、Multi-Task Instructions Pre-TrainingアプローチによるGLM-130Bフレームワークは、トークンの総数のわずか5%しか占めず、他のLLMフレームワークの他の能力を損なうことなく、または言い換えれば無条件の自由生成を妨げるために事前トレーニングフェーズで設定されます。
3Dパラレルストラテジー
数十億のパラメータを持つ大規模モデルを訓練するための2つの事実上のプラクティス、テンソルモデルパラレリズムとデータパラレリズムがあります。 GPU利用率を最小化し、GPUの要件を処理するために、GLM-130Bフレームワークは、パイプラインモデルパラレリズム戦略とテンソルモデルパラレリズムおよびデータパラレリズム戦略を組み合わせた3Dパラレルストラテジーを実装しています。
GLM-130B:トレーニングの安定性
トレーニングの安定性は、LLMの品質を決定する重要な要素であり、トークンの数によって大きく影響を受けます。さらに、計算の制約に応じた浮動小数点形式において、安定性と効率のトレードオフを確立することが重要です。例えば、低精度の浮動小数点形式は計算効率を高めますが、アンダーフローおよびオーバーフローエラーの発生しやすいため、トレーニングの崩壊を引き起こすことがあります。
ミックスドプレシジョン
トレーニングの精度を向上させ、メモリの使用量を削減するために、GLM-130Bフレームワークでは、FP16を前方および後方の両方に、およびマスターウェイトおよびオプティマイザステートにFP32を使用するという一般的なプラクティスに従います。BLOOM-176BやOPT-175Bなどの他の人気のあるLLMフレームワークと同様に、mixed precision戦略を使用したGLM-130Bフレームワークのトレーニングフェーズでは、頻繁な損失スパイクに直面し、これらのスパイク損失の頻度はモデルのトレーニングが進むにつれて増加します。さらに、トランスフォーマーのスケーリング時に開発者が直面する重要な問題もあります。
まず、Pre-LNを使用する場合、トランスフォーマーのメインブランチの値スケールは深いレイヤーで広範囲になりますが、GLM-130Bフレームワークでは、値スケールが常に制約されるように、DeepNormベースのPre-LNを使用して解決されます。第二に、モデルがスケーリングされるにつれて、アテンションスコアはFP16の範囲を超える点まで成長します。
埋め込みレイヤーの勾配縮小またはEGS
GLM-130Bフレームワークの開発者は、勾配ノルムがトレーニングの崩壊の情報源として機能し、勾配ノルムのスパイクは通常、勾配ノルムの急増に遅れて発生することを特定しました。これらのスパイクの原因は、埋め込みレイヤーの異常な勾配であり、開発者は、他のレイヤーの勾配ノルムと比較して、埋め込みレイヤーの勾配ノルムが数桁大きく、フレームワークの初期トレーニング中に劇的に変動することを観察しました。ビジョンモデルもこの問題に直面し、パッチプロジェクションレイヤーを凍結することで対処されます。ただし、言語モデルではプロジェクションレイヤーを凍結することはできないため、同じアプローチはLLMには適用できません。
GLM-130B:結果とパフォーマンス
英語のタスクに対するGLM-130Bのパフォーマンスを評価するために、パLMやGPT-3などの一般的なLLMフレームワークに従う同じ設定を実装し、GLM-130Bはバイリンガルフレームワークであるため、いくつかの中国語のベンチマークでも評価されます。GLM-130Bフレームワークのパフォーマンスは、言語モデリング、MMLUまたは巨大なマルチタスク言語理解、BIG-BenchまたはImitation Game Benchmark、およびCLUEまたは中国語言語理解評価の複数のベンチマークで測定されます。さあ始めましょう。
言語モデリング
GLM-130Bフレームワーク上の言語モデリングベンチマークテストは、2つのデータセット、LAMBADAとPileを対象として実施されます。
LAMBADAデータセットは、LLMの最後の単語モデリング能力をテストするために使用され、GLM-130Bフレームワークはバイリンガル環境でゼロショットの正解率80.2を達成し、LAMBADAデータセットで新たなベンチマーク記録を樹立しました。
一方、Pileは言語モデルのベンチマークのシリーズで構成されるテストセットです。重み付けBPBの観点から、GLM-130BフレームワークはGPT-3とJurassic-1と比較して18つの共有テストセットで最高の性能を発揮します。これらの結果は、以下の表に示されています。
MMLUまたはMassive Multitask Language Understanding
MMLUまたはMassive Multitask Language Understandingは、高校からエキスパートレベルまでの人間の知識と知識に関する50以上の複数選択問題回答タスクを含む多様なベンチマークです。これはPileテストセットのクローリング後にリリースされ、LLMのフューショット学習能力を評価するための理想的なテストベースとなります。
いくつかのショット設定(5ショット)では、GLM-130Bフレームワークの性能は、300Bトークン近くを見た後にGPT-3モデルの性能に近づきます。トレーニングが進むにつれて性能が向上し続け、トレーニングが終了すると、合計400Bトークンを見た後にフレームワークは44.8の正解率を達成します。
BIG-BenchまたはBeyond the Imitation Game Benchmark
BIG-BenchまたはBeyond the Imitation Game Benchmarkは、モデルの知識、推論、常識の能力をテストする課題です。以下の図で示されるように、ゼロショット設定では、GLM-130BフレームワークはPaLM 540BおよびGPT-3 175Bフレームワークを上回ります。これは、MIPおよび双方向コンテキストアテンションにより、GLM-130Bがゼロショット設定で未知のタスクでのパフォーマンスを向上させることができるためと考えられます。さらに、ショット数が増えるにつれて、GLM-130Bフレームワークの性能も向上し、GPT-3フレームワークを一貫して上回ります。
CLUEまたはChinese Language Understanding Evaluation
GLM-130Bの中国語ゼロショット性能は、CLUEおよびFewCLUEなどの確立されたNLPベンチマークタスクで評価され、最も大きな既存の中国語言語モデルである260B ERNIE Titan 3.0と比較されます。観察されるように、GLM-130Bフレームワークは12の異なるタスク全体で260B ERNIE Titan 3.0フレームワークを常に上回り、抽象的なMRCデータセットではERNIEフレームワークよりも約260%優れたパフォーマンスを発揮します。
結論
この記事では、包括的なLLM研究の推進を目指すバイリンガルのプリトレーニング大規模言語モデルであるGLM-130Bについて説明しました。アーキテクチャ、エンジニアリング、および技術的な取り組みは、AIコミュニティにLLMフレームワークのアーキテクチャ、トレーニングの効率と安定性、プリトレーニングの目的、手頃な干渉に関する洞察を提供することを目指しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles