中国からのニューエーアイ研究は、GLM-130Bを紹介しますこれは、13兆のパラメータを持つバイリンガル(英語と中国語)のプリトレーニング言語モデルです

中国のニューエーアイ研究:GLM-130Bの魅力とは?13兆パラメータを持つバイリンガル(英語&中国語)プリトレーニング言語モデル紹介

最近、大規模言語モデル(LLM)のゼロショットおよびフューショットの能力は大幅に向上し、100Bパラメータ以上を持つモデルは、さまざまなベンチマークで最先端のパフォーマンスを実現しています。このような進展はLLMにとって重要な課題も提起しており、透明性の問題があります。一般の人々にはこれらの大規模モデルとそのトレーニングプロセスに関するごくわずかな知識しか提供されておらず、この情報を公開することは、このスケールの高品質LLMのトレーニングを容易にするでしょう。

清華大学と智匯AIの研究者グループは、130Bパラメータを持つオープンソースのバイリンガル(英語と中国語)のプリトレーニング言語モデルであるGLM-130Bを公開しました。この論文の研究者たちは、100BパラメータのGPT-3に匹敵するモデルをオープンソース化するために、モデルのトレーニングプロセスおよびその最適化方法を示しています。また、研究者たちは、トレーニングプロセスの成功と失敗の両側面を共有しています。

GLM-130Bは、基本として双方向の一般言語モデル(GLM)を使用しています。このアーキテクチャは、GPTスタイルのモデルと比較してコンテキストの理解を向上させるために、自己回帰的なブランク埋め込みをトレーニング目的としています。GLM-130Bは、LAMBADAのゼロショットで80.2%の正答率を達成することで、GPT-3とPaLM 540Bの両方を上回るパフォーマンスを発揮することができます。

本論文の著者たちは、GLM-130Bのトレーニングプロセスを安定化させるために、さまざまなレイヤーノーマライゼーション(LN)テクニックを試しました。プレLN、ポストLN、サンドイッチLNなどの既存の手法は効果がありませんでしたが、DeepNormで初期化されたポストLNは有望な結果を示しました。モデルのプレトレーニングデータは、オンラインフォーラム、百科辞典などから抽出された2TB以上の英語と中国語のテキストコーパスからなるバランスの取れたデータセットです。

先ほど述べたように、GLM-130BはLAMBADAデータセットで記録的な精度を達成しています。言語モデリングの一連のベンチマークであるPileテストセットでは、GLMモデルのパフォーマンスはGPT-3とJurassic-1と同等でした。また、モデルはMMLUベンチマークでも優れたパフォーマンスを発揮し、そのフューショットのパフォーマンスはGPT-3と同等です。

さらに、BIG-benchベンチマークでは、GLM-130Bがゼロショット設定でGPT-3とPaLMを上回ることができました。モデルは重要なパフォーマンスを示しましたが、研究者たちは、フューショットサンプルに対する成長がGPT-3ほど大きくないことに気付きました。モデルの双方向性や、パラムと品質の面でPaLMと同等のデータセットの制約など、複数の理由があると仮説を立てています。

研究者たちはまた、モデルのゼロショットパフォーマンスを中国のベンチマークでテストしました。GLM-130BはERNIE Titan 3.0を超える10以上のタスクでのパフォーマンスだけでなく、要約MRCの2つのデータセットでも少なくとも260%以上の改善を実現しました。これは、GLMのプレトレーニング目標が、要約MRCに類似した自己回帰的なブランク埋め込みを含んでいるためかもしれません。

まとめると、GLM-130Bは強力なオープンソースのバイリンガルプリトレーニング言語モデルであり、さまざまなベンチマークでGPT-3およびPaLMと同等のパフォーマンスを発揮し、一部のタスクではそれを上回る性能を持っています。そのパフォーマンスに加えて、このモデルの特徴はその開発の透明性です。研究者たちは、モデルのトレーニングプロセスを公にし、成功と失敗の経験も共有しています。このアプローチは、LLMの分野でのオープンかつ包括的な研究への取り組みを反映しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Amazon SageMakerでのMLOpsによる堅牢な時系列予測」

データ駆動の意思決定の世界では、時系列予測は企業が過去のデータのパターンを利用して将来の結果を予測するための重要な要...

AI研究

光を基にした機械学習システムは、より強力で効率的な大規模言語モデルを生み出す可能性がある

MITのシステムは、現行のシステムと比較して、エネルギー効率が100倍以上向上し、計算密度が25倍向上していることを示しています

機械学習

TinyLlamaと出会ってください:3兆トークンで1.1Bのラマモデルを事前学習することを目指した小さなAIモデル

言語モデルの研究の絶え間ない進化の中で、効率性と拡張性を追求する試みが、画期的なプロジェクトであるTinyLlamaによって導...

機械学習

「完璧なコンビ:adidasとCovision MediaがAIとNVIDIA RTXを使用して写真のようなリアルな3Dコンテンツを作成」

物理製品の3Dスキャンを作成するのは時間がかかる場合があります。多くの企業は、フォトグラメトリーベースのアプリやスキャ...

AI研究

AIにおける事実性の向上 このAI研究は、より正確かつ反映性のある言語モデルを実現するためのセルフ-RAGを紹介します

セルフリフレクティブリトリーバルオーキュメンテッドジエネレーション(SELF-RAG)は、関連情報を動的に取得し、生成物に反...