中国からのニューエーアイ研究は、GLM-130Bを紹介しますこれは、13兆のパラメータを持つバイリンガル(英語と中国語)のプリトレーニング言語モデルです
中国のニューエーアイ研究:GLM-130Bの魅力とは?13兆パラメータを持つバイリンガル(英語&中国語)プリトレーニング言語モデル紹介
最近、大規模言語モデル(LLM)のゼロショットおよびフューショットの能力は大幅に向上し、100Bパラメータ以上を持つモデルは、さまざまなベンチマークで最先端のパフォーマンスを実現しています。このような進展はLLMにとって重要な課題も提起しており、透明性の問題があります。一般の人々にはこれらの大規模モデルとそのトレーニングプロセスに関するごくわずかな知識しか提供されておらず、この情報を公開することは、このスケールの高品質LLMのトレーニングを容易にするでしょう。
清華大学と智匯AIの研究者グループは、130Bパラメータを持つオープンソースのバイリンガル(英語と中国語)のプリトレーニング言語モデルであるGLM-130Bを公開しました。この論文の研究者たちは、100BパラメータのGPT-3に匹敵するモデルをオープンソース化するために、モデルのトレーニングプロセスおよびその最適化方法を示しています。また、研究者たちは、トレーニングプロセスの成功と失敗の両側面を共有しています。
GLM-130Bは、基本として双方向の一般言語モデル(GLM)を使用しています。このアーキテクチャは、GPTスタイルのモデルと比較してコンテキストの理解を向上させるために、自己回帰的なブランク埋め込みをトレーニング目的としています。GLM-130Bは、LAMBADAのゼロショットで80.2%の正答率を達成することで、GPT-3とPaLM 540Bの両方を上回るパフォーマンスを発揮することができます。
本論文の著者たちは、GLM-130Bのトレーニングプロセスを安定化させるために、さまざまなレイヤーノーマライゼーション(LN)テクニックを試しました。プレLN、ポストLN、サンドイッチLNなどの既存の手法は効果がありませんでしたが、DeepNormで初期化されたポストLNは有望な結果を示しました。モデルのプレトレーニングデータは、オンラインフォーラム、百科辞典などから抽出された2TB以上の英語と中国語のテキストコーパスからなるバランスの取れたデータセットです。
- UCバークレーとスタンフォード大学の研究者が、複数の教師からの報酬を学習するための人工知能フレームワークである「Hidden Utility Bandit(HUB)」を紹介しました
- スタンフォードの研究者たちは、「EquivAct」というロボット学習における画期的な提案を行いましたこの提案は、異なる規模や方向でのタスクを一般化するためのものです
- UC San Diegoの研究者がTD-MPC2を発表:多様な領域でのモデルベースの強化学習の革命化
先ほど述べたように、GLM-130BはLAMBADAデータセットで記録的な精度を達成しています。言語モデリングの一連のベンチマークであるPileテストセットでは、GLMモデルのパフォーマンスはGPT-3とJurassic-1と同等でした。また、モデルはMMLUベンチマークでも優れたパフォーマンスを発揮し、そのフューショットのパフォーマンスはGPT-3と同等です。
さらに、BIG-benchベンチマークでは、GLM-130Bがゼロショット設定でGPT-3とPaLMを上回ることができました。モデルは重要なパフォーマンスを示しましたが、研究者たちは、フューショットサンプルに対する成長がGPT-3ほど大きくないことに気付きました。モデルの双方向性や、パラムと品質の面でPaLMと同等のデータセットの制約など、複数の理由があると仮説を立てています。
研究者たちはまた、モデルのゼロショットパフォーマンスを中国のベンチマークでテストしました。GLM-130BはERNIE Titan 3.0を超える10以上のタスクでのパフォーマンスだけでなく、要約MRCの2つのデータセットでも少なくとも260%以上の改善を実現しました。これは、GLMのプレトレーニング目標が、要約MRCに類似した自己回帰的なブランク埋め込みを含んでいるためかもしれません。
まとめると、GLM-130Bは強力なオープンソースのバイリンガルプリトレーニング言語モデルであり、さまざまなベンチマークでGPT-3およびPaLMと同等のパフォーマンスを発揮し、一部のタスクではそれを上回る性能を持っています。そのパフォーマンスに加えて、このモデルの特徴はその開発の透明性です。研究者たちは、モデルのトレーニングプロセスを公にし、成功と失敗の経験も共有しています。このアプローチは、LLMの分野でのオープンかつ包括的な研究への取り組みを反映しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このAI研究では、「DreamCraft3D」という、結束力のある高精細な3Dモデルを生成するための階層的な手法を紹介しています
- 中国の研究者たちは、RetriKTと呼ばれる新しい圧縮パラダイムを導入しました:大規模な事前学習済み言語モデルの実世界アプリケーションへの展開を革命化するものです
- 中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」
- このOpenAIの研究では、DALL-E 3を紹介していますこのモデルは、より高度なプロンプトの追従機能を備えたテキストから画像への変換を革新しています
- 「Appleの研究者たちは、動的なポーズのRGB画像からの密集3D再構築において、画期的な人工知能アプローチを紹介する」
- ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介
- メタとUNC-Chapel Hillの研究者は、「Branch-Solve-Merge」という革新的なプログラムを導入しました:複雑な言語課題における大規模言語モデルの性能を向上させるプログラム