中国からのニューエーアイ研究は、GLM-130Bを紹介しますこれは、13兆のパラメータを持つバイリンガル(英語と中国語)のプリトレーニング言語モデルです

中国のニューエーアイ研究:GLM-130Bの魅力とは?13兆パラメータを持つバイリンガル(英語&中国語)プリトレーニング言語モデル紹介

最近、大規模言語モデル(LLM)のゼロショットおよびフューショットの能力は大幅に向上し、100Bパラメータ以上を持つモデルは、さまざまなベンチマークで最先端のパフォーマンスを実現しています。このような進展はLLMにとって重要な課題も提起しており、透明性の問題があります。一般の人々にはこれらの大規模モデルとそのトレーニングプロセスに関するごくわずかな知識しか提供されておらず、この情報を公開することは、このスケールの高品質LLMのトレーニングを容易にするでしょう。

清華大学と智匯AIの研究者グループは、130Bパラメータを持つオープンソースのバイリンガル(英語と中国語)のプリトレーニング言語モデルであるGLM-130Bを公開しました。この論文の研究者たちは、100BパラメータのGPT-3に匹敵するモデルをオープンソース化するために、モデルのトレーニングプロセスおよびその最適化方法を示しています。また、研究者たちは、トレーニングプロセスの成功と失敗の両側面を共有しています。

GLM-130Bは、基本として双方向の一般言語モデル(GLM)を使用しています。このアーキテクチャは、GPTスタイルのモデルと比較してコンテキストの理解を向上させるために、自己回帰的なブランク埋め込みをトレーニング目的としています。GLM-130Bは、LAMBADAのゼロショットで80.2%の正答率を達成することで、GPT-3とPaLM 540Bの両方を上回るパフォーマンスを発揮することができます。

本論文の著者たちは、GLM-130Bのトレーニングプロセスを安定化させるために、さまざまなレイヤーノーマライゼーション(LN)テクニックを試しました。プレLN、ポストLN、サンドイッチLNなどの既存の手法は効果がありませんでしたが、DeepNormで初期化されたポストLNは有望な結果を示しました。モデルのプレトレーニングデータは、オンラインフォーラム、百科辞典などから抽出された2TB以上の英語と中国語のテキストコーパスからなるバランスの取れたデータセットです。

先ほど述べたように、GLM-130BはLAMBADAデータセットで記録的な精度を達成しています。言語モデリングの一連のベンチマークであるPileテストセットでは、GLMモデルのパフォーマンスはGPT-3とJurassic-1と同等でした。また、モデルはMMLUベンチマークでも優れたパフォーマンスを発揮し、そのフューショットのパフォーマンスはGPT-3と同等です。

さらに、BIG-benchベンチマークでは、GLM-130Bがゼロショット設定でGPT-3とPaLMを上回ることができました。モデルは重要なパフォーマンスを示しましたが、研究者たちは、フューショットサンプルに対する成長がGPT-3ほど大きくないことに気付きました。モデルの双方向性や、パラムと品質の面でPaLMと同等のデータセットの制約など、複数の理由があると仮説を立てています。

研究者たちはまた、モデルのゼロショットパフォーマンスを中国のベンチマークでテストしました。GLM-130BはERNIE Titan 3.0を超える10以上のタスクでのパフォーマンスだけでなく、要約MRCの2つのデータセットでも少なくとも260%以上の改善を実現しました。これは、GLMのプレトレーニング目標が、要約MRCに類似した自己回帰的なブランク埋め込みを含んでいるためかもしれません。

まとめると、GLM-130Bは強力なオープンソースのバイリンガルプリトレーニング言語モデルであり、さまざまなベンチマークでGPT-3およびPaLMと同等のパフォーマンスを発揮し、一部のタスクではそれを上回る性能を持っています。そのパフォーマンスに加えて、このモデルの特徴はその開発の透明性です。研究者たちは、モデルのトレーニングプロセスを公にし、成功と失敗の経験も共有しています。このアプローチは、LLMの分野でのオープンかつ包括的な研究への取り組みを反映しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「Quivrに会ってください:第2の脳のように構造化されていない情報を保存し、取得するためのオープンソースプロジェクト」

過去数年間、OpenAIのドメインは持続的な成長を遂げてきました。多くの大学の研究者がオープンソースのプロジェクトを構築し...

AI研究

「研究者たちは、Facebook広告にさらなる潜在的な差別を見つける」という記事です

メタのFacebookでの求人広告の研究により、特定の人種や人々の一部を過度に強調したり除外したりする可能性のある差別的な雇...

AI研究

「CMUとマックス・プランク研究所の研究者が、画期的なAI手法「WHAM」を発表:ビデオからの正確かつ効率的な3D人間動作推定」

3Dヒューマンモーション再構築は、三次元で人間の動きを正確にキャプチャしてモデル化する複雑なプロセスです。カメラが動い...

機械学習

見逃せない7つの機械学習アルゴリズム

機械学習アルゴリズムのリストは、データサイエンティストとしての旅を始めるのに最適な出発点です最も一般的なモデルを特定...

データサイエンス

なぜデータは新たな石油ではなく、データマーケットプレイスは私たちに失敗したのか

「データは新しい石油」というフレーズは、2006年にクライブ・ハンビーによって作られ、それ以来広く反復されてきましたしか...

AIニュース

「ShutterstockがエシカルAIと顧客保護のためのガイドフレームワーク『TRUST』を導入」

高速なメディアストック市場では、高度なシステムが画像やメディアを自動的に作成することが可能であり、著作権、表現、情報...