コンピュート最適な大規模言語モデルトレーニングの経験的分析

Empirical Analysis of Optimal Large-scale Language Model Training for Compute

ここ数年、言語モデリングの焦点は、トランスフォーマーベースのモデルのパラメータ数を増やすことでパフォーマンスを向上させることにありました。このアプローチにより、多くの自然言語処理タスクで印象的な結果と最先端のパフォーマンスが得られました。

DeepMindでもこの研究の一環として、最近になってGopherという2800億パラメータのモデルを開発し、言語モデリング、読解力、質問応答などの幅広いタスクで最先端のパフォーマンスを実現しました。その後、さらに大きなモデルであるMegatron-Turing NLGが5300億パラメータで公開されました。

これらの大規模モデルの訓練コストが非常に高いため、リソースの無駄遣いを避けるために最適な訓練セットアップを見積もることが非常に重要です。特に、トランスフォーマーの訓練計算コストは、モデルのサイズと訓練トークンの数の2つの要素によって決まります。

現在の大規模言語モデルの世代では、大規模モデルのパラメータ数を増やし、訓練データのサイズを約3000億トークンに固定するために、計算リソースを増やしています。この研究では、計算リソースの増加に伴うモデルサイズと訓練データ量の最適なトレードオフについて実証的に調査しました。具体的には、「与えられた計算予算に対して最適なモデルサイズと訓練トークン数は何か?」という問いに答えるため、さまざまなサイズとトークン数のモデルを訓練し、このトレードオフを実証的に見積もりました。私たちの主な結論は、現在の大規模言語モデルは計算予算に対して非常に大きすぎるため、訓練データが不足しているということです。実際、私たちはGopherの訓練に使用されたトレーニングFLOPの数に対して、データ量が4倍である4分の1のサイズのモデルの方が好ましいという結果を見つけました。

図1: 当社のアプローチに基づいて、最適な訓練トークン数とパラメータ数の予測を示します。当社の新モデルChinchillaとともに、3つの異なる既存の大規模言語モデルのトレーニングセットアップを示しています。

私たちはChinchillaという70億パラメータのモデルを13兆トークンで訓練することで、データスケーリングの仮説を検証しました。ChinchillaとGopherの訓練計算コストは同じですが、Chinchillaの方がほとんどの測定タスクでGopherや他の大規模言語モデルよりも優れたパフォーマンスを発揮します。

図2: Question Answering (TriviaQA)、CommonSense (HellaSwag、PIQA、Winogrande、BoolQ)、Reading Comprehension (LAMBADA)、および大規模なマルチタスク言語理解(MMLU)一般知識ベンチマークなど、さまざまな一般的なベンチマークで、Gopher、Chinchilla、GPT-3、Megatron-Turing NLGのパフォーマンスを比較します。

Chinchillaの公開後、PaLMというモデルが5400億パラメータで7680億トークンを訓練しました。このモデルはChinchillaの計算予算の約5倍で訓練され、さまざまなタスクでChinchillaを上回りました。訓練コーパスは異なりますが、私たちの手法は、私たちのデータで訓練されたこのようなモデルがChinchillaを上回ると予測しています。PaLMの計算予算を考慮すると、3兆トークンで訓練された1400億パラメータのモデルが最適であり、推論においても効率的です。

小さな性能の優れたモデルの追加の利点は、推論時間とメモリのコストが削減され、モデルへのクエリがより高速かつ少ないハードウェアで実行可能になることです。実際、GopherとChinchillaの訓練FLOPは同じですが、Chinchillaの使用コストはかなり低く、さらに優れたパフォーマンスを発揮します。さらに、大きな利益をもたらす可能性のある簡単な最適化も可能です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「画像のためのモダンなセマンティック検索」

「数年前の「あの一枚の写真」を見つけたいんですね場面に関するいくつかの具体的な情報を覚えているんですが、Apple Photos...

AI研究

スタンフォード研究者がGLOWとIVESを使用して、分子ドッキングとリガンド結合位姿の予測を変革しています

ディープラーニングは、スコアリング関数の改善により、分子ドッキングの向上の可能性を持っています。現在のサンプリングプ...

機械学習

役に立つセンサーがAI in a Boxを立ち上げる

「あなた自身のプライベートで安全なAIボックスを持ってみたいですか?全部のアプリ、不快感はなしでそれがUseful Sensorsが...

AI研究

中国からのニューエーアイ研究は、GLM-130Bを紹介しますこれは、13兆のパラメータを持つバイリンガル(英語と中国語)のプリトレーニング言語モデルです

最近、大規模言語モデル(LLM)のゼロショットおよびフューショットの能力は大幅に向上し、100Bパラメータ以上を持つモデルは...

データサイエンス

「NVIDIAの人工知能がOracle Cloud Marketplaceで利用可能に」

ジェネラティブAIモデルのトレーニングがさらに容易になりました。 NVIDIA DGX Cloud AIスーパーコンピューティングプラット...

機械学習

このAIニュースレターがあれば、あなたは全てが揃った!#70

今週のAIでは、特に2つの新しいエージェントモデルのリリースに興味を持っていましたNvidiaは、複雑なタスクを自律的に実行す...