コンピュート最適な大規模言語モデルトレーニングの経験的分析

Empirical Analysis of Optimal Large-scale Language Model Training for Compute

ここ数年、言語モデリングの焦点は、トランスフォーマーベースのモデルのパラメータ数を増やすことでパフォーマンスを向上させることにありました。このアプローチにより、多くの自然言語処理タスクで印象的な結果と最先端のパフォーマンスが得られました。

DeepMindでもこの研究の一環として、最近になってGopherという2800億パラメータのモデルを開発し、言語モデリング、読解力、質問応答などの幅広いタスクで最先端のパフォーマンスを実現しました。その後、さらに大きなモデルであるMegatron-Turing NLGが5300億パラメータで公開されました。

これらの大規模モデルの訓練コストが非常に高いため、リソースの無駄遣いを避けるために最適な訓練セットアップを見積もることが非常に重要です。特に、トランスフォーマーの訓練計算コストは、モデルのサイズと訓練トークンの数の2つの要素によって決まります。

現在の大規模言語モデルの世代では、大規模モデルのパラメータ数を増やし、訓練データのサイズを約3000億トークンに固定するために、計算リソースを増やしています。この研究では、計算リソースの増加に伴うモデルサイズと訓練データ量の最適なトレードオフについて実証的に調査しました。具体的には、「与えられた計算予算に対して最適なモデルサイズと訓練トークン数は何か？」という問いに答えるため、さまざまなサイズとトークン数のモデルを訓練し、このトレードオフを実証的に見積もりました。私たちの主な結論は、現在の大規模言語モデルは計算予算に対して非常に大きすぎるため、訓練データが不足しているということです。実際、私たちはGopherの訓練に使用されたトレーニングFLOPの数に対して、データ量が4倍である4分の1のサイズのモデルの方が好ましいという結果を見つけました。

‍

図1: 当社のアプローチに基づいて、最適な訓練トークン数とパラメータ数の予測を示します。当社の新モデルChinchillaとともに、3つの異なる既存の大規模言語モデルのトレーニングセットアップを示しています。 — **図1:** 当社のアプローチに基づいて、最適な訓練トークン数とパラメータ数の予測を示します。当社の新モデルChinchillaとともに、3つの異なる既存の大規模言語モデルのトレーニングセットアップを示しています。

私たちはChinchillaという70億パラメータのモデルを13兆トークンで訓練することで、データスケーリングの仮説を検証しました。ChinchillaとGopherの訓練計算コストは同じですが、Chinchillaの方がほとんどの測定タスクでGopherや他の大規模言語モデルよりも優れたパフォーマンスを発揮します。

図2: Question Answering (TriviaQA)、CommonSense (HellaSwag、PIQA、Winogrande、BoolQ)、Reading Comprehension (LAMBADA)、および大規模なマルチタスク言語理解（MMLU）一般知識ベンチマークなど、さまざまな一般的なベンチマークで、Gopher、Chinchilla、GPT-3、Megatron-Turing NLGのパフォーマンスを比較します。 — **図2:** Question Answering (TriviaQA)、CommonSense (HellaSwag、PIQA、Winogrande、BoolQ)、Reading Comprehension (LAMBADA)、および大規模なマルチタスク言語理解（MMLU）一般知識ベンチマークなど、さまざまな一般的なベンチマークで、Gopher、Chinchilla、GPT-3、Megatron-Turing NLGのパフォーマンスを比較します。

Chinchillaの公開後、PaLMというモデルが5400億パラメータで7680億トークンを訓練しました。このモデルはChinchillaの計算予算の約5倍で訓練され、さまざまなタスクでChinchillaを上回りました。訓練コーパスは異なりますが、私たちの手法は、私たちのデータで訓練されたこのようなモデルがChinchillaを上回ると予測しています。PaLMの計算予算を考慮すると、3兆トークンで訓練された1400億パラメータのモデルが最適であり、推論においても効率的です。

小さな性能の優れたモデルの追加の利点は、推論時間とメモリのコストが削減され、モデルへのクエリがより高速かつ少ないハードウェアで実行可能になることです。実際、GopherとChinchillaの訓練FLOPは同じですが、Chinchillaの使用コストはかなり低く、さらに優れたパフォーマンスを発揮します。さらに、大きな利益をもたらす可能性のある簡単な最適化も可能です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Technical blog

Was this article helpful?

93 out of 132 found this helpful

コンピュート最適な大規模言語モデルトレーニングの経験的分析

Was this article helpful?

ベースとブラスへの情熱が、より良いツールの構築に役立つとき

GopherCite 検証済みの引用を使用して回答を支援するための言語モデルの教育

機械学習

2023年にフォローすべきAI YouTuberトップ15選

「Jaro-Winklerアルゴリズムを使用して小規模言語モデル（SLM）を構築し、スペルエラーを改善・強化する」

「LLMプロンプティングにおける思考の一端：構造化されたLLM推論の概要」

NVIDIAのCEO、ヨーロッパの生成AIエグゼクティブが成功の鍵を議論

「Data Enthusiasts向けにエキサイティングな新機能を解放するChatGPT Plus」

「ステーブル拡散」は実際にどのように機能するのでしょうか？直感的な説明