コンピュート最適な大規模言語モデルトレーニングの経験的分析

Empirical Analysis of Optimal Large-scale Language Model Training for Compute

ここ数年、言語モデリングの焦点は、トランスフォーマーベースのモデルのパラメータ数を増やすことでパフォーマンスを向上させることにありました。このアプローチにより、多くの自然言語処理タスクで印象的な結果と最先端のパフォーマンスが得られました。

DeepMindでもこの研究の一環として、最近になってGopherという2800億パラメータのモデルを開発し、言語モデリング、読解力、質問応答などの幅広いタスクで最先端のパフォーマンスを実現しました。その後、さらに大きなモデルであるMegatron-Turing NLGが5300億パラメータで公開されました。

これらの大規模モデルの訓練コストが非常に高いため、リソースの無駄遣いを避けるために最適な訓練セットアップを見積もることが非常に重要です。特に、トランスフォーマーの訓練計算コストは、モデルのサイズと訓練トークンの数の2つの要素によって決まります。

現在の大規模言語モデルの世代では、大規模モデルのパラメータ数を増やし、訓練データのサイズを約3000億トークンに固定するために、計算リソースを増やしています。この研究では、計算リソースの増加に伴うモデルサイズと訓練データ量の最適なトレードオフについて実証的に調査しました。具体的には、「与えられた計算予算に対して最適なモデルサイズと訓練トークン数は何か?」という問いに答えるため、さまざまなサイズとトークン数のモデルを訓練し、このトレードオフを実証的に見積もりました。私たちの主な結論は、現在の大規模言語モデルは計算予算に対して非常に大きすぎるため、訓練データが不足しているということです。実際、私たちはGopherの訓練に使用されたトレーニングFLOPの数に対して、データ量が4倍である4分の1のサイズのモデルの方が好ましいという結果を見つけました。

図1: 当社のアプローチに基づいて、最適な訓練トークン数とパラメータ数の予測を示します。当社の新モデルChinchillaとともに、3つの異なる既存の大規模言語モデルのトレーニングセットアップを示しています。

私たちはChinchillaという70億パラメータのモデルを13兆トークンで訓練することで、データスケーリングの仮説を検証しました。ChinchillaとGopherの訓練計算コストは同じですが、Chinchillaの方がほとんどの測定タスクでGopherや他の大規模言語モデルよりも優れたパフォーマンスを発揮します。

図2: Question Answering (TriviaQA)、CommonSense (HellaSwag、PIQA、Winogrande、BoolQ)、Reading Comprehension (LAMBADA)、および大規模なマルチタスク言語理解(MMLU)一般知識ベンチマークなど、さまざまな一般的なベンチマークで、Gopher、Chinchilla、GPT-3、Megatron-Turing NLGのパフォーマンスを比較します。

Chinchillaの公開後、PaLMというモデルが5400億パラメータで7680億トークンを訓練しました。このモデルはChinchillaの計算予算の約5倍で訓練され、さまざまなタスクでChinchillaを上回りました。訓練コーパスは異なりますが、私たちの手法は、私たちのデータで訓練されたこのようなモデルがChinchillaを上回ると予測しています。PaLMの計算予算を考慮すると、3兆トークンで訓練された1400億パラメータのモデルが最適であり、推論においても効率的です。

小さな性能の優れたモデルの追加の利点は、推論時間とメモリのコストが削減され、モデルへのクエリがより高速かつ少ないハードウェアで実行可能になることです。実際、GopherとChinchillaの訓練FLOPは同じですが、Chinchillaの使用コストはかなり低く、さらに優れたパフォーマンスを発揮します。さらに、大きな利益をもたらす可能性のある簡単な最適化も可能です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

プロジェクトゲームフェイスをご紹介します:ハンズフリーで、AIにより動くゲーミングマウス

新しいオープンソースのハンズフリーゲーミングマウス、プロジェクトゲームフェイスは、ゲームをよりアクセスしやすくする可...

機械学習

「Rodinに会ってください:さまざまな入力ソースから3Dデジタルアバターを生成する革新的な人工知能(AI)フレームワーク」

生成モデルは、コンピュータサイエンスの多くの困難なタスクに対する事実上の解決策となっています。それらは視覚データの分...

機械学習

API管理を使用してAIパワードJavaアプリを管理する

OpenAIのChatGPT APIをSpring Bootアプリケーションに統合し、オープンソースのAPIゲートウェイであるApache APISIXを使用し...

機械学習

AIエージェント:月のジェネレーティブAIトレンド

わずか30分で、実世界の知識を持つLLMを使用して、ノーコードAIエージェントアプリケーションを構築する方法を学びます

人工知能

認知AI:人間のように考えるAIへの道

目的は、関連する予測を行い、自動的な意思決定をすることができるようにすることですつまり、新しい文脈情報をアクションに...

AIニュース

Voicebox メタ社の驚異的な音声生成AIツール

Meta(旧Facebook)は、革新的な音声生成を実現する最新の生成AIモデル「Voicebox」をリリースしました