コンピュート最適な大規模言語モデルトレーニングの経験的分析

Empirical Analysis of Optimal Large-scale Language Model Training for Compute

ここ数年、言語モデリングの焦点は、トランスフォーマーベースのモデルのパラメータ数を増やすことでパフォーマンスを向上させることにありました。このアプローチにより、多くの自然言語処理タスクで印象的な結果と最先端のパフォーマンスが得られました。

DeepMindでもこの研究の一環として、最近になってGopherという2800億パラメータのモデルを開発し、言語モデリング、読解力、質問応答などの幅広いタスクで最先端のパフォーマンスを実現しました。その後、さらに大きなモデルであるMegatron-Turing NLGが5300億パラメータで公開されました。

これらの大規模モデルの訓練コストが非常に高いため、リソースの無駄遣いを避けるために最適な訓練セットアップを見積もることが非常に重要です。特に、トランスフォーマーの訓練計算コストは、モデルのサイズと訓練トークンの数の2つの要素によって決まります。

現在の大規模言語モデルの世代では、大規模モデルのパラメータ数を増やし、訓練データのサイズを約3000億トークンに固定するために、計算リソースを増やしています。この研究では、計算リソースの増加に伴うモデルサイズと訓練データ量の最適なトレードオフについて実証的に調査しました。具体的には、「与えられた計算予算に対して最適なモデルサイズと訓練トークン数は何か?」という問いに答えるため、さまざまなサイズとトークン数のモデルを訓練し、このトレードオフを実証的に見積もりました。私たちの主な結論は、現在の大規模言語モデルは計算予算に対して非常に大きすぎるため、訓練データが不足しているということです。実際、私たちはGopherの訓練に使用されたトレーニングFLOPの数に対して、データ量が4倍である4分の1のサイズのモデルの方が好ましいという結果を見つけました。

図1: 当社のアプローチに基づいて、最適な訓練トークン数とパラメータ数の予測を示します。当社の新モデルChinchillaとともに、3つの異なる既存の大規模言語モデルのトレーニングセットアップを示しています。

私たちはChinchillaという70億パラメータのモデルを13兆トークンで訓練することで、データスケーリングの仮説を検証しました。ChinchillaとGopherの訓練計算コストは同じですが、Chinchillaの方がほとんどの測定タスクでGopherや他の大規模言語モデルよりも優れたパフォーマンスを発揮します。

図2: Question Answering (TriviaQA)、CommonSense (HellaSwag、PIQA、Winogrande、BoolQ)、Reading Comprehension (LAMBADA)、および大規模なマルチタスク言語理解(MMLU)一般知識ベンチマークなど、さまざまな一般的なベンチマークで、Gopher、Chinchilla、GPT-3、Megatron-Turing NLGのパフォーマンスを比較します。

Chinchillaの公開後、PaLMというモデルが5400億パラメータで7680億トークンを訓練しました。このモデルはChinchillaの計算予算の約5倍で訓練され、さまざまなタスクでChinchillaを上回りました。訓練コーパスは異なりますが、私たちの手法は、私たちのデータで訓練されたこのようなモデルがChinchillaを上回ると予測しています。PaLMの計算予算を考慮すると、3兆トークンで訓練された1400億パラメータのモデルが最適であり、推論においても効率的です。

小さな性能の優れたモデルの追加の利点は、推論時間とメモリのコストが削減され、モデルへのクエリがより高速かつ少ないハードウェアで実行可能になることです。実際、GopherとChinchillaの訓練FLOPは同じですが、Chinchillaの使用コストはかなり低く、さらに優れたパフォーマンスを発揮します。さらに、大きな利益をもたらす可能性のある簡単な最適化も可能です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

オラクルは、AIとクラウドを基盤とした未来のビジョンを明らかにしました

ラリー・エリソンは、生成的AIが変革的であり、エンタープライズAIアプリケーションの構築におけるOracle Cloudの独特な利点...

データサイエンス

2023年にフォローすべきAI YouTuberトップ15選

人工知能は現在、さまざまな分野で指数関数的な成長を遂げています。その拡大により、この領域は学び、マスターするための数...

機械学習

大規模な言語モデルにおけるコンテキストに基づく学習アプローチ

言語モデリング(LM)は、単語のシーケンスの生成的な尤度をモデル化することを目指し、将来の(または欠損している)トーク...

AIテクノロジー

「ヌガーで科学文書処理を高める」

イントロダクション 自然言語処理および人工知能の分野では、科学的なPDFなどの非構造化データソースから価値ある情報を抽出...

データサイエンス

なぜディープラーニングは常に配列データ上で行われるのか?新しいAI研究は、データからファンクタまでを一つとして扱う「スペースファンクタ」を紹介しています

暗黙のニューラル表現(INR)またはニューラルフィールドは、3D座標を3D空間の色と密度の値にマッピングすることによって、3D...

機械学習

新たなディープ強化学習(DRL)フレームワークは、シミュレートされた環境で攻撃者に対応し、サイバー攻撃がエスカレートする前に95%をブロックすることができます

サイバーセキュリティの防御者は、技術の発展とシステムの複雑さのレベルが上昇するにつれて、自分たちの技術と戦術を動的に...