AIの新たなフロンティアを探る:Google DeepMindのReSTEM自己学習による機械学習の進化に関する研究

AIの新たなフロンティア:Google DeepMindのReSTEM自己学習による機械学習の進化を探る研究

大型の言語モデル(LLMs)は、人間レベルのテキストを生成し、さまざまな言語タスクを実行する驚異的な能力によって、ディープラーニングを変革しています。高品質な人間データを入手することは、興味のあるタスクの性能をさらに向上させるための敷居となっています。特に、多くのリソースと専門知識を必要とする複雑な問題解決の割り当てには負担がかかります。この障害を克服するために、モデル生成の合成データは、その品質が保証される場合にはスケーラブルかつ手頃な解決策として有望です。

この研究では、Google DeepmindとMilaの研究者は、LLMsが作成されたデータを自己評価できる場合でも、外部のスカラーフィードバック信号が各生成サンプルの品質指標として機能するより簡単なシナリオを調査しています。研究チームは、言語モデルのための直感的で効果的なセルフトレーニング技術を提案しています。この手法は、2つのスキルのみを必要とします:1)モデルからサンプルを作成すること、および2)これらのサンプルをスコアリングメカニズムを使用して評価すること。このアプローチにより、モデルが生成したデータによるトレーニングを研究することができます。研究チームは、Reinforced Self-Trainingの呼び方を使い、この技術をReST𝐃𝑀と呼んで一貫性と明確性を実現しています。研究チームは、ReST𝐃𝑀を強化学習のための期待最大化と考えることができる方法を示しています。

具体的には、ReST𝐃𝑀は以下のように期待値と最大値のフェーズを切り替えています:1. 生成(Eステップ):入力コンテキストごとに、言語モデルは複数の出力サンプルを生成します。その後、研究チームはこれらのサンプルを2値報酬を使用してフィルタリングしてトレーニングデータセットを収集します。2. 改善(Mステップ):元の言語モデルは、前の生成フェーズからのトレーニングデータセットを使用して監視および微調整されます。次の生成フェーズでは、調整されたモデルが使用されます。ReST𝐃𝑀およびその派生版は、機械翻訳、意味解析、および好みの整合において、言語モデルの向上に効果的であることが示されています。

ReST𝐃𝑀は、主に非常に小さな言語モデル(最大7Bのパラメータまで)で従来の研究で使用され、より大きなモデルに対しては限定的なスケーラビリティがありました。彼らの研究は、モデルによって作成された合成データと人間提供データのスケーラビリティと効果を比較することにより、これらの取り組みを補完することを意図しています。具体的には、コード生成(APPS)および競技レベルの数学的問題解決(MATH)という2つの難しいが研究されていないドメインで、パLM 2モデルに対してReST𝐃𝑀を適用することで、数学的な推論力とコード生成のスキルが大幅に向上することを示しています。

驚くべきことに、モデルによって作成された人工データで改良されたモデルは、人間が提供したデータでトレーニングされたモデルよりもはるかに優れた性能を発揮します。さらに、ReST𝐃𝑀の数サイクル後に改善が低下し、トレーニングケースの数に過学習の可能性が示唆されています。また、ReST𝐃𝑀を使用して最適化されたモデルは、pass@kおよび多数決の機能を向上させます。最後に、これらの改良されたモデルは、ビッグベンチハードタスク、コーディング(ヒューマン評価)、および算術問題(GSM8KおよびハンガリーHS決勝)を含む類似したが異なるベンチマークでのパフォーマンスも向上しています。最後に、ReST𝐸𝑀の微調整におけるトレーニング問題、反復回数、およびモデル生成ソリューションの量の影響を調査するための削除研究が行われています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more