イェール大学とGoogle DeepMindの研究者は、大規模な言語モデルに対する高度な微調整技術を使用して数学の問題解決の成功を解き明かしました
「イェール大学とGoogle DeepMindの研究者による数学問題解決成功の秘訣:高度な微調整技術の活用」
“`html
最も先進的な大型言語モデル(LLMs)であるGPT-4やPaLM 2でも、数学の問題を解くのは困難です。なぜなら、それには想像力、数理的推論、計算が必要だからです。問題に複数回取り組むことが許可されると、LLMsが正しい答えを見つける可能性はかなり高くなります。したがって、LLMsはすでにこの数学の問題解決の課題を改善する可能性を示しています。例えば、事前学習済みのPaLM 2-Lは、greedy decodingを使用した場合に約33.4%の正確さを達成することができます。しかし、temperature samplingを使用して64の解をサンプリングすると、少なくとも1つの正解(pass@64)が79.4%の確率で得られます(表1)。
表1:教師あり解の微調整の結果。トレーニングデータの2つの異なるソースであるMATHデータセットとPRM800Kデータセットを比較しています。
この大きな性能の差は、LLMsが正確な答えを生成できる一方で、正しい解と誤った解を区別することが困難であることを示しています。したがって、上記の性能差を縮小するために、彼らはタスク固有の微調整技術を調査して、LLMの解決力と評価力を向上させようとしています。
- ワシントン大学とNVIDIAからの研究者が提案するヒューマノイドエージェント:生成エージェントの人間のようなシミュレーションのための人工知能プラットフォーム
- 「Googleとトロント大学の研究者が、ライブコンピュータ環境での自律学習とタスク実行のための画期的なゼロショットエージェントを紹介」
- 「次世代ニューラルネットワーク:NeurIPSでの多くのAIの技術進歩をNVIDIA Researchが発表」
彼らは3つの微調整技術を検討しています:
(1)SSFT、教師あり段階的解の微調整。事前学習済みLLMsが出発点として教師あり微調整ステップを受けることで利益を得られるかどうかを調査します。
LLMsを調整して、完全な解答を提供するようにします。
(2)解クラスタ再順位付け(SCR)。候補解の再順位付けのための解評価器として生成器を改善し、LLMの解評価能力を向上させます。以前の研究では解のサンプル順位付けまたは再順位付けが行われてきましたが、彼らは多数決の利点と再順位付けを組み合わせる新しい手法を提案し、ランキングのコストを削減します。より具体的には、多数決の初期段階で、数学的等価性に基づいて候補解をいくつかのグループに分類します。さらに多数決の結果をさらに向上させるために、最頻クラスタの解に解評価器を適用します。
(3)シーケンシャルマルチタスク微調整。解評価タスクに加えて、LLMの解生成タスクの性能向上にも関心があり、解評価タスクのトレーニング目標がモデルの解生成に役立つかどうかを判断します。
これを実現するために、解評価タスクを自然言語生成問題としてフレーム化し、そのトレーニング目標が解生成モデルに有益な監督信号を提供できるようにします。さらに具体的には、モデルを3つのステージで調整します:(1)生成器として(SSFT)、(2)解評価器として(SCR)、および(3)再び生成器として(SSFT)。
彼らは、難しいMATHデータセット上でPaLM 2-S*とPaLM 2-LのようなPaLM 2の小さな形式と大きな形式を使用して包括的な研究を行い、以下の結論を示しています:
• 微細な、適切なフォーマットの解答によっては、SSFTがより良いパフォーマンスを発揮するため、ステップバイステップの解の品質とスタイルは洗練されたモデルに大きな影響を与えることがあります。
• 最も一般的な解クラスタのみを再順位付けすることで、すべての解を再順位付けするよりも性能が向上し、演算効率も向上します。これが将来の作業におけるより良い標準的な方法であると考えられます。
• 解生成モデルの性能を向上させるために、解生成と評価の両方のタスクでモデルをトレーニングする利点を示し、評価タスクの学習信号が生成モデルにとって有益であるという成功した試みを示しています。教師あり解微調整のみよりも、彼らの提案するマルチタスクシーケンシャル微調整は解生成モデルのパフォーマンスをより効果的に向上させることができます。
“`
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このチューリング賞を受賞した研究者は、伝説的な学術顧問になるまでの軌跡
- マイクロソフトの研究者がTable-GPTを紹介:二次元テーブルの理解とタスクで言語モデルを優れたものに
- このAI研究では、「RAFA」という、証明可能なサンプル効率を持つ独立型LLMエージェントのための原則的な人工知能フレームワークを紹介します
- CMUとUCサンタバーバラの研究者は、心理療法における認知の歪み検出のための革新的なAIベースの「思考の診断」を提案しています
- 「UTオースティンの研究者が、LIBEROを導入:意思決定とロボット工学における知識移転を研究するためのライフロング・ロボット・ラーニング・ベンチマーク」
- ストリートビューが救いの手を差し伸べる:ディープラーニングが安全な建物への道を開拓
- MITの研究者らが、言語モデルの解読において、新たなトレーニングフリーかつゲーム理論に基づくAI手法を紹介