数学的な問題解決におけるLLMの潜在能力を開発するための研究

‘LLMの潜在能力を開発する数学的問題解決に関する研究’

人工知能の常に進化する世界で、GPT-4やPaLM 2などの最先端のLLMも、複雑な数学の問題を解決する際には課題に直面しています。Googleとイェール大学の研究者たちによる最新の研究は、LLMがこれらの障壁を乗り越え、算術問題解決能力を大幅に向上させる方法について明らかにすることを目指しています。

この研究は、PaLM 2モデル(PaLM 2-SおよびPaLM 2-L)を使用して行われ、LLMの潜在能力について魅力的な洞察を提供しています。初期の研究では、問題に複数回取り組むことを許容した場合、モデルは正確な答えを発見する確率が高まることが示されています。

たとえば、事前にトレーニングされたPaLM 2-Lは、貪欲な復号化において印象的な33.4%の正確さを達成しています。しかし、この研究では、この性能をさらに向上させることができると強調されています。温度サンプリングを使用して64個の解をサンプリングすると、79.4%の時間で少なくとも1つの正確な答え(pass@64)が得られます。

これらの相違点は、LLMが正確な解を生成する能力に加えて、正しい答えと誤った答えの区別に苦労していることを示しています。この性能の差を埋めるため、研究者は3つの微調整技術を探求しています:

  1. スーパーバイズドステップバイステップソリューション微調整(SSFT):事前にトレーニングされたLLMがスーパーバイズドな微調整ステップの恩恵を受けることができるかどうかを調査し、ソリューション全体と回答を提供するための出発点の技術を提供します。
  2. ソリューションクラスタ再ランキング(SCR):この技術は、候補ソリューションを再ランキングするためのソリューション評価器としてのジェネレータの改良に重点を置いています。研究者たちは、多数決の利点と再ランキングの利点を組み合わせた新しい手法を導入し、数学的同等性に基づいて候補応答を効率的にカテゴリ化しています。
  3. シーケンシャルマルチタスク微調整:ソリューション評価に加えて、研究はLLMのソリューション生成の性能を向上させることにも着手しています。ソリューション評価タスクを自然言語生成問題としてフレーム化し、ソリューション生成モデルに貴重な監督情報として活用することで、モデルを3つの段階で調整します。

PaLM 2-SとPaLM 2-Lに関する研究結果は、いくつかの重要なポイントを強調しています。SSFTの整形された解答への依存性、段階的な解答の品質とスタイルは、改善されたモデルに大きな影響を与えます。

再ランキングされた共通のソリューションクラスタの効率性:最も一般的なソリューションクラスタのみを再ランキングすることで、より良いパフォーマンスと改善された計算効率が得られ、将来の取り組みにおける潜在的な標準的な方法を示しています。

デュアルタスクトレーニングの利点:ソリューション生成と評価の両方のタスクにモデルをトレーニングすると、パフォーマンスが向上します。提案されたマルチタスクシーケンシャル微調整は、単独のスーパーバイズドソリューション微調整よりもソリューション生成モデルの改善により効果的です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more