イェール大学とGoogle DeepMindの研究者は、大規模な言語モデルに対する高度な微調整技術を使用して数学の問題解決の成功を解き明かしました

「イェール大学とGoogle DeepMindの研究者による数学問題解決成功の秘訣:高度な微調整技術の活用」

“`html

最も先進的な大型言語モデル(LLMs)であるGPT-4やPaLM 2でも、数学の問題を解くのは困難です。なぜなら、それには想像力、数理的推論、計算が必要だからです。問題に複数回取り組むことが許可されると、LLMsが正しい答えを見つける可能性はかなり高くなります。したがって、LLMsはすでにこの数学の問題解決の課題を改善する可能性を示しています。例えば、事前学習済みのPaLM 2-Lは、greedy decodingを使用した場合に約33.4%の正確さを達成することができます。しかし、temperature samplingを使用して64の解をサンプリングすると、少なくとも1つの正解(pass@64)が79.4%の確率で得られます(表1)。

表1:教師あり解の微調整の結果。トレーニングデータの2つの異なるソースであるMATHデータセットとPRM800Kデータセットを比較しています。

この大きな性能の差は、LLMsが正確な答えを生成できる一方で、正しい解と誤った解を区別することが困難であることを示しています。したがって、上記の性能差を縮小するために、彼らはタスク固有の微調整技術を調査して、LLMの解決力と評価力を向上させようとしています。

彼らは3つの微調整技術を検討しています:

(1)SSFT、教師あり段階的解の微調整。事前学習済みLLMsが出発点として教師あり微調整ステップを受けることで利益を得られるかどうかを調査します。

LLMsを調整して、完全な解答を提供するようにします。

(2)解クラスタ再順位付け(SCR)。候補解の再順位付けのための解評価器として生成器を改善し、LLMの解評価能力を向上させます。以前の研究では解のサンプル順位付けまたは再順位付けが行われてきましたが、彼らは多数決の利点と再順位付けを組み合わせる新しい手法を提案し、ランキングのコストを削減します。より具体的には、多数決の初期段階で、数学的等価性に基づいて候補解をいくつかのグループに分類します。さらに多数決の結果をさらに向上させるために、最頻クラスタの解に解評価器を適用します。

(3)シーケンシャルマルチタスク微調整。解評価タスクに加えて、LLMの解生成タスクの性能向上にも関心があり、解評価タスクのトレーニング目標がモデルの解生成に役立つかどうかを判断します。

これを実現するために、解評価タスクを自然言語生成問題としてフレーム化し、そのトレーニング目標が解生成モデルに有益な監督信号を提供できるようにします。さらに具体的には、モデルを3つのステージで調整します:(1)生成器として(SSFT)、(2)解評価器として(SCR)、および(3)再び生成器として(SSFT)。

彼らは、難しいMATHデータセット上でPaLM 2-S*とPaLM 2-LのようなPaLM 2の小さな形式と大きな形式を使用して包括的な研究を行い、以下の結論を示しています:

• 微細な、適切なフォーマットの解答によっては、SSFTがより良いパフォーマンスを発揮するため、ステップバイステップの解の品質とスタイルは洗練されたモデルに大きな影響を与えることがあります。

• 最も一般的な解クラスタのみを再順位付けすることで、すべての解を再順位付けするよりも性能が向上し、演算効率も向上します。これが将来の作業におけるより良い標準的な方法であると考えられます。

• 解生成モデルの性能を向上させるために、解生成と評価の両方のタスクでモデルをトレーニングする利点を示し、評価タスクの学習信号が生成モデルにとって有益であるという成功した試みを示しています。教師あり解微調整のみよりも、彼らの提案するマルチタスクシーケンシャル微調整は解生成モデルのパフォーマンスをより効果的に向上させることができます。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

焼け落ちた炎:スタートアップが生成AI、コンピュータビジョンを融合して山火事と戦う

カリフォルニアの大規模な山火事によって空がオレンジ色に変わったとき、あるスタートアップはコンピュータビジョンと生成AI...

機械学習

「小規模言語モデルにおける意図の調整の解除:Zephyr-7Bの突破を目指した、蒸留された教師あり微調整とAIフィードバックの包括的ガイド」

ZEPHYR-7Bは、AIフィードバック(AIF)データを使用した蒸留直接好み最適化(dDPO)を通じてユーザーの意図整合性に最適化さ...

AI研究

新しいディープラーニングの研究で、抗マラリア薬が骨粗しょう症の可能な治療薬として特定されました

骨粗鬆症は、骨の過剰な喪失と骨折のリスクが高まる状態を特徴とする疾患で、長年にわたり高齢者に悩み続けてきました。健康...

AIニュース

「生成AIにおける高度なエンコーダとデコーダの力」

はじめに 人工知能のダイナミックな領域では、技術と創造性の融合が人間の想像力の限界を押し上げる革新的なツールを生み出し...

データサイエンス

シンガポール国立大学の研究者が提案するMind-Video:脳のfMRIデータを使用してビデオイメージを再現する新しいAIツール

人間の認知を理解することは、特に非侵襲的な技術である機能的磁気共鳴画像法(fMRI)を用いた場合、脳プロセスから人間の視...

データサイエンス

「MLを学ぶ勇気:L1とL2の正則化の解明(パート1)」

「機械学習への挑戦へようこそ」へようこそ、ここではL1とL2の正則化について探求を始めますこのシリーズは、複雑な機械学習...