MAmmoTHとは、一般的な数学問題解決に特化したオープンソースの大規模言語モデル(LLM)シリーズです

MAmmoTHは、数学問題解決に特化したオープンソースの大規模言語モデル(LLM)シリーズです

現代の大規模言語モデル(LLM)は、数学的な推論に大きく依存しており、それがこの研究の主な焦点です。最近の進歩にもかかわらず、クローズドソースのモデル(GPT-4、PaLM-2、Claude 2など)は、GSM8KやMATHなどの人気のある数学的な推論のベンチマークを支配しており、オープンソースのモデル(Llama、Falcon、OPTなど)は遠く及ばない状況があります。

このギャップを埋めるためには、2つの主要なアプローチがあります:

  • GalacticaやMINERVAなどの継続的な事前学習:この方法では、数学に関連するウェブデータの100Bトークン以上を用いてLLMをトレーニングしています。計算コストが高いですが、この方法によりモデルの科学的推論能力が一般的に向上します。
  • RFT(rejection sampling fine-tuning)やWizardMathなどのデータセットごとに特化したファインチューニング手法:これらの手法は、それぞれのドメイン内では効果的ですが、推論が必要な数学の他の領域には適用できません。

ウォータールー大学、オハイオ州立大学、HKUST、エディンバラ大学、IN.AIの最近の研究は、軽量かつ汎用性のある数学の指導調整技術を採用し、LLMの数学的推論能力を向上させる方法を模索しています(ファインチューニングタスクだけでなく一般的に)。 

現在のアプローチは、Chain-of-Thought(CoT)の方法論に大いに依存しており、数学の問題を自然言語のステップで解決する方法を説明しています。しかし、この方法は計算精度や難しい数学的・アルゴリズム的推論手法には対応しきれません。PoTやPALのようなコードベースの手法では、数学問題の解決手順を効率化するためにサードパーティのリソースを使用します。

この方法では、計算量の多いタスク(例:sympyを使用した二次方程式の解法やnumpyを使用した行列の固有値の計算など)を別のPythonインタプリタに委任することが推奨されます。一方、PoTはより抽象的な推論シナリオ(常識的な推論、形式論理、抽象代数など)を扱う際にはいくつかの制限があります、特に事前存在しないAPIの場合には。

CoTとPoTの両方の利点を活かすために、研究チームは数学のための新しいハイブリッドな指導調整データセット「MathInstruct」を提案しています。その主な特徴は次のとおりです:

  1. さまざまな数学的領域と複雑度レベルの包括的なカバレッジ
  2. ハイブリッドなCoT&PoTの根拠

6つの新たに選択されたデータセットと7つの既存のデータセットがMathInstructの数学的な正当化の基盤を提供しています。モデリングの観点から、研究者たちは入出力形式とデータソースの変動の影響を調べるために、約50のユニークなモデルをトレーニングおよび評価しています。

結果として得られたモデルは数学的な一般化能力において非常に優れています。

研究者たちは、MAmmoTHをGSM8K、MATH、AQuA-RAT、NumGLUEなどの様々なデータセットに対してテストしました。これらのモデルは、オープンソースのLLMの数学的な推論の効率を大幅に向上させ、最新のアプローチよりもOOD(ドメイン外)データセットに対してより一般化された性能を示します。人気のあるコンペティションレベルのMATHデータセットでの7Bモデルの結果は、WizardMath(オープンソースのMATHの最先端技術)よりも3.5倍(35.2%対10.7%)優れており、34BのMAmmoTH-Coder(Code Llamaで調整)の結果はCoTを使用したGPT-4よりも優れています。MAmmoTHとMAmmoTH-Coderの両方のモデルは、以前のオープンソースモデルよりも大幅に精度が向上しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ファッションにおけるGenAI | Segmind Stable Diffusion XL 1.0アプローチ

イントロダクション ファッション業界も例外ではなく、消費者の変化する好みに合わせて革新の最前線に留まる方法を模索してき...

AIテクノロジー

ChatGPTが1歳になりました:バイラルなモバイルアプリと数百万ドルの収益!

2023年は盛りだくさんの一年でした。ChatGPTが1年を迎え、我々の日常生活における人工知能の境界を再定義してきました。ChatG...

機械学習

アリババは、2つのオープンソースの大規模ビジョン言語モデル(LVLM)、「Qwen-VL」と「Qwen-VL-Chat」を発表しました

人工知能の絶え間なく進化する領域において、画像理解とテキストインタラクションのギャップを埋めることは常に課題となって...

人工知能

「今日の市場においてAIパワードモバイルアプリが際立っているのは何か?」

AIはモバイルアプリを革命し、個人の経験を提供します最新技術を駆使したアプリ開発の利点、成功、そして将来を探求してください

機械学習

「プロンプトエンジニアリングによるAIの潜在能力の解放」

迅速なエンジニアリングは、簡潔でコンテキスト豊かなクエリの作成スキルであり、AIが最も関連性の高い正確な応答を生成する...

機械学習

(Samsung no AI to chippu gijutsu no mirai e no senken no myōyaku)

サムスンエレクトロニクスは、韓国ソウルにあるサムスンの研究開発キャンパスで開催されたサムスンAIフォーラム2023で主役と...