Llemmaに会ってください:現行基準を超える次世代数学オープン言語モデル

Llemmaとご対面しましょう:次世代の数学オープン言語モデルで現行基準を超える

様々なテキストの混合物を学習した言語モデルは、非常に汎用的な言語理解と生成能力を持ち、幅広い応用に適応可能なベースモデルとして機能します。

この研究では、プリンストン大学、EleutherAI、トロント大学、ベクター研究所、ケンブリッジ大学、カーネギーメロン大学、ワシントン大学の研究者チームが、数学に特化したドメイン固有の言語モデルを開発しました。彼らはこの試みに取り組む動機を複数提示しています。まず、数学の問題を解くためには、特殊な事前知識の大量のコーパス内のパターンを識別する能力が必要であり、これはドメイン適応の理想的な文脈となります。次に、数学的な推論自体が人工知能の分野での中心的な課題であり、現代の研究の対象であるという点です。さらに、堅固な数学的推論が可能な言語モデルの開発は、報酬モデリング、推論における強化学習、アルゴリズミックな推論といった様々な研究領域に広範な影響を与えます。

上記の画像は、ProofPile-2での継続的な事前学習が改善された数学的能力を持つLLEMMAというベースモデルを示しています。著者たちによる貢献は以下の通りです。

  • 彼らはLLEMMAモデルを訓練し、公開しました。これは数学のタスクに特化した7Bおよび34Bのパラメータ言語モデルであり、数学の公開ベースモデルの新たな最先端を示しています。
  • 彼らは数学の文脈と密接に関連している11BトークンのコードからなるデータセットであるAlgebraicStackを紹介しました。
  • 彼らの研究は、Pythonインタプリタや形式的な定理証明器を含む計算ツールを使用して数学の問題を解決する際のLLEMMAモデルの能力を示しています。

これに対して、Lewkowyczら(2022)によるMinervaなどの既存の数学の言語モデルとは異なり、LLEMMAモデルは公にアクセス可能であり、著者は訓練データとコードをオープンソースにしています。この決定は、LLEMMAが数理推論の分野における将来の研究の基盤としての役割を促進しています。

彼らの研究は、LewkowyczらによるMinervaで行われた研究を拡張し、以下のようないくつかの注目すべき違いがあります。

(1)彼らのモデルであるLLEMMAは、訓練および評価の両方でより幅広いデータとタスクを含んでいます。これにはAlgebraicStackなどのコードデータの組み込み、様々なツールの利用、形式的な数学のタスクへの取り組みが含まれます。

(2)著者たちのアプローチは、公に利用可能なツールやデータソースに完全に依存しています。

(3)彼らは訓練データの組成、記憶パターン、および追加の教師あり微調整など、新しい分析を紹介しています。

(4)重要なことに、彼らの研究に関連するすべての成果物は一般に公開されています。

研究者たちは、LLEMMAとProof-Pile-2が将来の調査の堅固な基礎となり、言語モデルの一般化、データセットの組成分析、特定のドメインに特化した言語モデルの拡張、数学者のツールとしての言語モデルの利用、および言語モデルの数学的能力の向上などの研究活動を支援するリソースとなることを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「DeepOntoに会ってください 深層学習を用いたオントロジーエンジニアリングのためのPythonパッケージ」

ディープラーニングの方法論の進歩は、人工知能コミュニティに大きな影響を与えています。優れたイノベーションと開発により...

データサイエンス

人工知能は人間を置き換えるのか?

はじめに 皆さんはご存知のとおり、AIは飛躍的な進歩を遂げ、科学者や一般の人々の想像をとらえています。ニュースやソーシャ...

データサイエンス

「メタは、トレーニングにLLaMAモデルを使用するために著作権のある本を使用し、著者たちは訴訟を起こしています」

Meta Platforms、以前のFacebookとして知られる企業が、コメディアンのサラ・シルバーマンやピュリッツァー賞受賞者のマイケ...

データサイエンス

「Transformerの簡略化:あなたが理解する言葉を使った最先端のNLP — part 3 — アテンション」

「トランスフォーマーは、AIの分野で、おそらく世界中で重大な影響を与えていますこのアーキテクチャはいくつかのコンポーネ...

AI研究

新しい人工知能(AI)の研究アプローチは、統計的な視点からアルゴリズム学習の問題として、プロンプトベースのコンテキスト学習を提示します

インコンテキスト学習は、最近のパラダイムであり、大規模言語モデル(LLM)がテストインスタンスと数少ないトレーニング例を...

データサイエンス

スケールにおける機械学習:モデルとデータの並列化

モデルがますます複雑になり、データセットが巨大になるにつれて、計算ワークロードを効率的に分散する方法の必要性はますま...