Llemmaに会ってください:現行基準を超える次世代数学オープン言語モデル

Llemmaとご対面しましょう:次世代の数学オープン言語モデルで現行基準を超える

様々なテキストの混合物を学習した言語モデルは、非常に汎用的な言語理解と生成能力を持ち、幅広い応用に適応可能なベースモデルとして機能します。

この研究では、プリンストン大学、EleutherAI、トロント大学、ベクター研究所、ケンブリッジ大学、カーネギーメロン大学、ワシントン大学の研究者チームが、数学に特化したドメイン固有の言語モデルを開発しました。彼らはこの試みに取り組む動機を複数提示しています。まず、数学の問題を解くためには、特殊な事前知識の大量のコーパス内のパターンを識別する能力が必要であり、これはドメイン適応の理想的な文脈となります。次に、数学的な推論自体が人工知能の分野での中心的な課題であり、現代の研究の対象であるという点です。さらに、堅固な数学的推論が可能な言語モデルの開発は、報酬モデリング、推論における強化学習、アルゴリズミックな推論といった様々な研究領域に広範な影響を与えます。

上記の画像は、ProofPile-2での継続的な事前学習が改善された数学的能力を持つLLEMMAというベースモデルを示しています。著者たちによる貢献は以下の通りです。

  • 彼らはLLEMMAモデルを訓練し、公開しました。これは数学のタスクに特化した7Bおよび34Bのパラメータ言語モデルであり、数学の公開ベースモデルの新たな最先端を示しています。
  • 彼らは数学の文脈と密接に関連している11BトークンのコードからなるデータセットであるAlgebraicStackを紹介しました。
  • 彼らの研究は、Pythonインタプリタや形式的な定理証明器を含む計算ツールを使用して数学の問題を解決する際のLLEMMAモデルの能力を示しています。

これに対して、Lewkowyczら(2022)によるMinervaなどの既存の数学の言語モデルとは異なり、LLEMMAモデルは公にアクセス可能であり、著者は訓練データとコードをオープンソースにしています。この決定は、LLEMMAが数理推論の分野における将来の研究の基盤としての役割を促進しています。

彼らの研究は、LewkowyczらによるMinervaで行われた研究を拡張し、以下のようないくつかの注目すべき違いがあります。

(1)彼らのモデルであるLLEMMAは、訓練および評価の両方でより幅広いデータとタスクを含んでいます。これにはAlgebraicStackなどのコードデータの組み込み、様々なツールの利用、形式的な数学のタスクへの取り組みが含まれます。

(2)著者たちのアプローチは、公に利用可能なツールやデータソースに完全に依存しています。

(3)彼らは訓練データの組成、記憶パターン、および追加の教師あり微調整など、新しい分析を紹介しています。

(4)重要なことに、彼らの研究に関連するすべての成果物は一般に公開されています。

研究者たちは、LLEMMAとProof-Pile-2が将来の調査の堅固な基礎となり、言語モデルの一般化、データセットの組成分析、特定のドメインに特化した言語モデルの拡張、数学者のツールとしての言語モデルの利用、および言語モデルの数学的能力の向上などの研究活動を支援するリソースとなることを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

I/O 2023 で発表した100のこと

Google I/O 2023はニュースとローンチで満ち溢れていましたここではI/Oで発表された100のことを紹介します

AIニュース

IBMとMETAが責任あるイノベーションのためのAI連携を結成

責任あるAIイノベーションへの重要な一歩として、IBMとMetaは共同でAIアライアンスを立ち上げました。この連携により、世界中...

AIニュース

気候変動との戦いをリードする6人の女性

「私たちは気候科学の先駆者であるユニス・ニュートン・フートと、より持続可能な未来を築く6人の女性主導のGoogle.orgの助成...

AI研究

「サリー大学の研究者が開発した新しいソフトウェアは、AIが実際にどれだけの情報を知っているかを検証することができます」

ここ数年、人工知能(AI)のドメインでいくつかの技術的なブレークスルーがあり、いくつかの産業やセクターに深い影響を与え...

データサイエンス

「LLMテクノロジーの理解」

「LLMテクノロジーの進歩を発見しましょうLLMテクノロジーの世界を探求し、AIとNLPの分野における重要な役割を見つけましょう」

人工知能

会話の魔法を解き放つ:ChatGPTをReact.jsとNode.jsと統合する

この包括的なガイドでは、ChatGPTのフロントエンドにはReact.js、バックエンドにはNode.jsを組み合わせた強力なデュオの統合...