オートフォーマリゼーションは、非公式と公式の言語のギャップを埋めることができるのでしょうか?MMAと出会ってください:フィールドを革新している多言語および多ドメインのデータセット

オートフォーマリゼーション:非公式と公式の言語ギャップを埋められるか?MMAとの出会い:革新的な多言語・多ドメインのデータセットを探索

コンピュータが自動的にチェック可能な形式で記述された数学的内容は、標準的な数学として言及されます。数学者は、HOL Light、Isabelle、Coq、およびLeanなどの証明ツールを組み込んだ形式言語を使用します。自然言語の情報を検証可能な形式化に変換することは、オート形式化として知られています。最適なオート形式化エンジンを使用すると、現在の数学的な結論の検証がより低コストで行われる可能性があります。これにより、自然言語で書かれた数学の大量の情報を利用できる形式言語に依存する自動定理証明などの自動推論研究領域にアクセスできます。非形式的な数学を形式的に証明可能な素材に自動的に変換するという野心は、標準的な数学自体と同じくらい古いものです。

自然言語と対象言語の両方で同じ意味を伝えるシーケンスのペアで構成される大きな並列データセットは、通常、NMT技術に必要です。形式言語と自然言語の両方でパラレルなデータセットを構築することは、機械学習手法で大量のデータを必要とするため、困難な側面です。また、自然言語のコンポーネントが数学の書き方に近いことが求められます。これは、非形式的な数学の知識を形式的な言語に手作業で変換するために高価で高度なコンピュータサイエンスと数学の専門家が必要だからです。

この研究の著者は、最新の大規模言語モデルであるGPT-4を使用して、IsabelleのArchive of Formal ProofsとLean4のmathlib4という2つの最大の形式コーパスを自然言語に変換することで、パラレルデータセットの不足に対応しました。非形式化は形式化よりもはるかに簡単であるという2つの重要な洞察と、強力な大規模言語モデルによってさまざまな自然言語の出力が得られることが、このプロセスを促進しました。ケンブリッジ大学とエディンバラ大学の研究者は同時に、MMAデータセットと呼ばれる332Kの非形式-形式データセットを作成しました。彼らによると、これは最初の複数の形式言語を含むパラレルデータセットです。最大の利用可能なデータセットよりも4倍のデータ点を持っています。

彼らは、MMAに最適化されたオープンソースで非常に効果的な大規模言語モデルであるLLaMA-33Bを使用して、非形式のフレーズに対応する形式的なフレーズを提供しました。それから、miniF2FとProofNetという2つのオート形式化のベンチマークを使用して訓練済みモデルを評価しました。モデルが微調整された後、各ベンチマークから50の出力の手動レビューによると、修正の必要がないか最小限の修正の必要があるベンチマーク上の16 ‐ 18%の形式文が生成されました。生のモデルの場合は0%でした。さらに、彼らはMMAのLean4およびIsabelleコンポーネントに対して同じステップ数で2つの類似モデルを独立に調整しました。これらの自動形式化のパフォーマンスは、異なる形式言語を含むパラレルデータでのオート形式化トレーニングの重要性を示しています。

研究貢献:

• mathlib4およびArchive of Formal Proofsのすべての形式的な主張を非形式化して、非形式-形式のペアを含むMMAコレクションを作成しました。

•零ショット設定で複数の言語に自動形式化できる最初の言語モデルを訓練し、2つの自動形式化のベンチマークで手動評価しました。これは、最大の既存のデータセットよりも4倍大きな複数の形式言語を含む自動形式化データセットです。

• MMAで訓練された言語モデルが頑健な自動形式化機能を持ち、MMAの単一言語のパーティションで訓練された言語モデルよりも同じ計算予算で自動形式化で優れていることを確認しました。

•最適化されたモデルを推論で使用できるようにしました。さらに、他のドメインや言語での自動形式化モデルの訓練と豊かな化にMMAデータセットを利用できるようにしました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more