MITの研究者たちは「MechGPT」を導入しました:メカニクスと材料モデリングにおいてスケール、学問領域、およびモダリティをつなぐ言語ベースのパイオニア

MITの研究者が革新的な「MechGPT」を導入:メカニクスと材料モデリングにおける言語ベースのパイオニアがスケール、学問領域、そしてモダリティをつなぎます

研究者たちは、物質科学の広範な領域において密度の濃い科学的な文書から重要な洞察を効率的に抽出するという困難な課題に直面しています。この複雑な作業には、複雑なコンテンツをナビゲートし、物質の核心を網羅した意味のある質問・回答ペアを生成することが含まれます。その複雑さは、科学的な文書の密なフabricから重要な情報を抽出するという大きな課題にあります。このため、研究者は物質の本質を捉えた意味のある質問・回答ペアを作り出す必要があります。

この領域内の現在の手法では、情報抽出に汎用言語モデルを活用することが一般的です。しかし、これらの手法はテキストの洗練化や方程式を正確に組み込む際に支援が必要です。これに対応するため、MITの研究者チームは、事前学習済み言語モデルに基づく画期的なモデルであるMechGPTを紹介しました。この革新的な手法では、一般的な言語モデルを利用して鋭い質問・回答ペアを形成するための2段階のプロセスを採用しています。MechGPTは単なる抽出以上に、鍵となる事実の明確さを向上させます。

MechGPTの旅は、Hugging Faceエコシステム内のPyTorchで実施される慎重なトレーニングプロセスで始まります。Llama 2 transformerアーキテクチャに基づき、このモデルは40のトランスフォーマーレイヤーを誇り、ロータリー位置埋め込みを活用して拡張されたコンテキストの長さを容易にします。32ビットのページ化されたAdamWオプティマイザーを用いて、トレーニングプロセスは約0.05の優れた損失を達成します。研究者たちは、モデルの能力を向上させるために微調整中にLow-Rank Adaptation (LoRA) を導入しています。これにより、追加のトレーニング可能なレイヤーを統合しながら、元の事前学習済みモデルを凍結させることで、モデルが初期の知識ベースを消去するのを防ぎます。その結果、メモリの効率化とトレーニングのスループットの加速が実現します。

MechGPTの基本モデルに加えて、研究者はより大規模な2つのモデル、MechGPT-70bとMechGPT-70b-XLのトレーニングにも取り組んでいます。前者はMeta/Llama 2 70 chatモデルの微調整バージョンであり、後者は10,000トークンを超える大きなコンテキストのために動的にスケーリングされたRoPEを組み込んでいます。

MechGPT内のサンプリングは、因果関係マスキングを実装した自己回帰原則に従って行われます。これにより、モデルは次の要素を考慮せずに各要素を予測するため、将来の単語を考慮しないように制約されます。この実装では、モデルの焦点を調整するために温度スケーリングが導入され、不確実性の温度の概念が導入されます。

まとめると、MechGPTは物質科学の科学的な文書から知識を抽出するという困難な領域での希望の光として浮かび上がっています。LoRAや4ビットの量子化などの革新的な技術によって豊かになったモデルのトレーニングプロセスは、従来の言語モデルを超えた応用の可能性を示しています。Google Scholarへのアクセスを提供するチャットインタフェースにおけるMechGPTの具体的な具現化は、将来の拡張に向けた橋渡しとなります。この研究は、材料科学における貴重な財産としてMechGPTを紹介し、専門領域内の言語モデルの限界を押し広げる先駆者と位置付けています。研究チームがさらに前進する中、MechGPTは言語モデルのダイナミックな進化の証として、知識抽出の新たなフロンティアを開拓しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「データプライバシーを見る新しい方法」

研究者たちは、機械学習モデルの性能を維持しながら、機密データを保護するプライバシー技術を開発しました

機械学習

MLモデルのDocker化:デプロイメントガイド

この包括的なML愛好家向けガイドは、Dockerを使用してMLモデルのパッケージ化と実行についての旅に連れて行きます

データサイエンス

パンダのプレイブック:7つの必須の包括的なデータ関数

データ分析と機械学習の領域において、Pandasライブラリは強力なツールとして存在しています200以上の関数やメソッドを備えて...

コンピュータサイエンス

「クリエイティブな人々がAIに対して訴訟で反撃しています」

「法的措置によってAI企業は自社のプログラムのトレーニング方法を変更することを強いられるのか?」

AI研究

『広範な展望:NVIDIAの基調講演がAIの更なる進歩の道を指し示す』

ハードウェア性能の劇的な向上により、生成型AIが生まれ、将来の高速化のアイデアの豊富なパイプラインが構築され、機械学習...

AIニュース

「フレームワークによりロボットは連続した順序で対話的なタスクを実行できる」

新しいフレームワークにより、四足歩行ロボットは再学習することなく、ますます複雑なタスクを実行することができます