MITの研究者たちは「MechGPT」を導入しました:メカニクスと材料モデリングにおいてスケール、学問領域、およびモダリティをつなぐ言語ベースのパイオニア

MITの研究者が革新的な「MechGPT」を導入:メカニクスと材料モデリングにおける言語ベースのパイオニアがスケール、学問領域、そしてモダリティをつなぎます

研究者たちは、物質科学の広範な領域において密度の濃い科学的な文書から重要な洞察を効率的に抽出するという困難な課題に直面しています。この複雑な作業には、複雑なコンテンツをナビゲートし、物質の核心を網羅した意味のある質問・回答ペアを生成することが含まれます。その複雑さは、科学的な文書の密なフabricから重要な情報を抽出するという大きな課題にあります。このため、研究者は物質の本質を捉えた意味のある質問・回答ペアを作り出す必要があります。

この領域内の現在の手法では、情報抽出に汎用言語モデルを活用することが一般的です。しかし、これらの手法はテキストの洗練化や方程式を正確に組み込む際に支援が必要です。これに対応するため、MITの研究者チームは、事前学習済み言語モデルに基づく画期的なモデルであるMechGPTを紹介しました。この革新的な手法では、一般的な言語モデルを利用して鋭い質問・回答ペアを形成するための2段階のプロセスを採用しています。MechGPTは単なる抽出以上に、鍵となる事実の明確さを向上させます。

MechGPTの旅は、Hugging Faceエコシステム内のPyTorchで実施される慎重なトレーニングプロセスで始まります。Llama 2 transformerアーキテクチャに基づき、このモデルは40のトランスフォーマーレイヤーを誇り、ロータリー位置埋め込みを活用して拡張されたコンテキストの長さを容易にします。32ビットのページ化されたAdamWオプティマイザーを用いて、トレーニングプロセスは約0.05の優れた損失を達成します。研究者たちは、モデルの能力を向上させるために微調整中にLow-Rank Adaptation (LoRA) を導入しています。これにより、追加のトレーニング可能なレイヤーを統合しながら、元の事前学習済みモデルを凍結させることで、モデルが初期の知識ベースを消去するのを防ぎます。その結果、メモリの効率化とトレーニングのスループットの加速が実現します。

MechGPTの基本モデルに加えて、研究者はより大規模な2つのモデル、MechGPT-70bとMechGPT-70b-XLのトレーニングにも取り組んでいます。前者はMeta/Llama 2 70 chatモデルの微調整バージョンであり、後者は10,000トークンを超える大きなコンテキストのために動的にスケーリングされたRoPEを組み込んでいます。

MechGPT内のサンプリングは、因果関係マスキングを実装した自己回帰原則に従って行われます。これにより、モデルは次の要素を考慮せずに各要素を予測するため、将来の単語を考慮しないように制約されます。この実装では、モデルの焦点を調整するために温度スケーリングが導入され、不確実性の温度の概念が導入されます。

まとめると、MechGPTは物質科学の科学的な文書から知識を抽出するという困難な領域での希望の光として浮かび上がっています。LoRAや4ビットの量子化などの革新的な技術によって豊かになったモデルのトレーニングプロセスは、従来の言語モデルを超えた応用の可能性を示しています。Google Scholarへのアクセスを提供するチャットインタフェースにおけるMechGPTの具体的な具現化は、将来の拡張に向けた橋渡しとなります。この研究は、材料科学における貴重な財産としてMechGPTを紹介し、専門領域内の言語モデルの限界を押し広げる先駆者と位置付けています。研究チームがさらに前進する中、MechGPTは言語モデルのダイナミックな進化の証として、知識抽出の新たなフロンティアを開拓しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

PEFTの概要:最先端のパラメータ効率の良い微調整の概要

「LoRAなどのパラメーター効率の高いファインチューニングテクニックを学んで、限られた計算リソースを使って大規模な言語モ...

機械学習

ニューラルネットワークにおける活性化関数の種類

ニューラルネットワークの活性化関数は、ディープラーニングの重要な部分であり、トレーニングモデルの精度と効率を決定しま...

データサイエンス

深さ優先探索(DFS)アルゴリズム:グラフ探索の深淵を探求

この記事では、深さ優先探索アルゴリズムの内部構造に迫り、その仕組み、応用、およびバリエーションについて探求します

機械学習

再生医療テキスト生成が臨床NLPタスクを革命化することができるのか? クリニカルナレッジ抽出とコンテキストに基づいたLLMプロンプトを組み込んだAIモデル「ClinGen」に会いましょう

医療データの抽出、分析、解釈は、クリニカル ナチュラル ランゲージ プロセッシング(NLP)と呼ばれる新興の学問領域に含ま...

AIニュース

「これらのツールは、AIから私たちの写真を保護するのに役立つかもしれません」

ただし、これらのツールは完璧ではなく、それ自体では十分ではありません