MITの研究者たちは「MechGPT」を導入しました:メカニクスと材料モデリングにおいてスケール、学問領域、およびモダリティをつなぐ言語ベースのパイオニア

MITの研究者が革新的な「MechGPT」を導入:メカニクスと材料モデリングにおける言語ベースのパイオニアがスケール、学問領域、そしてモダリティをつなぎます

研究者たちは、物質科学の広範な領域において密度の濃い科学的な文書から重要な洞察を効率的に抽出するという困難な課題に直面しています。この複雑な作業には、複雑なコンテンツをナビゲートし、物質の核心を網羅した意味のある質問・回答ペアを生成することが含まれます。その複雑さは、科学的な文書の密なフabricから重要な情報を抽出するという大きな課題にあります。このため、研究者は物質の本質を捉えた意味のある質問・回答ペアを作り出す必要があります。

この領域内の現在の手法では、情報抽出に汎用言語モデルを活用することが一般的です。しかし、これらの手法はテキストの洗練化や方程式を正確に組み込む際に支援が必要です。これに対応するため、MITの研究者チームは、事前学習済み言語モデルに基づく画期的なモデルであるMechGPTを紹介しました。この革新的な手法では、一般的な言語モデルを利用して鋭い質問・回答ペアを形成するための2段階のプロセスを採用しています。MechGPTは単なる抽出以上に、鍵となる事実の明確さを向上させます。

MechGPTの旅は、Hugging Faceエコシステム内のPyTorchで実施される慎重なトレーニングプロセスで始まります。Llama 2 transformerアーキテクチャに基づき、このモデルは40のトランスフォーマーレイヤーを誇り、ロータリー位置埋め込みを活用して拡張されたコンテキストの長さを容易にします。32ビットのページ化されたAdamWオプティマイザーを用いて、トレーニングプロセスは約0.05の優れた損失を達成します。研究者たちは、モデルの能力を向上させるために微調整中にLow-Rank Adaptation (LoRA) を導入しています。これにより、追加のトレーニング可能なレイヤーを統合しながら、元の事前学習済みモデルを凍結させることで、モデルが初期の知識ベースを消去するのを防ぎます。その結果、メモリの効率化とトレーニングのスループットの加速が実現します。

MechGPTの基本モデルに加えて、研究者はより大規模な2つのモデル、MechGPT-70bとMechGPT-70b-XLのトレーニングにも取り組んでいます。前者はMeta/Llama 2 70 chatモデルの微調整バージョンであり、後者は10,000トークンを超える大きなコンテキストのために動的にスケーリングされたRoPEを組み込んでいます。

MechGPT内のサンプリングは、因果関係マスキングを実装した自己回帰原則に従って行われます。これにより、モデルは次の要素を考慮せずに各要素を予測するため、将来の単語を考慮しないように制約されます。この実装では、モデルの焦点を調整するために温度スケーリングが導入され、不確実性の温度の概念が導入されます。

まとめると、MechGPTは物質科学の科学的な文書から知識を抽出するという困難な領域での希望の光として浮かび上がっています。LoRAや4ビットの量子化などの革新的な技術によって豊かになったモデルのトレーニングプロセスは、従来の言語モデルを超えた応用の可能性を示しています。Google Scholarへのアクセスを提供するチャットインタフェースにおけるMechGPTの具体的な具現化は、将来の拡張に向けた橋渡しとなります。この研究は、材料科学における貴重な財産としてMechGPTを紹介し、専門領域内の言語モデルの限界を押し広げる先駆者と位置付けています。研究チームがさらに前進する中、MechGPTは言語モデルのダイナミックな進化の証として、知識抽出の新たなフロンティアを開拓しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

Googleの研究者が新たな大規模言語モデルの能力向上に向けた『Universal Self-Consistency (USC)』を披露

複数の候補者から最も一貫性のある回答を選び出し、特に数理推論やコード生成などのタスクのパフォーマンスを向上させる問題...

AIニュース

AWS CDKを介してAmazon SageMakerロールマネージャーを使用して、カスタム権限を数分で定義します

機械学習(ML)の管理者は、MLワークロードのセキュリティと完全性を維持する上で重要な役割を果たしています彼らの主な焦点...

AIニュース

オープンAIのイリヤ・サツキバーは、超知能AIを抑制するための計画を持っています

スーパーアライメントチームは、OpenAIのチーフサイエンティストであるイリヤ・サツケヴェルに率いられ、AIモデルの振る舞い...

データサイエンス

オムニヴォアに会ってください:産業デザイナーがアートとOpenUSDを組み合わせて、AIトレーニング用の3Dアセットを作成します

編集者注:この投稿は、NVIDIA OmniverseとOpenUSDを使用して3Dワークフローを加速し、仮想世界を作成する個々のクリエイター...

機械学習

vLLMについて HuggingFace Transformersの推論とサービングを加速化するオープンソースLLM推論ライブラリで、最大24倍高速化します

大規模言語モデル、略してLLMは、人工知能(AI)の分野において画期的な進歩として登場しました。GPT-3などのこのようなモデル...

機械学習

印象的なパフォーマンス:TensorRT-LLMを使用したRTXで最大4倍高速化された大規模言語モデル(LLM) for Windows

Generative AIは、個人コンピューティングの歴史で最も重要なトレンドの一つであり、ゲーミング、創造性、ビデオ、生産性、開...