MITの研究者たちは「MechGPT」を導入しました:メカニクスと材料モデリングにおいてスケール、学問領域、およびモダリティをつなぐ言語ベースのパイオニア
MITの研究者が革新的な「MechGPT」を導入:メカニクスと材料モデリングにおける言語ベースのパイオニアがスケール、学問領域、そしてモダリティをつなぎます
研究者たちは、物質科学の広範な領域において密度の濃い科学的な文書から重要な洞察を効率的に抽出するという困難な課題に直面しています。この複雑な作業には、複雑なコンテンツをナビゲートし、物質の核心を網羅した意味のある質問・回答ペアを生成することが含まれます。その複雑さは、科学的な文書の密なフabricから重要な情報を抽出するという大きな課題にあります。このため、研究者は物質の本質を捉えた意味のある質問・回答ペアを作り出す必要があります。
この領域内の現在の手法では、情報抽出に汎用言語モデルを活用することが一般的です。しかし、これらの手法はテキストの洗練化や方程式を正確に組み込む際に支援が必要です。これに対応するため、MITの研究者チームは、事前学習済み言語モデルに基づく画期的なモデルであるMechGPTを紹介しました。この革新的な手法では、一般的な言語モデルを利用して鋭い質問・回答ペアを形成するための2段階のプロセスを採用しています。MechGPTは単なる抽出以上に、鍵となる事実の明確さを向上させます。
MechGPTの旅は、Hugging Faceエコシステム内のPyTorchで実施される慎重なトレーニングプロセスで始まります。Llama 2 transformerアーキテクチャに基づき、このモデルは40のトランスフォーマーレイヤーを誇り、ロータリー位置埋め込みを活用して拡張されたコンテキストの長さを容易にします。32ビットのページ化されたAdamWオプティマイザーを用いて、トレーニングプロセスは約0.05の優れた損失を達成します。研究者たちは、モデルの能力を向上させるために微調整中にLow-Rank Adaptation (LoRA) を導入しています。これにより、追加のトレーニング可能なレイヤーを統合しながら、元の事前学習済みモデルを凍結させることで、モデルが初期の知識ベースを消去するのを防ぎます。その結果、メモリの効率化とトレーニングのスループットの加速が実現します。
- 『NVIDIAの研究者たちが、現行のCTCモデルと互換性のあるGPU加速の重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを導入』
- 朝鮮大学研究者が、ブリーチされたサンゴの正確な位置情報を特定するための機械学習フレームワークを紹介します特徴ベースのハイブリッドビジュアル分類によるものです
- UCバークレーの研究者は、目的指向の対話エージェントのゼロショット獲得を実現する人工知能アルゴリズムを提案しています
MechGPTの基本モデルに加えて、研究者はより大規模な2つのモデル、MechGPT-70bとMechGPT-70b-XLのトレーニングにも取り組んでいます。前者はMeta/Llama 2 70 chatモデルの微調整バージョンであり、後者は10,000トークンを超える大きなコンテキストのために動的にスケーリングされたRoPEを組み込んでいます。
MechGPT内のサンプリングは、因果関係マスキングを実装した自己回帰原則に従って行われます。これにより、モデルは次の要素を考慮せずに各要素を予測するため、将来の単語を考慮しないように制約されます。この実装では、モデルの焦点を調整するために温度スケーリングが導入され、不確実性の温度の概念が導入されます。
まとめると、MechGPTは物質科学の科学的な文書から知識を抽出するという困難な領域での希望の光として浮かび上がっています。LoRAや4ビットの量子化などの革新的な技術によって豊かになったモデルのトレーニングプロセスは、従来の言語モデルを超えた応用の可能性を示しています。Google Scholarへのアクセスを提供するチャットインタフェースにおけるMechGPTの具体的な具現化は、将来の拡張に向けた橋渡しとなります。この研究は、材料科学における貴重な財産としてMechGPTを紹介し、専門領域内の言語モデルの限界を押し広げる先駆者と位置付けています。研究チームがさらに前進する中、MechGPTは言語モデルのダイナミックな進化の証として、知識抽出の新たなフロンティアを開拓しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ヴァンダービルト大学とUCデービスからの研究者は、学習および再構築フェーズの両方でメモリ効率の良いPRANCというディープラーニングフレームワークを紹介しました
- ワシントン大学とデューク大学の研究者たちは、Punicaを紹介しました:共有GPUクラスタで複数のLoRAモデルを提供するための人工知能システム
- 中国のSJTUの研究者たちは、大規模なLiDARオドメトリ用のウィンドウベースのマスキングされたポイントトランスフォーマーフレームワーク、TransLOを紹介しました
- オープンAIのCEOであるサム・アルトマン氏が解任されました
- アマゾンの研究者が提案するKD-Boost:リアルタイムセマンティックマッチングのための新しい知識蒸留アルゴリズム
- 「中国AI研究チームが導入した4K4D ハードウェアラスタライゼーションをサポートし、前例のない描画速度を実現する4Dポイントクラウド表現」
- このAI論文は、MITが化学研究のために深層学習モデルのスケーリングを探究しています