このAI論文は、MITが化学研究のために深層学習モデルのスケーリングを探究しています

『MITが化学研究における深層学習モデルのスケーリングを探求したこのAI論文』

MITの研究者は、化学のための生成的事前トレーニングモデル(ChemGPT)とグラフニューラルネットワークフォースフィールド(GNNs)の両方に焦点を当てて、大規模な化学言語モデルのスケーリング挙動を調査しました。彼らは、モデルのパフォーマンスが経験的なスケーリング則によって特徴付けられるニューラルスケーリングの概念を紹介しました。特に、モデルのパラメータの数、データセットのサイズ、または計算リソースに関連する損失のスケーリングについてのべています。この研究では、大規模な化学モデルのスケーリングに関連する課題と機会について探究し、事前トレーニング損失の改善のためのリソースの最適な割り当てについての洞察を提供することを目指しています。

化学言語モデリングにおいて、研究者はSELFIES(分子の自己参照埋め込み文字列)表現のためのトークナイザーを使用した、GPT-Neoに基づいたGPT-3スタイルのモデルであるChemGPTを設計しています。このモデルはPubChemの分子で事前トレーニングされ、研究ではデータセットとモデルのサイズが事前トレーニングの損失に与える影響を調査しています。

言語モデルに加えて、この論文では、分子の幾何学と3次元構造を必要とするタスクのためのグラフニューラルネットワークフォースフィールド(GNNs)についても言及しています。E(3)不変量のみを操作する内部レイヤーを持つモデルから、E(3)が同変量を使用し、物理学に基づいたモデルアーキテクチャを持つモデルまで、4つのタイプのGNNが考慮されています。筆者らは、ニューラルスケーリングの実験中に、これらのGNNの深さと幅という観点での能力を評価しています。

深層化学モデルのハイパーパラメータ最適化(HPO)を効率的に扱うために、この論文では「Training Performance Estimation(TPE)」という技術を紹介しています。これは、コンピュータビジョンアーキテクチャで使用されている手法を適応させたものです。TPEは、トレーニング速度を利用して、異なるドメインやモデル/データセットのサイズでパフォーマンスを推定することを可能にします。この論文では、実験設定、NVIDIA Volta V100 GPU、PyTorch、およびモデルの実装とトレーニングのための分散データパラレルアクセラレーションの使用について詳細に説明されています。

全体として、この研究は大規模な化学言語モデルのコンテキストでのニューラルスケーリングの包括的な探索を提供し、生成的事前トレーニングトランスフォーマーとグラフニューラルネットワークフォースフィールドの両方を考慮に入れ、ハイパーパラメータ最適化の効率的な方法を紹介しています。実験結果と洞察は、科学的なディープラーニングアプリケーションにおける異なるモデルアーキテクチャのリソース効率を理解するために貢献しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

スマートインフラストラクチャのリスク評価における人間とAI・MLの協力

「人間の専門知識、AIの洞察、およびMLアルゴリズムをシナジー効果を発揮させることで、より安全で適応性のある都市システム...

機械学習

コア42とCerebrasは、Jais 30Bのリリースにより、アラビア語の大規模言語モデルの新たな基準を設定しました

CerebrasとCore42は、G42の企業であり、クラウドおよび生成AIのためのUAEベースの国家規模の活性化促進者である。彼らは、彼...

AI研究

ヴァンダービルト大学とUCデービスからの研究者は、学習および再構築フェーズの両方でメモリ効率の良いPRANCというディープラーニングフレームワークを紹介しました

ヴァンダービルト大学とカリフォルニア大学デービス校の研究者は、PRANCと呼ばれる枠組みを導入しました。この枠組みは、重み...

AIニュース

15 AIによる音声編集ツール

音響エンジニアや音楽プロデューサーは、メロディやハーモニーの生成、音質の向上など、創造プロセスのさまざまな領域を強化...

AIニュース

良いニュース!中国とアメリカがAIの危険性について話し合っています

世界の2つの超大国の科学者たちは、AIのリスクについて懸念しており、これはグローバルな規制を開発するための橋渡しを提供す...

AI研究

マイクロソフトとコロンビア大学の研究者が提案する「LLM-AUGMENTER」は、ブラックボックスLLMに一連のプラグアンドプレイモジュールを追加するAIシステムです

大規模言語モデル(LLM)の例としてGPT-3は、広範な世界知識を持つため、一貫性のある情報豊かな自然言語テキストを生成する...