このAI論文は、MITが化学研究のために深層学習モデルのスケーリングを探究しています

『MITが化学研究における深層学習モデルのスケーリングを探求したこのAI論文』

MITの研究者は、化学のための生成的事前トレーニングモデル(ChemGPT)とグラフニューラルネットワークフォースフィールド(GNNs)の両方に焦点を当てて、大規模な化学言語モデルのスケーリング挙動を調査しました。彼らは、モデルのパフォーマンスが経験的なスケーリング則によって特徴付けられるニューラルスケーリングの概念を紹介しました。特に、モデルのパラメータの数、データセットのサイズ、または計算リソースに関連する損失のスケーリングについてのべています。この研究では、大規模な化学モデルのスケーリングに関連する課題と機会について探究し、事前トレーニング損失の改善のためのリソースの最適な割り当てについての洞察を提供することを目指しています。

化学言語モデリングにおいて、研究者はSELFIES(分子の自己参照埋め込み文字列)表現のためのトークナイザーを使用した、GPT-Neoに基づいたGPT-3スタイルのモデルであるChemGPTを設計しています。このモデルはPubChemの分子で事前トレーニングされ、研究ではデータセットとモデルのサイズが事前トレーニングの損失に与える影響を調査しています。

言語モデルに加えて、この論文では、分子の幾何学と3次元構造を必要とするタスクのためのグラフニューラルネットワークフォースフィールド(GNNs)についても言及しています。E(3)不変量のみを操作する内部レイヤーを持つモデルから、E(3)が同変量を使用し、物理学に基づいたモデルアーキテクチャを持つモデルまで、4つのタイプのGNNが考慮されています。筆者らは、ニューラルスケーリングの実験中に、これらのGNNの深さと幅という観点での能力を評価しています。

深層化学モデルのハイパーパラメータ最適化(HPO)を効率的に扱うために、この論文では「Training Performance Estimation(TPE)」という技術を紹介しています。これは、コンピュータビジョンアーキテクチャで使用されている手法を適応させたものです。TPEは、トレーニング速度を利用して、異なるドメインやモデル/データセットのサイズでパフォーマンスを推定することを可能にします。この論文では、実験設定、NVIDIA Volta V100 GPU、PyTorch、およびモデルの実装とトレーニングのための分散データパラレルアクセラレーションの使用について詳細に説明されています。

全体として、この研究は大規模な化学言語モデルのコンテキストでのニューラルスケーリングの包括的な探索を提供し、生成的事前トレーニングトランスフォーマーとグラフニューラルネットワークフォースフィールドの両方を考慮に入れ、ハイパーパラメータ最適化の効率的な方法を紹介しています。実験結果と洞察は、科学的なディープラーニングアプリケーションにおける異なるモデルアーキテクチャのリソース効率を理解するために貢献しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「5つのオンラインAI認定プログラム - 研究と登録」

「世界的に認められたAIの認定コースを受講し、AIのスキルを身につけ、複数の人工知能の仕事に応募できる資格を取得しましょ...

機械学習

Luma AIがGenieを発売:テキストから3Dオブジェクトを作成できる新しい3D生成AIモデル

3Dモデリングでは、リアルな3Dオブジェクトの作成はしばしば複雑で時間のかかる作業でした。人々は専門のソフトウェアを使い...

機械学習

効果的にMLソリューションを比較する方法

「機械学習ソリューションを評価および比較する際には、おそらく最初に評価指標として予測力を使用することになるでしょう異...

機械学習

エンタープライズAIとは何ですか?

エンタープライズAIの紹介 時間は重要であり、自動化が答えです。退屈で単調なタスク、人間によるミス、競争の混乱、そして最...

データサイエンス

vLLM:24倍速のLLM推論のためのPagedAttention

この記事では、PagedAttentionとは何か、そしてなぜデコードを大幅に高速化するのかを説明します

機械学習

AutoGPTQをご紹介します:GPTQアルゴリズムに基づく使いやすいLLMs量子化パッケージで、ユーザーフレンドリーなAPIを提供します

Hugging Faceの研究者たちは、大規模な言語モデル(LLM)の訓練と展開における資源集約型の要求に対処するための革新的な解決...