このAI論文は、MITが化学研究のために深層学習モデルのスケーリングを探究しています

『MITが化学研究における深層学習モデルのスケーリングを探求したこのAI論文』

MITの研究者は、化学のための生成的事前トレーニングモデル(ChemGPT)とグラフニューラルネットワークフォースフィールド(GNNs)の両方に焦点を当てて、大規模な化学言語モデルのスケーリング挙動を調査しました。彼らは、モデルのパフォーマンスが経験的なスケーリング則によって特徴付けられるニューラルスケーリングの概念を紹介しました。特に、モデルのパラメータの数、データセットのサイズ、または計算リソースに関連する損失のスケーリングについてのべています。この研究では、大規模な化学モデルのスケーリングに関連する課題と機会について探究し、事前トレーニング損失の改善のためのリソースの最適な割り当てについての洞察を提供することを目指しています。

化学言語モデリングにおいて、研究者はSELFIES(分子の自己参照埋め込み文字列)表現のためのトークナイザーを使用した、GPT-Neoに基づいたGPT-3スタイルのモデルであるChemGPTを設計しています。このモデルはPubChemの分子で事前トレーニングされ、研究ではデータセットとモデルのサイズが事前トレーニングの損失に与える影響を調査しています。

言語モデルに加えて、この論文では、分子の幾何学と3次元構造を必要とするタスクのためのグラフニューラルネットワークフォースフィールド(GNNs)についても言及しています。E(3)不変量のみを操作する内部レイヤーを持つモデルから、E(3)が同変量を使用し、物理学に基づいたモデルアーキテクチャを持つモデルまで、4つのタイプのGNNが考慮されています。筆者らは、ニューラルスケーリングの実験中に、これらのGNNの深さと幅という観点での能力を評価しています。

深層化学モデルのハイパーパラメータ最適化(HPO)を効率的に扱うために、この論文では「Training Performance Estimation(TPE)」という技術を紹介しています。これは、コンピュータビジョンアーキテクチャで使用されている手法を適応させたものです。TPEは、トレーニング速度を利用して、異なるドメインやモデル/データセットのサイズでパフォーマンスを推定することを可能にします。この論文では、実験設定、NVIDIA Volta V100 GPU、PyTorch、およびモデルの実装とトレーニングのための分散データパラレルアクセラレーションの使用について詳細に説明されています。

全体として、この研究は大規模な化学言語モデルのコンテキストでのニューラルスケーリングの包括的な探索を提供し、生成的事前トレーニングトランスフォーマーとグラフニューラルネットワークフォースフィールドの両方を考慮に入れ、ハイパーパラメータ最適化の効率的な方法を紹介しています。実験結果と洞察は、科学的なディープラーニングアプリケーションにおける異なるモデルアーキテクチャのリソース効率を理解するために貢献しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「夢を先に見て、後で学ぶ:DECKARDは強化学習(RL)エージェントのトレーニングにLLMsを使用するAIアプローチです」

強化学習(RL)は、環境との相互作用によって複雑なタスクを実行することを学ぶことができる自律エージェントの訓練手法です...

AI研究

中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」

大規模言語モデル(LLM)の新しい知識の取り扱い能力を評価することは困難です。北京大学の研究者たちは、既存のエンティティ...

機械学習

「機械学習を学ぶにはどれくらいの時間がかかりますか?」

はじめに 急速に成長している機械学習の分野は、多くの向上心ある人々の関心を引いています。しかし、機械学習を学ぶのにかか...

データサイエンス

AWS上で請求書処理を自動化するためのサーバーレスアプリケーションの構築

Goプログラミング言語を使用して、Amazon TextractとAWS Lambdaの使い方を学び、請求書画像を処理し、メタデータを抽出する方...