このAI論文は、MITが化学研究のために深層学習モデルのスケーリングを探究しています

『MITが化学研究における深層学習モデルのスケーリングを探求したこのAI論文』

MITの研究者は、化学のための生成的事前トレーニングモデル(ChemGPT)とグラフニューラルネットワークフォースフィールド(GNNs)の両方に焦点を当てて、大規模な化学言語モデルのスケーリング挙動を調査しました。彼らは、モデルのパフォーマンスが経験的なスケーリング則によって特徴付けられるニューラルスケーリングの概念を紹介しました。特に、モデルのパラメータの数、データセットのサイズ、または計算リソースに関連する損失のスケーリングについてのべています。この研究では、大規模な化学モデルのスケーリングに関連する課題と機会について探究し、事前トレーニング損失の改善のためのリソースの最適な割り当てについての洞察を提供することを目指しています。

化学言語モデリングにおいて、研究者はSELFIES(分子の自己参照埋め込み文字列)表現のためのトークナイザーを使用した、GPT-Neoに基づいたGPT-3スタイルのモデルであるChemGPTを設計しています。このモデルはPubChemの分子で事前トレーニングされ、研究ではデータセットとモデルのサイズが事前トレーニングの損失に与える影響を調査しています。

言語モデルに加えて、この論文では、分子の幾何学と3次元構造を必要とするタスクのためのグラフニューラルネットワークフォースフィールド(GNNs)についても言及しています。E(3)不変量のみを操作する内部レイヤーを持つモデルから、E(3)が同変量を使用し、物理学に基づいたモデルアーキテクチャを持つモデルまで、4つのタイプのGNNが考慮されています。筆者らは、ニューラルスケーリングの実験中に、これらのGNNの深さと幅という観点での能力を評価しています。

深層化学モデルのハイパーパラメータ最適化(HPO)を効率的に扱うために、この論文では「Training Performance Estimation(TPE)」という技術を紹介しています。これは、コンピュータビジョンアーキテクチャで使用されている手法を適応させたものです。TPEは、トレーニング速度を利用して、異なるドメインやモデル/データセットのサイズでパフォーマンスを推定することを可能にします。この論文では、実験設定、NVIDIA Volta V100 GPU、PyTorch、およびモデルの実装とトレーニングのための分散データパラレルアクセラレーションの使用について詳細に説明されています。

全体として、この研究は大規模な化学言語モデルのコンテキストでのニューラルスケーリングの包括的な探索を提供し、生成的事前トレーニングトランスフォーマーとグラフニューラルネットワークフォースフィールドの両方を考慮に入れ、ハイパーパラメータ最適化の効率的な方法を紹介しています。実験結果と洞察は、科学的なディープラーニングアプリケーションにおける異なるモデルアーキテクチャのリソース効率を理解するために貢献しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

偽預言者:回帰モデルとMeta's Prophetの比較

「クロスバリデーションを使用して、カスタムの時系列回帰モデルとメタの予測ツールトラフォードの比較を行うためのビジュア...

機械学習

「DreamPose」というAIフレームワークを使用して、ファッション画像を見事な写真のようなビデオに変換します

ファッション写真は、ソーシャルメディアやEコマースのウェブサイトなど、オンラインプラットフォームで広く使われています。...

AI研究

「ポーズマッピング技術によって、脳性麻痺の患者を遠隔で評価することができます」

「機械学習の手法は、ほとんどのモバイルデバイスで動作し、医師のオフィス以外の他の運動障害の評価にも拡張することができ...

機械学習

「リアルタイム1080pの新しい視点合成の革命:3Dガウスと可視性認識レンダリングによる突破」

メッシュとポイントは、明示的であり、高速なGPU/CUDAベースのラスタリゼーションに適しているため、最も一般的な3Dシーン表...

AI研究

ワシントン大学とAI2の研究者が、VQAを介してAIが生成した画像の忠実度を測定する自動評価指標であるTIFAを紹介します

テキストから画像を生成するモデルは、人工知能の進歩の最も良い例の一つです。研究者たちの持続的な進歩と努力により、これ...

機械学習

このAI論文では、大規模なマルチモーダルモデルの機能を拡張する汎用のマルチモーダルアシスタントであるLLaVA-Plusを紹介しています

“`html 多様な現実世界の活動を効率的に実行できる汎用アシスタントを作成することは、長年にわたり人工知能の目標とな...