UCLAとCMUの研究者が、優れた中程度範囲の天気予報のためのスキルと信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク「ストーマー」を紹介しました
「ストーマー」 優れた中程度範囲の天気予報のための信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク、UCLAとCMUの研究者が紹介
現在、科学と社会が直面している主な問題の一つは天気予報です。正確な天気予報は、自然災害や極端な天候事象に対処し、回復するために人々が計画するのに重要な役割を果たしており、気候変動への懸念が高まる中で環境をよりよく理解するために研究者を支援しています。数値天気予報(NWP)モデルは、大気科学者の業務の中核です。これらのモデルは、熱力学と流体力学を説明する微分方程式のシステムを使用し、時間を経て結合されることで将来の予測を作成します。NWPモデルは、放射や雲物理学などの重要な小スケールの物理現象のパラメータ化の誤りなど、いくつかの欠点がありますが、広く使用されています。
大規模な微分方程式の統合の困難さから、数値的なアプローチは特に空間および時間の解像度を高くする場合には計算コストが非常に高くなります。さらに、これらのモデルは気候科学者の知識に依存して方程式、パラメータ化、アルゴリズムを改善するため、NWPの予測精度は追加データによっては改善されません。NWPモデルの問題に対処するため、ますます多くの人々がデータ駆動型、深層学習ベースの天気予測手法に関心を示しています。歴史的データ(ERA5再解析データセットなど)を使用して、深層ニューラルネットワークは将来の天気予測を訓練するために使用されます。これがこの手法の主たる前提です。従来のNWPモデルが数時間かかるのに対し、訓練後は数秒で予測することができます。
この分野の初期の取り組みでは、気象データと自然の画像は似たような空間構造を持つため、ResNetやUNetなどの従来のビジョンアーキテクチャを天気予測に使用しようとしました。しかし、それらのパフォーマンスは数値モデルに劣っていました。しかし、改善されたモデル設計、トレーニングレシピ、データとパワーの増加により、最近では注目すべき進展がありました。最初に実用IFCを上回ったモデルは、0.25°データ(721×1440グリッド)でトレーニングされた3D地球特有のトランスフォーマーモデルであるPangu-Weatherでした。すぐに、Keislerのグラフニューラルネットワーク設計がGraphCastによって0.25°データにスケールアップされ、Pangu-Weatherを上回る結果を示しました。
- Google DeepMindの研究者は、言語モデル(LM)のコード駆動型推論を改善するためのシンプルで驚くほど効果的な拡張機能である「Chain of Code(CoC)」を提案しました
- Google Researchがジェネレーティブな無限語彙トランスフォーマー(GIVT)を発表 – AIにおける先駆的な実数値ベクトルシークエンス
- マウス用のVRゴーグルは、脳研究のために没入感のあるシナリオを作り出します
予測精度は優れているものの、現在の手法では複雑で高度にカスタマイズされたニューラルネットワークのトポロジーがしばしば使用され、抜け穴実験がほとんど行われないため、その効果の正確な要素を特定するのは困難です。たとえば、GraphCastにおける多重メッシュメッセージパッシングが効率にどの程度貢献しているのか、3D地球特有のトランスフォーマーが通常のトランスフォーマーと比べてどのような利点を持っているのかは分かりません。この分野では、これらの現行手法をより良く理解し、できれば簡素化するために統合フレームワークが必要です。また、気候や天候の予測を超える気象基礎モデルを作成することも容易になります。この研究では、適切なトレーニングの公式と組み合わせることで、簡単な設計が先端技術を上回る性能を発揮することを示しています。
UCLA、CMU、Argonne National Laboratory、およびPenn State Universityの研究者は、Stormerと呼ばれる、従来のトランスフォーマーのバックボーンにほとんどの変更を加える必要のないシンプルなトランスフォーマーモデルを提案しています。研究チームは、従来のビジョントランスフォーマー(ViT)アーキテクチャをベースにして、モデルのパフォーマンスに影響を与える3つの要素を詳細に調査しました:モデルは次の3つの要素から構成されます:(1)大気変数間の相互作用をモデル化し、入力データをトークンのシーケンスに変換する天気固有の埋め込み層、(2)モデルをランダムな間隔で天気の動態を予測するようにトレーニングするランダムなダイナミクス予測目標、(3)ロス関数において異なる圧力レベルの変数を重み付けして各圧力レベルの密度を近似する圧力加重ロス。提案されたランダムなダイナミクス予測目標は、モデルがトレーニングされた間隔のさまざまな組み合わせを使用することによって、推論中に特定のリードタイムに対して多くの予測を生成するため、1つのモデルが複数の予測を可能にします。
たとえば、6時間の予測を12回配布するか、12時間の予測を6回配布することで、3日間の予測を得ることができます。これらの予測を組み合わせることにより、特に長期のリードタイムにおいて、大きな性能向上が得られます。研究チームは、データ駆動型の天気予測のための人気のあるベンチマークであるWeatherBench 2を使用して、Stormerという提案手法を評価しました。テスト結果は、Stormerが7日後に先端の予測システムを上回り、1日から7日間の重要な大気変数の予測精度で競争力のある結果を達成していることを示しています。特に、Stormerはほぼ5倍低解像度データおよび数桁少ないGPU時間で訓練されることにより、ベースラインよりも性能が向上しています。さらに、スケーリングの研究により、モデルの容量とデータサイズを増やすとStormerの性能が継続的に向上する可能性があることが証明されました。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- スタンフォードの研究者が「予測音楽トランスフォーマー」を紹介:音楽作曲における創造的な制御を向上させる画期的なAIツール
- メタAI研究者が生産準備完了の強化学習AIエージェントライブラリ「Pearl」をオープンソース化
- 「オーディオジェネレーションのための新しいメタAIの基礎研究モデル、オーディオボックスに会ってください」
- ジョンズ・ホプキンス大学とUCサンタクルーズ校の研究者が、画像ベースのAI学習の画期的な進歩であるD-iGPTを発表しました
- スタンフォード大学とFAIR Metaの研究者が、CHOIS(言語によってガイドされたリアルな3D人間対物体の相互作用を合成するための画期的なAI方法)を発表しました
- CMUとプリンストンの研究者がマンバを発表:多様なモードのディープラーニングアプリケーションにおいてトランスフォーマーの効率を超えるSSMアーキテクチャの画期的な進展
- テンセントの研究者が「FaceStudio」を発表:アイデンティティ保持を重視したテキストから画像生成の革新的な人工知能アプローチ