UCLAとCMUの研究者が、優れた中程度範囲の天気予報のためのスキルと信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク「ストーマー」を紹介しました

「ストーマー」 優れた中程度範囲の天気予報のための信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク、UCLAとCMUの研究者が紹介

現在、科学と社会が直面している主な問題の一つは天気予報です。正確な天気予報は、自然災害や極端な天候事象に対処し、回復するために人々が計画するのに重要な役割を果たしており、気候変動への懸念が高まる中で環境をよりよく理解するために研究者を支援しています。数値天気予報(NWP)モデルは、大気科学者の業務の中核です。これらのモデルは、熱力学と流体力学を説明する微分方程式のシステムを使用し、時間を経て結合されることで将来の予測を作成します。NWPモデルは、放射や雲物理学などの重要な小スケールの物理現象のパラメータ化の誤りなど、いくつかの欠点がありますが、広く使用されています。

大規模な微分方程式の統合の困難さから、数値的なアプローチは特に空間および時間の解像度を高くする場合には計算コストが非常に高くなります。さらに、これらのモデルは気候科学者の知識に依存して方程式、パラメータ化、アルゴリズムを改善するため、NWPの予測精度は追加データによっては改善されません。NWPモデルの問題に対処するため、ますます多くの人々がデータ駆動型、深層学習ベースの天気予測手法に関心を示しています。歴史的データ(ERA5再解析データセットなど)を使用して、深層ニューラルネットワークは将来の天気予測を訓練するために使用されます。これがこの手法の主たる前提です。従来のNWPモデルが数時間かかるのに対し、訓練後は数秒で予測することができます。

この分野の初期の取り組みでは、気象データと自然の画像は似たような空間構造を持つため、ResNetやUNetなどの従来のビジョンアーキテクチャを天気予測に使用しようとしました。しかし、それらのパフォーマンスは数値モデルに劣っていました。しかし、改善されたモデル設計、トレーニングレシピ、データとパワーの増加により、最近では注目すべき進展がありました。最初に実用IFCを上回ったモデルは、0.25°データ(721×1440グリッド)でトレーニングされた3D地球特有のトランスフォーマーモデルであるPangu-Weatherでした。すぐに、Keislerのグラフニューラルネットワーク設計がGraphCastによって0.25°データにスケールアップされ、Pangu-Weatherを上回る結果を示しました。

予測精度は優れているものの、現在の手法では複雑で高度にカスタマイズされたニューラルネットワークのトポロジーがしばしば使用され、抜け穴実験がほとんど行われないため、その効果の正確な要素を特定するのは困難です。たとえば、GraphCastにおける多重メッシュメッセージパッシングが効率にどの程度貢献しているのか、3D地球特有のトランスフォーマーが通常のトランスフォーマーと比べてどのような利点を持っているのかは分かりません。この分野では、これらの現行手法をより良く理解し、できれば簡素化するために統合フレームワークが必要です。また、気候や天候の予測を超える気象基礎モデルを作成することも容易になります。この研究では、適切なトレーニングの公式と組み合わせることで、簡単な設計が先端技術を上回る性能を発揮することを示しています。

UCLA、CMU、Argonne National Laboratory、およびPenn State Universityの研究者は、Stormerと呼ばれる、従来のトランスフォーマーのバックボーンにほとんどの変更を加える必要のないシンプルなトランスフォーマーモデルを提案しています。研究チームは、従来のビジョントランスフォーマー(ViT)アーキテクチャをベースにして、モデルのパフォーマンスに影響を与える3つの要素を詳細に調査しました:モデルは次の3つの要素から構成されます:(1)大気変数間の相互作用をモデル化し、入力データをトークンのシーケンスに変換する天気固有の埋め込み層、(2)モデルをランダムな間隔で天気の動態を予測するようにトレーニングするランダムなダイナミクス予測目標、(3)ロス関数において異なる圧力レベルの変数を重み付けして各圧力レベルの密度を近似する圧力加重ロス。提案されたランダムなダイナミクス予測目標は、モデルがトレーニングされた間隔のさまざまな組み合わせを使用することによって、推論中に特定のリードタイムに対して多くの予測を生成するため、1つのモデルが複数の予測を可能にします。

たとえば、6時間の予測を12回配布するか、12時間の予測を6回配布することで、3日間の予測を得ることができます。これらの予測を組み合わせることにより、特に長期のリードタイムにおいて、大きな性能向上が得られます。研究チームは、データ駆動型の天気予測のための人気のあるベンチマークであるWeatherBench 2を使用して、Stormerという提案手法を評価しました。テスト結果は、Stormerが7日後に先端の予測システムを上回り、1日から7日間の重要な大気変数の予測精度で競争力のある結果を達成していることを示しています。特に、Stormerはほぼ5倍低解像度データおよび数桁少ないGPU時間で訓練されることにより、ベースラインよりも性能が向上しています。さらに、スケーリングの研究により、モデルの容量とデータサイズを増やすとStormerの性能が継続的に向上する可能性があることが証明されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AWS上で動作する深層学習ベースの先進運転支援システムのための自動ラベリングモジュール

コンピュータビジョン(CV)では、興味のあるオブジェクトを識別するためのタグを追加したり、オブジェクトの位置を特定する...

AI研究

アリババの研究者は、Qwen-VLシリーズを紹介しますこれは、テキストと画像の両方を認識し理解するために設計された大規模なビジョン・ランゲージ・モデルのセットです

最近、大規模言語モデル(LLM)は、強力なテキスト生成能力と理解能力を持つため、多くの関心を集めています。これらのモデル...

データサイエンス

超幾何分布の理解

二項分布は、データサイエンスの内外でよく知られた分布ですしかし、あなたはその人気のないいところのいとこである超幾何分...

機械学習

「新しいAIの研究が、化学的な匂いを説明する能力において、機械学習モデルが人間レベルのスキルを達成することを示している」という

神経科学における基本的な課題は、刺激の物理的特性と知覚的特性の関連性を理解することです。視覚の色や聴覚の音高のように...

機械学習

「プロンプトエンジニアリングによるAIの潜在能力の解放」

迅速なエンジニアリングは、簡潔でコンテキスト豊かなクエリの作成スキルであり、AIが最も関連性の高い正確な応答を生成する...

AI研究

アップルとブリティッシュコロンビア大学のAI研究者が提案する「FaceLit:ニューラル3D再点灯可能な顔のための革新的なAIフレームワーク」

近年、2D画像から3D生成モデルを獲得するタスクに対する関心が高まっています。Neural Radiance Fields(NeRF)の登場により...