「AI天気モデルのためのベンチマークデータセット」

「AI天気モデルのためのベンチマークデータセット作成ガイド」

天候情報モデルとWeatherBenchの比較

NOAAによる写真、Unsplashで公開

ベンチマークデータセットは、機械学習の研究において基本的な要素です。これらは、入手が容易で、前処理およびクリーニングがされた標準化されたデータセットであり、機械学習に最適です。

データ駆動型の天気予測は、非常に活発なトピックです。NVIDIA、DeepMind、Huaweiを含む研究所では、既存の天気予報サービスに対抗できる機械学習アルゴリズムがリリースされています。

これらのデータ駆動型の天候モデルを互いに比較し、また「標準的な」天気予測のベースラインと比較するには、ベンチマークデータセットと標準化された評価が役立ちます。

ここでは、2020年にStephan Raspらによって開発された気候・天気モデリングのベンチマークデータセットであるWeatherBenchを紹介します[1]。

このブログ記事では、以下の内容を扱います:

  1. MNISTなどのよく知られたベンチマークデータセットをレビューし、良いベンチマークデータセットの重要な基準をいくつか紹介します。
  2. WeatherBenchのベースとなっているERA5世界的な気象再解析データセットを紹介します。
  3. WeatherBenchとそれに対応するリーダーボードの現在の状況について議論します。

ベンチマークデータセット

もっとも有名なベンチマークデータセットはおそらくMNISTです。これはもともと画像処理システム向けに開発された手書き数字のコレクションです。MNISTには70,000枚の画像があり、そのうち60,000枚がトレーニング用で、10,000枚がテスト用です。各画像は28×28のグレースケールピクセルの正方形です。ヤン・ルカンは述べています

これは、実世界のデータに対して学習手法やパターン認識手法を試したい人にとって、前処理やフォーマットに最小限の努力を費やしながら実際のデータでトライするための良いデータベースです。

MNISTデータセットからの手書き数字の例。クレジット:Josef Steppan [CC-BY-SA 4.0]

他の興味深いベンチマークデータセットには、

  • FashionMNIST:オンライン小売業者Zalandoによって開発された、ファッション製品の70,000枚の画像からなるMNISTのようなコレクション。
  • ImageNet:20,000以上のカテゴリにわたる1,400万枚の画像。ImageNet大規模ビジュアル認識…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more