中国の研究者がiTransformerを提案:時間系列予測のためのTransformerアーキテクチャの見直し

中国の研究者がiTransformerを提案:時間系列予測のためのTransformerアーキテクチャ再評価

トランスフォーマーは、自然言語処理とコンピュータビジョンで大成功を収めた後、スケーリングのルールに従う基本モデルとなりました。タイムシリーズ予測では、他の広範な分野での巨大な成功によって、シーケンスからの多レベル表現の抽出とペアワイズ関係の表現が非常に可能なトランスフォーマーの出現が見られます。しかし、同じタイムスタンプの複数の変数を区別できないチャネルに埋め込み、これらの時間的トークンに重点を置いて時間的関係を捉えるために通常使用されるトランスフォーマーベースの予測の妥当性が、最近では学者たちからの批判の的となっています。

彼らは、多変量時系列予測は、トランスフォーマーベースの予測の現在の構造によりよくフィットする可能性があると指摘しています。図2の左パネルでは、同じ時間ステップからのポイントが、相反する計測によって捉えられる根本的に異なる物理的意味を持ち、多変量の相関が消滅した単一のトークンに組み合わされていることが示されています。さらに、現実世界の高度に局所的な受容野と、複数の時間点の不整合したタイムスタンプにより、単一のタイムステップによって作成されたトークンは有用な情報を披露するのが困難かもしれません。また、時間の次元では、系列の変動に順序が重要な影響を与える可能性があるにもかかわらず、順列不変の注意機構が不適切に使用されています。

その結果、トランスフォーマーは多変量の相関を記述し、重要な系列表現を捉える能力を失い、さまざまな時系列データへの適用と一般化能力を制限しています。彼らは、時系列の逆の観点を用い、各変数の全時系列を個別にトークンに埋め込む、多変量のポイントをトークンとして埋め込むというパッチングの極端な例を使用します。埋め込まれたトークンは、シリーズのグローバルな表現を逆に集約し、多変量の相関とさらに多様な視点に適したブーミングアテンションメカニズムにより、よりよく活用される可能性があります。

図1: iTransformerの性能。平均結果(MSE)の報告にはTimesNetが使用されます。

一方、フィードフォワードネットワークは、任意のルックバック系列からエンコードされ、次の系列の予測を行うためにデコードされる、異なる変数の十分に一般化された表現を獲得するためにトレーニングされるかもしれません。上記の理由から、彼らは、トランスフォーマーが時系列予測に無力ではなく、むしろ誤った方法で使用されていると考えています。彼らはこの研究でトランスフォーマーのアーキテクチャを再度検討し、iTransformerを時系列予測の基本的なフレームワークとして推進します。技術的な観点では、彼らは系列エンコーディングにフィードフォワードネットワークを使用し、多変量の相関に注意を払い、各時系列を変数のトークンとして埋め込みます。実験の観点では、提案されたiTransformerは、図1の実世界の予測ベンチマークでトランスフォーマーベースの予測の欠点を予想外に解消しながら、最先端のパフォーマンスを実現します。

図2: 提案されたiTransformer (下段) と Vanilla Transformer (上段) の比較。Vanilla Transformer は各タイムステップを時間トークンに埋め込むのに対し、iTransformer は全体の系列を独立した変数トークンに埋め込みます。その結果、フィードフォワードネットワークは系列の表現をエンコードし、アテンションメカニズムは多変量の相関を示すことができます。

彼らが貢献した3つの点は以下の通りです:

• 清華大学の研究者が提案した iTransformer は、独立した時間系列をトークンとして扱い、自己アテンションによって多変量の相関を捉えることができます。層正規化とフィードフォワードネットワークモジュールを使用して、より良い系列全体の表現を学習し、時系列予測に利用することができます。

• 彼らはTransformerアーキテクチャを反省し、時間系列のネイティブTransformerコンポーネントの能力が未開拓であることを洗練させました。

• 実世界の予測ベンチマークでは、iTransformer は実験において常に最先端の結果を得ています。逆モジュールとアーキテクチャの決定に対する徹底した分析は、将来のTransformerベースの予測手法の進歩の可能性を指し示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

効果的にMLソリューションを比較する方法

「機械学習ソリューションを評価および比較する際には、おそらく最初に評価指標として予測力を使用することになるでしょう異...

AI研究

中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」

大規模言語モデル(LLM)の新しい知識の取り扱い能力を評価することは困難です。北京大学の研究者たちは、既存のエンティティ...

機械学習

BQMLを使用した多変量時系列予測

GoogleのBQMLは、時系列モデルを作成するために使用することができます最近、マルチバリエート時系列モデルを作成するために...

人工知能

「思考の連鎖を自動化する:AIが自身に推論を促す方法」

Auto-CoTのプロンプト手法は、多様性に基づくサンプリングとゼロショット生成を使用して、LLMsが複雑な推論を促すために自ら...

AIニュース

「AIプロジェクトが、アルゼンチンの軍事独裁政権下で行方不明になった子供たちの成人した顔を想像します」

アルゼンチンの広告宣伝家、サンティアゴ・バロス氏は、アプリを使用して、アルゼンチンの軍事独裁時代に両親から引き離され...

コンピュータサイエンス

「AIイノベーションのためのニューロエボリューションの活用」

イントロダクション ニューロエボリューションは、AIがニューラルネットワークと進化アルゴリズムを組み合わせて創造力を育む...