中国の研究者がiTransformerを提案:時間系列予測のためのTransformerアーキテクチャの見直し

中国の研究者がiTransformerを提案:時間系列予測のためのTransformerアーキテクチャ再評価

トランスフォーマーは、自然言語処理とコンピュータビジョンで大成功を収めた後、スケーリングのルールに従う基本モデルとなりました。タイムシリーズ予測では、他の広範な分野での巨大な成功によって、シーケンスからの多レベル表現の抽出とペアワイズ関係の表現が非常に可能なトランスフォーマーの出現が見られます。しかし、同じタイムスタンプの複数の変数を区別できないチャネルに埋め込み、これらの時間的トークンに重点を置いて時間的関係を捉えるために通常使用されるトランスフォーマーベースの予測の妥当性が、最近では学者たちからの批判の的となっています。

彼らは、多変量時系列予測は、トランスフォーマーベースの予測の現在の構造によりよくフィットする可能性があると指摘しています。図2の左パネルでは、同じ時間ステップからのポイントが、相反する計測によって捉えられる根本的に異なる物理的意味を持ち、多変量の相関が消滅した単一のトークンに組み合わされていることが示されています。さらに、現実世界の高度に局所的な受容野と、複数の時間点の不整合したタイムスタンプにより、単一のタイムステップによって作成されたトークンは有用な情報を披露するのが困難かもしれません。また、時間の次元では、系列の変動に順序が重要な影響を与える可能性があるにもかかわらず、順列不変の注意機構が不適切に使用されています。

その結果、トランスフォーマーは多変量の相関を記述し、重要な系列表現を捉える能力を失い、さまざまな時系列データへの適用と一般化能力を制限しています。彼らは、時系列の逆の観点を用い、各変数の全時系列を個別にトークンに埋め込む、多変量のポイントをトークンとして埋め込むというパッチングの極端な例を使用します。埋め込まれたトークンは、シリーズのグローバルな表現を逆に集約し、多変量の相関とさらに多様な視点に適したブーミングアテンションメカニズムにより、よりよく活用される可能性があります。

図1: iTransformerの性能。平均結果(MSE)の報告にはTimesNetが使用されます。

一方、フィードフォワードネットワークは、任意のルックバック系列からエンコードされ、次の系列の予測を行うためにデコードされる、異なる変数の十分に一般化された表現を獲得するためにトレーニングされるかもしれません。上記の理由から、彼らは、トランスフォーマーが時系列予測に無力ではなく、むしろ誤った方法で使用されていると考えています。彼らはこの研究でトランスフォーマーのアーキテクチャを再度検討し、iTransformerを時系列予測の基本的なフレームワークとして推進します。技術的な観点では、彼らは系列エンコーディングにフィードフォワードネットワークを使用し、多変量の相関に注意を払い、各時系列を変数のトークンとして埋め込みます。実験の観点では、提案されたiTransformerは、図1の実世界の予測ベンチマークでトランスフォーマーベースの予測の欠点を予想外に解消しながら、最先端のパフォーマンスを実現します。

図2: 提案されたiTransformer (下段) と Vanilla Transformer (上段) の比較。Vanilla Transformer は各タイムステップを時間トークンに埋め込むのに対し、iTransformer は全体の系列を独立した変数トークンに埋め込みます。その結果、フィードフォワードネットワークは系列の表現をエンコードし、アテンションメカニズムは多変量の相関を示すことができます。

彼らが貢献した3つの点は以下の通りです:

• 清華大学の研究者が提案した iTransformer は、独立した時間系列をトークンとして扱い、自己アテンションによって多変量の相関を捉えることができます。層正規化とフィードフォワードネットワークモジュールを使用して、より良い系列全体の表現を学習し、時系列予測に利用することができます。

• 彼らはTransformerアーキテクチャを反省し、時間系列のネイティブTransformerコンポーネントの能力が未開拓であることを洗練させました。

• 実世界の予測ベンチマークでは、iTransformer は実験において常に最先端の結果を得ています。逆モジュールとアーキテクチャの決定に対する徹底した分析は、将来のTransformerベースの予測手法の進歩の可能性を指し示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

クロマに会ってください:LLMs用のAIネイティブオープンソースベクトルデータベース-メモリを使用したPythonまたはJavaScript LLMアプリをより速く構築する方法

ワード埋め込みベクトルデータベースは、巨大な言語モデルの普及に伴い、ますます人気が高まっています。高度な機械学習技術...

AIニュース

Amazonの後、アメリカの製造業を加速させる野心

ジェフ・ウィルク氏は、Amazonの世界的な消費者ビジネスの元CEOであり、LGOプレイブックを彼の新しい使命である米国の製造業...

機械学習

ロコムジョコに会おう:厳格な評価と比較のために設計された新しい機械学習ベンチマーク

Intelligent Autonomous Systems Group、Locomotion Laboratory、German Research Center for AI、Centre for Cognitive Scie...

AI研究

計算機の進歩により、研究者はより高い信頼性で気候をモデル化することができるようになります

研究者たちは、計算リソースと正確な雲モデリングをバランスさせることによって気候モデリングを進歩させることができるアル...

コンピュータサイエンス

「アレクサ、学生たちは A.I. について何を学ぶべきですか?」

学校が強力な新しいA.I.ツールについて生徒に何を教えるかを議論する一方で、テックジャイアント、大学、非営利団体が無料の...

AI研究

ChatGPTの振る舞いは時間の経過と共に変化していますか?研究者がGPT-3.5とGPT-4の2023年3月版と2023年6月版を4つの異なるタスクについて評価します

大規模言語モデル(LLMs)は、人工知能の分野における最も革新的なイノベーションであることが成功裏に証明されています。BER...