中国の研究者がiTransformerを提案:時間系列予測のためのTransformerアーキテクチャの見直し
中国の研究者がiTransformerを提案:時間系列予測のためのTransformerアーキテクチャ再評価
トランスフォーマーは、自然言語処理とコンピュータビジョンで大成功を収めた後、スケーリングのルールに従う基本モデルとなりました。タイムシリーズ予測では、他の広範な分野での巨大な成功によって、シーケンスからの多レベル表現の抽出とペアワイズ関係の表現が非常に可能なトランスフォーマーの出現が見られます。しかし、同じタイムスタンプの複数の変数を区別できないチャネルに埋め込み、これらの時間的トークンに重点を置いて時間的関係を捉えるために通常使用されるトランスフォーマーベースの予測の妥当性が、最近では学者たちからの批判の的となっています。
彼らは、多変量時系列予測は、トランスフォーマーベースの予測の現在の構造によりよくフィットする可能性があると指摘しています。図2の左パネルでは、同じ時間ステップからのポイントが、相反する計測によって捉えられる根本的に異なる物理的意味を持ち、多変量の相関が消滅した単一のトークンに組み合わされていることが示されています。さらに、現実世界の高度に局所的な受容野と、複数の時間点の不整合したタイムスタンプにより、単一のタイムステップによって作成されたトークンは有用な情報を披露するのが困難かもしれません。また、時間の次元では、系列の変動に順序が重要な影響を与える可能性があるにもかかわらず、順列不変の注意機構が不適切に使用されています。
その結果、トランスフォーマーは多変量の相関を記述し、重要な系列表現を捉える能力を失い、さまざまな時系列データへの適用と一般化能力を制限しています。彼らは、時系列の逆の観点を用い、各変数の全時系列を個別にトークンに埋め込む、多変量のポイントをトークンとして埋め込むというパッチングの極端な例を使用します。埋め込まれたトークンは、シリーズのグローバルな表現を逆に集約し、多変量の相関とさらに多様な視点に適したブーミングアテンションメカニズムにより、よりよく活用される可能性があります。
- スタンフォードの研究者たちは「CORNN」という機械学習手法を紹介します:大規模な脳神経記録のリアルタイム分析のためのものです
- 「Johns Hopkins Medicineの研究者たちは、正確な骨肉腫壊死計算のための機械学習モデルを開発しました」
- スタンフォード大学の研究者がRT-Sketchを紹介します:目標仕様としての手描きスケッチを通じた視覚模倣学習の向上
図1: iTransformerの性能。平均結果(MSE)の報告にはTimesNetが使用されます。
一方、フィードフォワードネットワークは、任意のルックバック系列からエンコードされ、次の系列の予測を行うためにデコードされる、異なる変数の十分に一般化された表現を獲得するためにトレーニングされるかもしれません。上記の理由から、彼らは、トランスフォーマーが時系列予測に無力ではなく、むしろ誤った方法で使用されていると考えています。彼らはこの研究でトランスフォーマーのアーキテクチャを再度検討し、iTransformerを時系列予測の基本的なフレームワークとして推進します。技術的な観点では、彼らは系列エンコーディングにフィードフォワードネットワークを使用し、多変量の相関に注意を払い、各時系列を変数のトークンとして埋め込みます。実験の観点では、提案されたiTransformerは、図1の実世界の予測ベンチマークでトランスフォーマーベースの予測の欠点を予想外に解消しながら、最先端のパフォーマンスを実現します。
図2: 提案されたiTransformer (下段) と Vanilla Transformer (上段) の比較。Vanilla Transformer は各タイムステップを時間トークンに埋め込むのに対し、iTransformer は全体の系列を独立した変数トークンに埋め込みます。その結果、フィードフォワードネットワークは系列の表現をエンコードし、アテンションメカニズムは多変量の相関を示すことができます。
彼らが貢献した3つの点は以下の通りです:
• 清華大学の研究者が提案した iTransformer は、独立した時間系列をトークンとして扱い、自己アテンションによって多変量の相関を捉えることができます。層正規化とフィードフォワードネットワークモジュールを使用して、より良い系列全体の表現を学習し、時系列予測に利用することができます。
• 彼らはTransformerアーキテクチャを反省し、時間系列のネイティブTransformerコンポーネントの能力が未開拓であることを洗練させました。
• 実世界の予測ベンチマークでは、iTransformer は実験において常に最先端の結果を得ています。逆モジュールとアーキテクチャの決定に対する徹底した分析は、将来のTransformerベースの予測手法の進歩の可能性を指し示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- UCSDの研究者が、チューリングテストでのGPT-4のパフォーマンスを評価:人間のような欺瞞とコミュニケーション戦略のダイナミクスを明らかにする
- マイクロソフトの研究者たちは「エモーションプロンプト」を発表しました:複数の言語モデルにおけるAIの感情的知性を向上させる
- インテルの研究者たちは、CPU上でLLMs(Large Language Models)をより効率的に展開するための新しい人工知能のアプローチを提案しています
- マイクロソフトの研究者たちは、FP8混合精度トレーニングフレームワークを公開しました:大規模な言語モデルのトレーニング効率を超高速化します
- 「MIT研究者がLILOを導入:プログラム合成のための解釈可能なライブラリを学ぶための神経シンボリックフレームワーク」
- アマゾンの研究者がフォーチュナを紹介:ディープラーニングにおける不確実性量子化のためのAIライブラリ
- 「ハギングフェイスの研究者たちは、Distil-Whisperを紹介しました:高性能でリソースが限られた環境におけるギャップを埋めるコンパクトな音声認識モデル」