Learn more about Search Results A - Page 575

CMU（カーネギーメロン大学）およびNYU（ニューヨーク大学）の研究者たちは、大規模言語モデル（LLM）を用いたゼロショット時系列予測のための人工知能メソッド「LLMTime」を提案しています

“`html 他のテキストや音声、ビデオなどのシーケンスモデリングの問題といくつかの類似点があるにもかかわらず、時系列データは2つの特徴があり、特に困難であるとされています。集計された時系列データセットには、しばしば異なるソースからのシーケンスが含まれ、場合によっては欠損値があります。これは、通常、均一な入力スケールとサンプルレートを持つビデオや音声とは対照的です。さらに、気象情報や金融データなどの多くの時系列予測アプリケーションでは、通常、情報の一部しか含まれていない観測からの外挿が必要です。これにより、正確なポイント予測が非常に困難になり、不確実性の推定がますます重要になります。時系列モデリングのための事前学習は頻繁には使用されません。事前学習のデータセットが利用しやすくないためです。ただし、大規模な事前学習は、ビジョンとテキストの大規模ニューラルネットワークのトレーニングの重要な要素となっており、パフォーマンスがデータの利用可能性に直接比例するようになっています。そのため、ARIMAや線形モデルなどの基本的な時系列手法の方が、一般的なベンチマークではディープラーニング手法よりも頻繁に優れたパフォーマンスを示しています。著者は、大規模な言語モデル（LLM）が従来の手法の明確なバイアスと現代の深い理解の複雑な表現学習と生成能力とのギャップを埋める可能性があることを示しています。 LLMを事前学習済みモデルとして連続的な時系列予測アプリケーションに使用するために、研究者らは「LLMTIME2」という非常にシンプルなアプローチを示しています（図1に概説）。この手法では、時系列予測をテキストの次のトークン予測として扱い、時系列を数値の文字列として表現することで、頑健な事前学習済みモデルや確率的な機能（確率評価やサンプリングなど）を適用することが可能になります。彼らは(1)時系列を数値の文字列として効率的にエンコードする方法、および(2)離散的なLLM分布を連続的な確率密度に変換する方法を提供しています。これにより、多様な複雑な分布を記述することができ、高いパフォーマンスが達成できます。これらの戦略を使用することで、他のモデルが使用するダウンストリームデータを変更することなく、LLMTIMEがさまざまな問題に対して特化した時系列手法を上回るか匹敵することがわかりました。図1: 大規模言語モデル（LLM）を使用して、研究者らは、数値をテキストとしてエンコードし、テキストの補完としての潜在的な外挿を選択する時系列予測手法「LLMTIME」を提案しています。ターゲットデータセットに対してトレーニングされていない（つまり、ゼロショット）の場合でも、LLMTIMEはいくつかのよく知られた時系列アルゴリズムを上回ることができます。基本となるベースモデルの強さは、LLMTIMEのパフォーマンスと共にスケールすることに注意が必要です。RLHFなどのアラインメントを経るモデルはスケーリングトレンドに従わないことも注目すべきです。たとえば、セクション6では、GPT-4のパフォーマンスがGPT-3よりも悪いことが示されています。 LLMTIMEのゼロショットの性質には、次のような潜在的な利点があります：（1）LLMsのシンプルな適用を可能にし、ファインチューニング手順の専門知識やこれらの手続きに必要な大量の計算リソースの必要性を排除します。（2）トレーニングやファインチューニングに対して少ない情報を持つデータが限られた状況にも適しています。（3）広範な事前学習済みLLMsのパターン抽出能力を利用することで、特殊な時系列モデルの作成に必要なかなりの時間、努力、およびドメイン固有の専門知識を回避できます。彼らは、LLMsが単純または繰り返しのシーケンスに好みを示し、これらのバイアスが時系列の重要な特徴（季節性など）と一致していることを示し、LLMTIMEの優れたパフォーマンスの理由を理解するために詳しく調査しています。これらのバイアスに加えて、LLMsは多様な分布を表現し、容易に欠損データに対応することもできます。それは、時系列に特に役立ちます。彼らはまた、LLMsが追加の副次的情報を問い合わせたり、LLMsに予測の正当性を説明させたりすることが可能になる方法を示しています。最後に彼らは、パフォーマンスが大きさと共に向上する傾向にあること、ポイント予測の品質も不確実性表現の品質が向上すること、一般的に魅力的な予測性能の増大に加えて、GPT-4の不確実性キャリブレーションがGPT-3よりも悪いことを発見しました。これは、RLHFなどの介入の結果である可能性があります。 “`