最新のデータを使ってファンデーションモデルを最新の状態に保つ方法は? AppleとCMUの研究者が、VLMの継続的なトレーニングのための最初のウェブスケールの時系列連続性(TiC)ベンチマークを導入しましたこれには12.7Bのタイムスタンプ付きのイメージとテキストのペアが含まれています

「ファンデーションモデルの最新状態をキープするための最新データ活用法:AppleとCMUの研究者によるVLMの継続的トレーニングのためのウェブスケール時系列連続性(TiC)ベンチマーク」

CLIP、Flamingo、およびStable Diffusionなどの大規模なマルチモーダル基盤モデルの貢献により、画像生成とゼロショット汎化の以前に考えられなかった改善が実現し、マルチモーダル学習におけるパラダイムの変革が起こっています。これらのベースラインモデルは通常、大規模なウェブスケールの静的データセットを用いてトレーニングされます。OpenAIのCLIPモデルなどの従来のモデルが、2020年までのインターネットスケールのデータでトレーニングされた場合に、将来のデータでどのように機能するかは不明です。

まず、AppleとCarnegie Mellon Universityの研究者たちは、OpenAIのCLIPモデルが、2022年までの最新のキュレーションされたウェブデータセットを使用して開発されたOpenCLIPリポジトリのモデルと比較して、ロバスト性の点でどのように優れているかを調査しています。CLIPモデルを測るための標準が存在しないため、2014年から2022年までの動的な分類および検索のタスクをカバーするデータセットを作成しました。OpenCLIPモデルはパフォーマンスを維持している一方、OpenAIモデルは2021年から2022年のデータと2014年から2016年のデータとの間で検索パフォーマンスに大きな差があることがわかりました。OpenAIのCLIPモデルはわずかによりロバストであるものの、これはImageNetの分布シフトにおける正確性などの典型的なテストに完全に反映されていません。

彼らの研究は、静的ベンチマーク(ImageNetなど)を使用することには限界があり、モデルはデータの分布が変化するに伴って適応・進化する必要があることを明らかにしました。データの変化に対応するための単純で頻繁な手法の1つは、新しい画像テキストデータを得た場合に再びトレーニングを開始し、新しいCLIPモデルをトレーニングすることです。この方法の理論的な根拠は、既存のモデルから新しい入力にモデルの振る舞いを適応させることはより困難であるというものです。ただし、新たな基盤モデルを始めからトレーニングするのに必要な時間とエネルギーを何度も投資することは現実的ではありません。

最近のCLIPモデルの持続的学習技術に焦点を当てた取り組みは、一つの後続タスクまたは少数のタスクで効率を向上させることを目的としています。最近の研究の一部はこれらの課題に取り組み始めていますが、現在のベンチマークは範囲が狭すぎるか、画像テキストデータが関連していないため、真に有用ではありません。

CLIPモデルの時系列トレーニングへの第一歩として、研究者たちは時間の経過によるデータ分布の自然な変化を観察しました。既存のCommonPoolデータセットに「クロールタイム」データを含めることにより、彼らはCLIPモデルの時系列連続トレーニングのための新たなベンチマークであるTIC-DataCompを確立しました。研究者たちはまた、RedditやFlickrなどから収集したインターネットの大規模データセットを再利用して、新たな目的に使用しました。特に、YFCCとRedcapsが提供する時系列情報を使用して、それぞれTIC-YFCCとTICRedCapsを編集しました。新しいデータセットが利用可能になるたびに、この研究は時間の制約内で機能する持続学習技術を構築することを目指しています。これらの戦略は、新しいデータが受け取られるたびにトレーニングパラメータをリセットし、累積計算予算を新しいモデルに費やすOracleとは逆の方向を示しています。

研究者たちは、TIC-CLIPフレームワークでトレーニングされたモデルのゼロショット評価を行いました。評価には、ImageNetやImageNetの分布シフト、Flickrなどの28の確立された分類および検索タスクが使用されました。最後に、彼らは自身のベンチマークを使用して、リプレイバッファ、学習率スケジュール、ウォームスタート、パッチング、蒸留など、さまざまな持続学習アプローチを設計・テストしました。

チームは、最新のチェックポイントでトレーニングを開始し、過去のすべてのデータをリプレイすることにより、累積技術がOracleと同等のパフォーマンスを2.7倍の計算効率で実現することを示す重要な教訓を得ました。彼らはまた、順次トレーニングのための学習率スケジュールや、静的および動的パフォーマンスのためのバッファサイズの間における興味深いトレードオフを示しました。彼らの結果は、11Mサンプルから3Bまでのデータセットにわたる傾向を強調し、テクニックによって一貫性を持たせました。既存のデータセットに追加で収集されたコードとタイミングデータは、近々公開され、広いコミュニティが提案されたベンチマークを使用できるようにする予定です。研究チームは、この未開拓のトピックに光を当てることで、基盤モデルの持続トレーニングへの道を切り開くことを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more