中国からの新しいAI研究が提案するSHIP:既存のファインチューニング手法を改善するためのプラグアンドプレイの生成AIアプローチ

中国の新しいAI研究が提案するSHIP:既存のファインチューニング手法を改善するための生成AIアプローチ

この論文では、既存の微調整手法を改善するための SyntHesIzed Prompts (SHIP)という新しいアプローチについて取り上げています。

微調整:プレトレーニングの後、モデルはより小さなタスク固有のデータセットで微調整されます。これには新しいデータに対してトレーニングプロセスを継続することが含まれます。一般的な知識を特定のタスクに適用できるようにするために、プレトレーニングで獲得したモデルの知識を調整することが目的です。

研究者が取り組んでいる問題は、いくつかのクラスにデータがないシナリオです。彼らはクラス名を提供することで特徴を合成できる生成モデルをトレーニングすることを目指しました。これにより、データのないカテゴリの特徴を生成することが可能になります。

データのないカテゴリの特徴を生成するとは、トレーニングデータセットに存在しないクラスやカテゴリの表現を合成するプロセスを指します。これは、特定のクラスの実データを収集することが難しいまたは不可能なシナリオで特に有用です。

その後、研究者はオリジナルのラベル付きデータと新たに合成された特徴を使用してCLIPを微調整しました。しかし、生成モデルは通常、トレーニングに大量のデータを必要とするため、データの効率性とは相反する大きな障害です。彼らは、敵対的なトレーニングを必要とするモデルよりもトレーニングが容易で低データのシナリオで効果的な変分オートエンコーダ(VAE)をフレームワークとして利用することを提案しました。

GANとVAEは両方とも新しいデータサンプルを生成することができる生成モデルですが、アーキテクチャ、目標、トレーニング方法などが大きく異なります。GANは高品質でリアルなサンプルを生成する能力で知られていますが、トレーニングが難しい場合もあります。一方、VAEは確率的なフレームワークを提供し、特にデータが限られているシナリオでは取り扱いが容易ですが、GANほど鮮明またはリアルなサンプルを生成しないかもしれません。

CLIP(Contrastive Language–Image Pretraining)は、テキストの説明から画像を理解し生成するためのOpenAIによって開発されたモデルです。大規模なデータセットで事前トレーニングされ、視覚と言語の表現が整列しています。事前トレーニングされた言語エンコーダはよりリアルな特徴の生成を支援します。この論文は、合成データを利用してCLIPの微調整手法の性能を向上させることを目指して、ベースから新しい一般化、クロスデータセットの転移学習、および一般化されたゼロショット学習について包括的な実験を行い、最先端のパフォーマンスを達成しました。

提案されたモデルのアーキテクチャは、VAEフレームワークを利用して特徴をエンコードおよび生成し、CLIPを統合して画像特徴を抽出し再構築します。トレーニング中、モデルは特徴を潜在空間にエンコードし、それを再構築する方法を学習します。生成段階では、この学習されたエンコーディングを使用して新しいクラスの特徴を合成し、データのないクラスでもCLIPを微調整できるようにします。軽量なMLPと凍結されたCLIPテキストエンコーダからなる新しいCLIPベースのジェネレータは、潜在コードを変換し、特徴再構築用の最終的なプロンプトを構築する上で重要な役割を果たします。

研究者が観察した実験結果:

ベースから新しい一般化:ImageNet、Caltech101、OxfordPets、StanfordCars、Flowers102、Food101、FGVCAircraft、SUN397、DTD、EuroSAT、UCF101を含む11の多様な画像分類データセットで実験が行われました。データセットはベースクラスと新しいクラスに分割され、ベースクラスでクラスごとに16のサンプルでトレーニングが行われました。評価はベースクラスと新しいクラスの両方で行われました。

一般化されたゼロショット設定:論文では、ベースから新しい一般化をより現実的な一般化されたゼロショット設定で評価しました。この設定では、ベースデータと新しいデータがテストデータセットで混在しています。結果は以前の手法では性能が著しく低下することを示しましたが、提案された方法であるSHIPは新しいクラスでの性能を改善し続けました。

他の手法との比較:CLIP、CoOp、CLIP-Adapter、Tip-Adapterなどの他の手法と比較されました。提案されたSHIP手法は、さまざまなデータセットで新たなクラスでの性能を向上させました。

結論:

この論文では、既存のファインチューニング手法を改善するために、新しいSyntHesIzed Prompts (SHIP)アプローチを提案しました。特に一部のクラスにデータがないシナリオで、この手法はさまざまなタスクで最先端のパフォーマンスを達成しました。データのないカテゴリに対して特徴を合成し、元のラベル付き特徴と新たに合成された特徴の両方を使用してCLIPをファインチューニングすることで、この手法は優れた結果を得ることができました。論文は、追加のトレーニングコストを制約として認識し、将来の研究でSHIPの密な予測タスクへの適用可能性を探求する意図を表明しています。

全体として、この論文は、特定のクラスのデータの不足の課題に対処し、合成データを使用してCLIPのファインチューニング手法のパフォーマンスを向上させるという点で、この分野への重要な貢献を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「パンドラの箱をのぞいてみよう:『ホワッツインマイビッグデータ(WIMBD)』で言語モデルのデータセットの隠された複雑さを明らかにする」

機械学習はその基盤としてデータに依存しています。新しいデータセットは、研究や革新的なモデルの開発において重要な要素で...

機械学習

AgentBenchをご紹介します:さまざまな状況で大規模な言語モデルをエージェントとして評価するために開発された多次元ベンチマークです

大規模言語モデル(LLM)は登場し、進化し、人工知能の分野に複雑さの新たなレベルを加えました。徹底的なトレーニング方法に...

機械学習

大規模な言語モデルを使用した自律型の視覚情報検索

Posted by Ziniu Hu, Student Researcher, and Alireza Fathi, Research Scientist, Google Research, Perception Team 大規...

AIニュース

「GitLabがDuo Chatを導入:生産性向上のための対話型AIツール」

ソフトウェア開発では、開発者は複雑なコードやプロジェクトの問題の効率的な管理に取り組むことが多いです。ワークフローで...

AIニュース

このAIニュースレターはあなたが必要なすべてです #72

今週、AIニュースはOpenAIのDevdayと多くの新しいモデルや機能の発売で主導権を握り、それによってエロン・マスクがLLMレース...

データサイエンス

「データサイエンスプロジェクトを変革する:YAMLファイルに変数を保存する利点を見つけよう」

このブログ投稿では、データサイエンスプロジェクトで変数、パラメータ、ハイパーパラメータを保存するための中心的なリポジ...