「PIXART-αに会ってください:画像生成の品質が最先端の画像生成器と競争するTransformerベースのT2I拡散モデル」

「PIXART-αとの対面:最新の画像生成器と競争するTransformerベースのT2l拡散モデルの品質」

テキストから画像への変換(T2I)生成モデルであるDALLE 2、Imagen、Stable Diffusionの開発により、フォトリアルな画像合成の新時代が始まりました。これは、写真編集、ビデオ制作、3Dアセットの作成などを含む多くの下流アプリケーションに大きな影響を与えています。ただし、これらの洗練されたモデルは大きな処理能力を要求します。たとえば、SDv1.5のトレーニングには6K A100 GPU日が必要で、コストは約$320,000です。より最新の大きなモデルであるRAPHAELの場合、さらに60K A100 GPU日が必要であり、コストは約$3,080,000です。また、トレーニングにより環境に負荷がかかるため、大量のCO2排出物を生み出します。たとえば、RAPHAELのトレーニングでは35トンのCO2排出物が生じます。これは、図1に示すように、一人が7年間に排出するCO2量と同じです。

図1: T2Iの生産者間でのCO2排出量とトレーニングコストの比較がここで示されています。PIXART-αのトレーニングには驚異的な$26,000がかかります。ただし、私たちのCO2排出量とトレーニング費用はRAPHAELよりもわずかに1.1%と0.85%少ないです。

このような高価格は、研究コミュニティや企業の両方におけるこれらのモデルの入手に大きな制約をもたらし、AIGCコミュニティの重要な進展を大幅に妨げています。このような困難に関して重要な問いが提起されています:リソース使用を管理可能なレベルにおいて、高品質の画像生成器を作成できるのでしょうか?華為ノアズアークラボ、大連理工大学、香港大学、香港科技大学の研究者は、PIXART-αを提案しました。それは、最新の最先端画像生成器と競争力のある画像生成品質を保ちながら、トレーニングの計算要件を劇的に低減します。それには、次の3つの主な設計が含まれます:

  1. 自然画像のピクセルの分布を学習すること
  2. テキストと画像の整合性を学習すること
  3. 画像の美的魅力を向上させること

彼らは、最初のサブタスクであるピクセルの分布の学習コストを著しく低減するために、T2Iモデルを低コストのクラス条件モデルで初期化することを提案しています。彼らは、2番目と3番目のサブタスクのための事前トレーニングと微調整で構成されるトレーニングパラダイムを提供します。高い情報密度を持つテキスト-イメージペアデータでの事前トレーニングに続いて、より美的品質の高いデータでの微調整を行い、トレーニングの効果を高めます。その他、T2Iトランスフォーマーという効率的なモデルの提供。彼らは、テキスト条件を注入するためにクロスアテンションモジュールを使用し、計算の要求が高いクラス条件ブランチの単純化をDiffusion Transformer(DiT)に基づいて行います。さらに、変更したテキストから画像へのモデルにオリジナルのクラス条件モデルのパラメータを直接インポートできる再パラメータ化方法を提案しています。

これにより、T2Iトランスフォーマーには受け入れ可能な初期化が可能になり、トレーニングを加速するためにImageNetの自然な画像分布の過去の知識が活用されます。高品質な情報。彼らの研究では、既存のテキスト-イメージペアデータセットに重要な欠陥があることが明らかになっています(例:LAION)。テキストのキャプションは、非常に低頻度で数多くの名詞が現れる重いロングテール効果や、画像内のオブジェクトの一部しか記述していない情報の欠如などの問題を抱えています。これらの欠点は、T2Iモデルのトレーニングの効果を大幅に低下させ、信頼性のあるテキスト-イメージの整合性を得るために何百万回もの反復が必要とされます。彼らは、これらの問題を克服するために、最も先進的なビジョン言語モデルを使用して自動ラベリングパイプラインを提案しています。

SAMデータセットは大きく多様なオブジェクトのコレクションを持つという利点があり、情報密度の高いテキスト-イメージのペアを生成するための理想的なソースです。彼らの巧妙な機能により、モデルのトレーニングは非常に効率的に行われ、675 A100 GPU日と$26,000のみで済みます。図1は、彼らの手法がImagenよりも少ないトレーニングデータ量(0.2% vs Imagen)とトレーニング時間(2% vs RAPHAEL)を使用し、RAPHAELの1%程度のトレーニング費用($3,080,000の代わりに$26,000)を削減する方法を示しています。

世代品質に関しては、PIXART-αは現在のSOTA T2Iモデル、Stable Diffusionなどよりも優れた画質と意味的整合性を提供することをユーザーリサーチの試験によって示しています。さらに、T2I-CompBenchでの性能は、意味的な制御においてその利点を示しています。彼らは、T2Iモデルを効果的に訓練するための取り組みが、AIGCコミュニティに有益な知見を提供し、より手頃な価格で独立した学者や企業が独自の高品質なT2Iモデルを製造するのに役立つと予想しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「キャリアを将来に備えるための最高の無料AIコース」

今日から受講できる最高の無料AIコースのうち、8つをご紹介します

データサイエンス

PatchTST 時系列予測における画期的な技術革新

トランスフォーマーベースのモデルは、自然言語処理の分野(BERTやGPTモデルなど)やコンピュータビジョンなど、多くの分野で...

機械学習

「Declarai、FastAPI、およびStreamlitを使用したLLMチャットアプリケーション— パート2 🚀」

前回のVoAGI記事(リンク🔗)の人気を受けて、LLMチャットアプリケーションの展開について詳しく説明しました皆様からのフィ...

AIテクノロジー

「AIサービスへの大胆な進出:億万長者ビンニー・バンサールの大局変革」

テクノロジーと電子商取引の世界では、Binny Bansalの名前はよく知られています。オンライン小売り大手Flipkartの共同創設者...

データサイエンス

「力強いコネクティビティ:IoTにおけるエッジコンピューティングの復興」

エッジコンピューティングとIoTがリアルタイムの効率化、帯域幅の最適化、およびイノベーションのために結集します課題はまだ...

AI研究

このAI研究レビューでは、衛星画像とディープラーニングの統合による資産ベースの貧困の測定について探求しています

ルンド大学とハルムスタッド大学の研究者は、衛星画像と深層機械学習による貧困推定の説明可能なAIに関するレビューを実施し...