「PIXART-αに会ってください:画像生成の品質が最先端の画像生成器と競争するTransformerベースのT2I拡散モデル」

「PIXART-αとの対面:最新の画像生成器と競争するTransformerベースのT2l拡散モデルの品質」

テキストから画像への変換(T2I)生成モデルであるDALLE 2、Imagen、Stable Diffusionの開発により、フォトリアルな画像合成の新時代が始まりました。これは、写真編集、ビデオ制作、3Dアセットの作成などを含む多くの下流アプリケーションに大きな影響を与えています。ただし、これらの洗練されたモデルは大きな処理能力を要求します。たとえば、SDv1.5のトレーニングには6K A100 GPU日が必要で、コストは約$320,000です。より最新の大きなモデルであるRAPHAELの場合、さらに60K A100 GPU日が必要であり、コストは約$3,080,000です。また、トレーニングにより環境に負荷がかかるため、大量のCO2排出物を生み出します。たとえば、RAPHAELのトレーニングでは35トンのCO2排出物が生じます。これは、図1に示すように、一人が7年間に排出するCO2量と同じです。

図1: T2Iの生産者間でのCO2排出量とトレーニングコストの比較がここで示されています。PIXART-αのトレーニングには驚異的な$26,000がかかります。ただし、私たちのCO2排出量とトレーニング費用はRAPHAELよりもわずかに1.1%と0.85%少ないです。

このような高価格は、研究コミュニティや企業の両方におけるこれらのモデルの入手に大きな制約をもたらし、AIGCコミュニティの重要な進展を大幅に妨げています。このような困難に関して重要な問いが提起されています:リソース使用を管理可能なレベルにおいて、高品質の画像生成器を作成できるのでしょうか?華為ノアズアークラボ、大連理工大学、香港大学、香港科技大学の研究者は、PIXART-αを提案しました。それは、最新の最先端画像生成器と競争力のある画像生成品質を保ちながら、トレーニングの計算要件を劇的に低減します。それには、次の3つの主な設計が含まれます:

  1. 自然画像のピクセルの分布を学習すること
  2. テキストと画像の整合性を学習すること
  3. 画像の美的魅力を向上させること

彼らは、最初のサブタスクであるピクセルの分布の学習コストを著しく低減するために、T2Iモデルを低コストのクラス条件モデルで初期化することを提案しています。彼らは、2番目と3番目のサブタスクのための事前トレーニングと微調整で構成されるトレーニングパラダイムを提供します。高い情報密度を持つテキスト-イメージペアデータでの事前トレーニングに続いて、より美的品質の高いデータでの微調整を行い、トレーニングの効果を高めます。その他、T2Iトランスフォーマーという効率的なモデルの提供。彼らは、テキスト条件を注入するためにクロスアテンションモジュールを使用し、計算の要求が高いクラス条件ブランチの単純化をDiffusion Transformer(DiT)に基づいて行います。さらに、変更したテキストから画像へのモデルにオリジナルのクラス条件モデルのパラメータを直接インポートできる再パラメータ化方法を提案しています。

これにより、T2Iトランスフォーマーには受け入れ可能な初期化が可能になり、トレーニングを加速するためにImageNetの自然な画像分布の過去の知識が活用されます。高品質な情報。彼らの研究では、既存のテキスト-イメージペアデータセットに重要な欠陥があることが明らかになっています(例:LAION)。テキストのキャプションは、非常に低頻度で数多くの名詞が現れる重いロングテール効果や、画像内のオブジェクトの一部しか記述していない情報の欠如などの問題を抱えています。これらの欠点は、T2Iモデルのトレーニングの効果を大幅に低下させ、信頼性のあるテキスト-イメージの整合性を得るために何百万回もの反復が必要とされます。彼らは、これらの問題を克服するために、最も先進的なビジョン言語モデルを使用して自動ラベリングパイプラインを提案しています。

SAMデータセットは大きく多様なオブジェクトのコレクションを持つという利点があり、情報密度の高いテキスト-イメージのペアを生成するための理想的なソースです。彼らの巧妙な機能により、モデルのトレーニングは非常に効率的に行われ、675 A100 GPU日と$26,000のみで済みます。図1は、彼らの手法がImagenよりも少ないトレーニングデータ量(0.2% vs Imagen)とトレーニング時間(2% vs RAPHAEL)を使用し、RAPHAELの1%程度のトレーニング費用($3,080,000の代わりに$26,000)を削減する方法を示しています。

世代品質に関しては、PIXART-αは現在のSOTA T2Iモデル、Stable Diffusionなどよりも優れた画質と意味的整合性を提供することをユーザーリサーチの試験によって示しています。さらに、T2I-CompBenchでの性能は、意味的な制御においてその利点を示しています。彼らは、T2Iモデルを効果的に訓練するための取り組みが、AIGCコミュニティに有益な知見を提供し、より手頃な価格で独立した学者や企業が独自の高品質なT2Iモデルを製造するのに役立つと予想しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

アマゾンの研究者は、深層学習を活用して複雑な表形式のデータ分析におけるニューラルネットワークを強化します

ニューラルネットワークは、異質なカラムを持つ表形式のデータに直面するときに、現代計算の驚異として、重要なハードルに直...

機械学習

「大規模な言語モデルの探索-パート3」

「この記事は主に自己学習のために書かれていますしたがって、広く深く展開されています興味のあるセクションをスキップした...

機械学習

2023年にディープラーニングのためのマルチGPUシステムを構築する方法

「これは、予算内でディープラーニングのためのマルチGPUシステムを構築する方法についてのガイドです特に、コンピュータビジ...

データサイエンス

「インド、人工知能を利用し言語の壁を解消へと向かう」

インドは人工知能(AI)を活用し、言語の壁を乗り越え、多様な人口の包括的参加を確保しようとしています。南西部の州である...

AIニュース

不正行為はこれで終わり!Sapia.aiがAIによる回答をリアルタイムで検出!

Sapia.aiは、ChatGPTなどの生成AIモデルによって作成された応答をリアルタイムで特定およびフラグ付けする新機能を発表し、興...

AIニュース

「AIを活用して国連の持続可能な開発目標に取り組む15のプロジェクト」

「Google.orgは、AIを活用して国連の持続可能な開発目標に進展をもたらすための15のプロジェクトを資金提供しています」