「PIXART-αに会ってください:画像生成の品質が最先端の画像生成器と競争するTransformerベースのT2I拡散モデル」

「PIXART-αとの対面:最新の画像生成器と競争するTransformerベースのT2l拡散モデルの品質」

テキストから画像への変換(T2I)生成モデルであるDALLE 2、Imagen、Stable Diffusionの開発により、フォトリアルな画像合成の新時代が始まりました。これは、写真編集、ビデオ制作、3Dアセットの作成などを含む多くの下流アプリケーションに大きな影響を与えています。ただし、これらの洗練されたモデルは大きな処理能力を要求します。たとえば、SDv1.5のトレーニングには6K A100 GPU日が必要で、コストは約$320,000です。より最新の大きなモデルであるRAPHAELの場合、さらに60K A100 GPU日が必要であり、コストは約$3,080,000です。また、トレーニングにより環境に負荷がかかるため、大量のCO2排出物を生み出します。たとえば、RAPHAELのトレーニングでは35トンのCO2排出物が生じます。これは、図1に示すように、一人が7年間に排出するCO2量と同じです。

図1: T2Iの生産者間でのCO2排出量とトレーニングコストの比較がここで示されています。PIXART-αのトレーニングには驚異的な$26,000がかかります。ただし、私たちのCO2排出量とトレーニング費用はRAPHAELよりもわずかに1.1%と0.85%少ないです。

このような高価格は、研究コミュニティや企業の両方におけるこれらのモデルの入手に大きな制約をもたらし、AIGCコミュニティの重要な進展を大幅に妨げています。このような困難に関して重要な問いが提起されています:リソース使用を管理可能なレベルにおいて、高品質の画像生成器を作成できるのでしょうか?華為ノアズアークラボ、大連理工大学、香港大学、香港科技大学の研究者は、PIXART-αを提案しました。それは、最新の最先端画像生成器と競争力のある画像生成品質を保ちながら、トレーニングの計算要件を劇的に低減します。それには、次の3つの主な設計が含まれます:

  1. 自然画像のピクセルの分布を学習すること
  2. テキストと画像の整合性を学習すること
  3. 画像の美的魅力を向上させること

彼らは、最初のサブタスクであるピクセルの分布の学習コストを著しく低減するために、T2Iモデルを低コストのクラス条件モデルで初期化することを提案しています。彼らは、2番目と3番目のサブタスクのための事前トレーニングと微調整で構成されるトレーニングパラダイムを提供します。高い情報密度を持つテキスト-イメージペアデータでの事前トレーニングに続いて、より美的品質の高いデータでの微調整を行い、トレーニングの効果を高めます。その他、T2Iトランスフォーマーという効率的なモデルの提供。彼らは、テキスト条件を注入するためにクロスアテンションモジュールを使用し、計算の要求が高いクラス条件ブランチの単純化をDiffusion Transformer(DiT)に基づいて行います。さらに、変更したテキストから画像へのモデルにオリジナルのクラス条件モデルのパラメータを直接インポートできる再パラメータ化方法を提案しています。

これにより、T2Iトランスフォーマーには受け入れ可能な初期化が可能になり、トレーニングを加速するためにImageNetの自然な画像分布の過去の知識が活用されます。高品質な情報。彼らの研究では、既存のテキスト-イメージペアデータセットに重要な欠陥があることが明らかになっています(例:LAION)。テキストのキャプションは、非常に低頻度で数多くの名詞が現れる重いロングテール効果や、画像内のオブジェクトの一部しか記述していない情報の欠如などの問題を抱えています。これらの欠点は、T2Iモデルのトレーニングの効果を大幅に低下させ、信頼性のあるテキスト-イメージの整合性を得るために何百万回もの反復が必要とされます。彼らは、これらの問題を克服するために、最も先進的なビジョン言語モデルを使用して自動ラベリングパイプラインを提案しています。

SAMデータセットは大きく多様なオブジェクトのコレクションを持つという利点があり、情報密度の高いテキスト-イメージのペアを生成するための理想的なソースです。彼らの巧妙な機能により、モデルのトレーニングは非常に効率的に行われ、675 A100 GPU日と$26,000のみで済みます。図1は、彼らの手法がImagenよりも少ないトレーニングデータ量(0.2% vs Imagen)とトレーニング時間(2% vs RAPHAEL)を使用し、RAPHAELの1%程度のトレーニング費用($3,080,000の代わりに$26,000)を削減する方法を示しています。

世代品質に関しては、PIXART-αは現在のSOTA T2Iモデル、Stable Diffusionなどよりも優れた画質と意味的整合性を提供することをユーザーリサーチの試験によって示しています。さらに、T2I-CompBenchでの性能は、意味的な制御においてその利点を示しています。彼らは、T2Iモデルを効果的に訓練するための取り組みが、AIGCコミュニティに有益な知見を提供し、より手頃な価格で独立した学者や企業が独自の高品質なT2Iモデルを製造するのに役立つと予想しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

シンガポールがAIワークフォースを3倍に増やす予定

シンガポールは、人工知能の分野に目を向けています。国家AI戦略(NAIS)2.0の発表により、この都市国家は次の3〜5年でAIの労...

AI研究

ETHチューリッヒとマイクロソフトの研究者らが提案したX-Avatarは、人間の体の姿勢と顔の表情をキャプチャできるアニメーション可能な暗黙の人間アバターモデルです

ポーズ、見つめること、表情、手のジェスチャーなど、総称して「ボディランゲージ」と呼ばれるものは、多くの学術的研究の対...

データサイエンス

「データ注釈は機械学習の成功において不可欠な役割を果たす」

「自動車から医療まで、AIの成功におけるデータアノテーションの重要な役割を発見しましょう方法、応用、そして将来のトレン...

データサイエンス

デット (物体検出用トランスフォーマー)

注意:この記事は、コンピュータビジョンの複雑な世界について探求し、特にトランスフォーマーとアテンションメカニズムに焦...

AI研究

アマゾンの研究者がフォーチュナを紹介:ディープラーニングにおける不確実性量子化のためのAIライブラリ

人工知能と機械学習の最近の発展は、皆の生活をより容易にしてくれています。その信じられない能力により、AIとMLはあらゆる...

機械学習

あなたのリスニングプレイリストに追加するためのトップ8のAIポッドキャスト

機械学習と人工知能の急速な進展する世界では、専門家や愛好家にとって最新の開発や見解にアップデートされることは重要です...