「Transformerベースの拡散モデルによる画像生成の革新的なアーキテクチャイノベーションを実現するDiffusion Transformers(DiTs)」

Diffusion Transformers (DiTs) realize innovative architecture innovation in image generation using a Transformer-based diffusion model.

機械学習の領域は、トランスフォーマーベースのアーキテクチャの出現により、自然言語処理、コンピュータビジョンなどの各種タスクを革新的に変革しました。しかし、画像レベルの生成モデルである拡散モデルには、依然として注目すべきギャップが存在し、これらのモデルは主に畳み込みU-Netアーキテクチャに従っています。

他のドメインがトランスフォーマーを採用しているのに対し、拡散モデルはまだこれらの強力なアーキテクチャを統合していません。この問題に取り組むため、ニューヨーク大学の研究者はDiffusion Transformers(DiTs)という革新的なアプローチを導入しており、従来のU-Netバックボーンをトランスフォーマーの機能で置き換えることで、拡散モデルのアーキテクチャにおける既存の慣習に挑戦しています。

現在、拡散モデルは洗練された画像レベルの生成モデルとなっていますが、依然として畳み込みU-Netに依存しています。この研究では、Vision Transformers(ViTs)の原則に基づき、拡散モデルにトランスフォーマーを統合するという画期的なコンセプトを紹介しています。この移行により、U-Netデザインの制約を超えた構造変換が推進され、拡散モデルがより広範なアーキテクチャのトレンドに合致し、拡張性、堅牢性、効率性を向上させることが可能になりました。

DiTsはVision Transformers(ViTs)アーキテクチャに基づいており、拡散モデルの設計に新たなパラダイムを提供しています。このアーキテクチャには、空間入力をトークンシーケンスに変換する「パッチ」というキーコンポーネントが含まれています。DiT-SからDiT-XLまでのさまざまなモデルサイズとともに、条件付き情報を処理するDiTブロックのバリアント、および「インコンテキストコンディショニング」、「クロスアテンションブロック」、「適応的レイヤーノルム(adaLN)ブロック」、「adaLNゼロブロック」も含まれています。これらのブロックデザインとモデルサイズのバリエーションは、強力な拡散モデルの設計に対する柔軟なツールキットを構成しています。

https://arxiv.org/abs/2212.09748

実験フェーズでは、さまざまなDiTブロックデザインのパフォーマンスを評価しています。異なるブロックデザインを採用した4つのDiT-XL/2モデルが訓練され、FIDスコアを基準としてadaLN-zeroブロックデザインの一貫した優越性が示され、その計算効率性と条件付けメカニズムのモデル品質への重要な役割が示されました。この発見は、adaLN-zeroの初期化方法の効果を強調し、さらなるDiTモデルの探索におけるadaLN-zeroブロックの採用に影響を与えました。

https://arxiv.org/abs/2212.09748

さらなる探索では、モデルサイズとパッチサイズを操作してDiT構成をスケーリングします。視覚化により、計算能力の拡張によって達成された画質の大幅な向上が示されます。この拡張は、トランスフォーマーの次元を拡張するか、入力トークンを増やすことによって実行することができます。モデルのGflopsとFID-50Kスコアのロバストな相関関係は、計算リソースがDiTのパフォーマンス向上において重要であることを強調しています。ImageNetデータセットの256×256および512×512の解像度で既存の拡散モデルに対してDiTモデルをベンチマークテストすることにより、説得力のある結果が明らかになりました。DiT-XL/2モデルは、両方の解像度のFID-50Kスコアで既存の拡散モデルを一貫して上回り、その堅牢なパフォーマンスは、DiTモデルがさまざまなスケールでの拡張性と柔軟性を持っていることを強調しています。さらに、この研究はDiT-XL/2モデルの固有の計算効率性を強調し、現実世界のアプリケーションにおける実用的な適用性を示しています。

結論として、Diffusion Transformers(DiTs)を導入することは、生成モデルの革新的な時代を告げるものです。トランスフォーマーの力を拡散モデルと融合することにより、DiTsは従来のアーキテクチャの常識に挑戦し、研究と実世界の応用において有望な道を提供します。包括的な実験と結果は、DiTsが画像生成の領域を前進させる潜在能力を強調し、先駆的なアーキテクチャのイノベーションとしての位置を明確にします。DiTsが画像生成の領域を再構築し続ける中で、トランスフォーマーとの統合は、異なるモデルアーキテクチャを統一し、さまざまなドメインでのパフォーマンス向上に向けた注目すべき一歩となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

フィールドからフォークへ:スタートアップが食品業界にAIのスモーガスボードを提供

それは魔法のように機能しました。データセンターで実行されているコンピュータービジョンアルゴリズムが、インドの遠い小麦...

データサイエンス

「木々の中の森を見る:データ保存は鋭い目から始まる」

「成功したデータ保存戦略の開始は、細心の観察と詳細への確固たる焦点にかかっています」

機械学習

「OpenAIは、パーソナライズされたAIインタラクションのためのChatGPTのカスタムインストラクションを開始」

OpenAIは、AI言語モデルChatGPTのユーザーコントロールを向上させるために、新しい機能「カスタムインストラクション」を導入...

機械学習

AI医療診断はどのように動作しますか?

医療分野では、人工知能(AI)が診断や治療計画においてますます頻繁に使用されるようになっています。近年、AIと機械学習は...

AIニュース

AIと自動化

「AIと自動化技術が優れたリターンを提供する一方で、関連するリスクを理解し最小化するために慎重に取り組む必要がある方法...

機械学習

「IoT企業のインテリジェントビデオアナリティクスプラットフォームを搭載したAIがベンガルール空港に到着」

毎年、約3200万人がベンガルール空港、またはBLRを通過し、世界で最も人口の多い国の中で最も忙しい空港の一つです。 このよ...