Appleの研究者がマトリョーシカ拡散モデル(MDM)を紹介する:高解像度の画像とビデオの合成のためのエンドツーエンドの人工知能フレームワーク

Appleの研究者が紹介するマトリョーシカ拡散モデル(MDM):高解像度画像とビデオの合成に向けたエンドツーエンド人工知能フレームワーク

近年、大規模言語モデルは驚くべき能力を示しています。特に、ディフュージョンモデルは3Dモデリングやテキスト生成から画像やビデオ生成まで、さまざまな生成アプリケーションで広く使用されています。これらのモデルはさまざまなタスクに対応していますが、高解像度のデータに取り組む際には重要な困難に直面します。高解像度の入力を全て再エンコードする必要があるため、高解像度へのスケーリングには多くの処理能力とメモリが必要です。

これらの問題を克服するために、注意ブロックを持つ深層アーキテクチャが頻繁に使用されていますが、計算とメモリの要求が増加し、最適化が複雑化します。研究者たちは、高解像度の写真のための効果的なネットワーク設計を開発するための努力を重ねています。現在の手法は、出力の品質においてDALL-E 2やIMAGENなどの標準的な技術に比べて不足しており、512×512の解像度を超える競争力のある結果を示していません。

これらの広く使用されている技術は、多数の独立してトレーニングされたスーパーレゾリューションディフュージョンモデルを低解像度モデルと融合させることで計算を削減しています。一方で、レイテントディフュージョンメソッド(LDM)では、個別にトレーニングされた高解像度オートエンコーダを使用し、低解像度ディフュージョンモデルのみをトレーニングします。両戦略は、マルチステージパイプラインと細心のハイパーパラメータ最適化の使用を必要とします。

最近の研究によれば、Appleの研究チームがエンドツーエンドの高解像度画像およびビデオ合成のために設計されたディフュージョンモデルのファミリーであるマトリョーシカディフュージョンモデル(MDM)を紹介しました。MDMは、低解像度ディフュージョンプロセスを高解像度生成の重要なコンポーネントとして取り入れるという考え方に基づいています。このアプローチは、生成的対抗ネットワーク(GAN)のマルチスケール学習に触発されたものであり、チームはネストされたUNetアーキテクチャを使用して複数解像度にわたる複合ディフュージョンプロセスを実行しました。

このアプローチの主要なコンポーネントのいくつかは以下の通りです。

  1. マルチ解像度ディフュージョンプロセス:MDMは、複数の解像度で一度に入力をノイズ除去するディフュージョンプロセスを含んでおり、異なる詳細レベルの画像を同時に処理および生成することができます。MDMは、ネストされたUNetアーキテクチャを使用しています。
  1. ネストされたUNetアーキテクチャ:ネストされたUNetアーキテクチャでは、小スケールの入力特徴量とパラメータを大スケールの入力特徴量とパラメータにネストさせます。このネスティングにより、情報を効果的にスケール間で共有することができ、細かい特徴を捉えながら計算効率を保つモデルの能力が向上します。
  1. プログレッシブトレーニングプラン:MDMは、より高い解像度に徐々に進化するトレーニングプランを提案しています。このトレーニング方法により、最適化プロセスが向上し、モデルは高解像度コンテンツを生成する方法をより良く学習することができます。

チームは、このアプローチのパフォーマンスと効果を、テキストからビデオへの応用、高解像度テキストから画像の生成、クラス条件付きの画像生成など、さまざまなベンチマークテストによって示しています。MDMは、1024×1024ピクセルの解像度までシングルピクセル空間モデルをトレーニングできることを示しました。これは比較的小さなデータセット(CC12M)で行われた成果であるため、非常に注目に値します。MDMは、特にトレーニングされていない解像度に高品質な情報を生成できる堅牢なゼロショット一般化を示しています。結論として、マトリョーシカディフュージョンモデル(MDM)は、高解像度画像およびビデオ合成の領域での驚異的な進歩を表しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「DeepOntoに会ってください 深層学習を用いたオントロジーエンジニアリングのためのPythonパッケージ」

ディープラーニングの方法論の進歩は、人工知能コミュニティに大きな影響を与えています。優れたイノベーションと開発により...

機械学習

ノースイースタン大学およびMITのこのAIの論文では、拡散モデルにおける画像生成制御のための解釈可能なコンセプトスライダーが開発されています

芸術的なテキストから画像までの拡散モデルの利用者は、通常、生成された画像に表現される視覚的特徴と概念において細かい制...

データサイエンス

なぜディープラーニングは常に配列データ上で行われるのか?新しいAI研究は、データからファンクタまでを一つとして扱う「スペースファンクタ」を紹介しています

暗黙のニューラル表現(INR)またはニューラルフィールドは、3D座標を3D空間の色と密度の値にマッピングすることによって、3D...

AI研究

このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模言語モデル(LLM)の提供を行っています

大規模言語モデル(LLM)は、最近の人工知能コミュニティで最新の導入であり、世界中で大きな話題となっています。これらのモ...

機械学習

LLMWareは、複雑なビジネスドキュメントを含む企業ワークフローに適した、生産用の微調整済みモデルであるRAG-Specialized 7BパラメータLLMを発表しました

先月、Ai BloksはエンタープライズグレードのLLMベースのワークフローアプリケーションを構築するための開発フレームワーク、...