「EditGANを用いた高精度な意味的画像編集」
High-precision semantic image editing using EditGAN
生成対抗的ネットワーク、またはGANは、画像編集業界で新たな応用が広がっています。最近、AI/ML業界でEditGANが人気を集めています。それは高精度かつ高品質な意味論的画像編集の革新的な手法であるためです。
今回はEditGANモデルについて詳しく話し、なぜそれが意味論的画像編集業界における画期的な進歩となる可能性があるのかをご紹介します。
では始めましょう。しかし、EditGANが何であるかを知る前に、EditGANの重要性となぜそれが重要な進歩であるのかを理解することが重要です。
なぜEditGANが必要なのか?
従来のGANアーキテクチャは、AIベースの画像編集業界の進歩に大いなる貢献をしてきましたが、ゼロからGANアーキテクチャを構築する際にはいくつかの大きな課題があります。
- トレーニングフェーズでは、GANアーキテクチャにはセマンティックセグメンテーションアノテーションを含む多くのラベル付きデータが必要です。
- 彼らは高レベルの制御しか提供できません。
- そして、しばしば画像間を前後に補間するだけです。
従来のGANアーキテクチャは作業を完了できますが、広範な展開には効果的ではありません。EditGANが2022年にNVIDIAによって導入されたのは、従来のGANアーキテクチャの効率の低さがその理由です。
EditGANは、高精度かつ高品質な意味論的画像編集のための効果的な手法として提案されています。これにより、ユーザーは画像の高度に詳細なセグメンテーションマスクを変更することで画像を編集することができます。EditGANが画像編集のタスクにおいてスケーラブルな手法である理由の1つは、そのアーキテクチャにあります。
EditGANモデルは、画像とそれらのセマンティックセグメンテーションを共同でモデル化するGANフレームワーク上に構築されており、わずかなラベル付きまたはアノテーション付きのトレーニングデータのみが必要です。EditGANの開発者は、画像をGANの潜在空間に埋め込んで、セグメンテーションの編集に従って条件付き潜在コードの最適化を行うことで、画像を効果的に変更しようと試みています。さらに、最適化を緩和するために、モデルは潜在空間で「編集ベクトル」を見つけることを試みます。
EditGANフレームワークのアーキテクチャにより、モデルは任意の数の編集ベクトルを学習し、高速かつ効率的に他の画像に直接適用することができます。さらに、実験結果は、EditGANが以前に見られなかったレベルの詳細さで画像を編集し、最大限に画像の品質を保持できることを示しています。
EditGANが必要な理由をまとめると、次のようなGANベースの画像編集フレームワークとして初めて提供される特徴があります。
- 非常に高精度な編集。
- わずかなラベル付きデータで作業可能。
- リアルタイムのシナリオで効果的に展開可能。
- 複数の編集を同時に行うための合成性。
- GAN生成、リアル埋め込み、さらにはドメイン外の画像で動作します。
EditGANによる高精度な意味論的画像編集
画像合成のための最先端のGANフレームワークであるStyleGAN2が、EditGANの主要な画像生成コンポーネントです。StyleGAN2フレームワークは、多変量正規分布のプールから引かれた潜在コードを現実的な画像にマッピングします。
StyleGAN2は、最高品質の画像を合成するだけでなく、画像のセマンティックな理解も獲得するようにトレーニングされた深層生成モデルです。
セグメンテーションのトレーニングと推論
EditGANモデルは、最適化とエンコーダを使用して画像をGANの潜在空間に埋め込み、新しい画像でセグメンテーションを実行し、セグメンテーションブランチをトレーニングします。EditGANフレームワークは、以前の作品に基づいて構築を続け、エンコーダをトレーニングして画像を潜在空間に埋め込むことを目的としています。ここでの主な目標は、GANからのサンプルと実際のトレーニングデータを使用して、標準的なピクセル単位のL2損失とLPIPS構造損失を含むエンコーダをトレーニングすることです。さらに、モデルはGANサンプルで作業する際に、潜在コードを明示的に正規化します。
その結果、モデルはセマンティックセグメンテーションでラベル付けされたデータセットからアノテーション付き画像を潜在空間に埋め込み、交差エントロピー損失を使用してジェネレータのセグメンテーションブランチをトレーニングします。
セグメンテーション編集を使用して潜在空間で意味論を見つける
EditGANの主な目的は、意味的なセグメンテーションと画像の結合分布を活用して、高精度の画像編集を行うことです。編集が必要な画像xがあるとしましょう。モデルは画像をEditGANの潜在空間に埋め込むか、モデル自体のサンプル画像を使います。セグメンテーションブランチは、RGB画像とセグメンテーションが同じ潜在コードwを共有しているため、対応するセグメンテーションyを生成します。開発者はその後、ラベリングやデジタルペイントツールを使用してセグメンテーションを修正し、必要に応じて編集を行うことができます。
推論中の編集の異なる方法
最適化を使用して得られた潜在空間の編集ベクトルは、意味的に意味のあるものであり、しばしば異なる属性で分解されます。したがって、新しい画像を編集するために、モデルは画像を直接潜在空間に埋め込み、最適化を再びゼロから行うことなく、モデルが以前に学習した同じ編集操作を直接実行することができます。モデルが学習する編集ベクトルは、最初に画像を編集するために必要だった最適化をアモルタイズしていると言えるでしょう。
開発者はまだ分解が完全ではなく、他の画像に使用すると編集ベクトルが最良の結果を返さないことに注意する必要があります。ただし、テスト時にいくつかの追加の最適化ステップを実行することで、画像の他の部分から編集のアーティファクトを除去することができます。
現在の学習に基づいて、EditGANフレームワークは3つの異なるモードで画像を編集するために使用することができます。
- 編集ベクトルを使用したリアルタイム編集
局所化され、分解されたイメージに対して、モデルは以前に学習した異なるスケールの編集ベクトルを適用して、対話的なレートでイメージを操作します。
- ベクトルベースの編集に対する自己教師付きの改善の使用
画像の一部が他の部分と完全に分解されずに局所化された画像を編集する場合、モデルは以前に学習した編集ベクトルを使用してイメージの編集を初期化し、テスト時にいくつかの追加の最適化ステップを実行することで編集のアーティファクトを除去します。
- 最適化ベースの編集
大規模かつ画像固有の編集を行うには、モデルは最適化を開始から行います。なぜなら、編集ベクトルを他の画像へのこの種の転送に使用することはできないからです。
実装
EditGANフレームワークは、Cars、Birds、Cats、Facesの4つの異なるカテゴリに広がる画像で評価されています。モデルのセグメンテーションブランチは、Cars、Birds、Cats、Facesそれぞれに対して、16、30、30、16のラベル付きトレーニングデータのイメージ-マスクペアを使用してトレーニングされます。画像を最適化だけを使用して編集する場合や、モデルが編集ベクトルを学習しようとしている場合、モデルはAdamオプティマイザを使用して100回の最適化ステップを実行します。
Cat、Car、Facesデータセットでは、モデルは編集機能を実行するためにGANフレームワークのトレーニングに使用されなかったDatasetGANのテストセットの実際の画像を使用します。直ちに、これらの画像は最適化とエンコーディングを使用してEditGANの潜在空間に埋め込まれます。Birdsカテゴリでは、編集はGANで生成された画像上で示されます。
結果
定性的な結果
ドメイン内の結果
上記の画像は、EditGANフレームワークが新しい画像に以前に学習した編集ベクトルを適用し、30回の最適化ステップを使用して画像を洗練する場合のパフォーマンスを示しています。EditGANフレームワークによって実行されるこれらの編集操作は、すべてのクラスに対して分解され、画像の全体的な品質を保持します。EditGANフレームワークの結果を他のフレームワークと比較すると、EditGANフレームワークは高精度で複雑な編集を行いながら、主題のアイデンティティと画像の品質を同時に保持する点で他の手法を凌駕していることがわかります。
驚くべきことに、EditGANフレームワークは、瞳孔を拡張したり、タイヤのホイールスポークを編集するなど、非常に高精度な編集を行うことができます。さらに、EditGANは、わずか数ピクセルしかないオブジェクトの意味的な部分を編集するために使用することもできますし、画像への大規模な変更も行うことができます。EditGANフレームワークのいくつかの編集操作は、GANのトレーニングデータに表示される画像とは異なる操作された画像を生成することができることに注意してください。
ドメイン外の結果
EditGANのドメイン外のパフォーマンスを評価するために、フレームワークはMetFacesデータセットでテストされました。EditGANモデルは、ドメイン内の実際の顔を使用して編集ベクトルを作成します。その後、モデルは100ステップの最適化プロセスを使用してドメイン外のMetFacesポートレートを埋め込み、30ステップの自己教師リファインメントプロセスを介して編集ベクトルを適用します。結果は以下の画像で確認できます。
定量的な結果
EditGANの画像編集能力を定量的に評価するために、モデルは最初にMaskGANによって導入された笑顔編集ベンチマークを使用します。中立的な表情を持つ顔を笑顔の顔に置き換え、パフォーマンスは3つのパラメータで測定されます。
- 意味的な正確さ
モデルは事前にトレーニングされた笑顔属性分類器を使用して、画像中の顔が編集後に笑顔の表情を示しているかどうかを測定します。
- 分布レベルの画像品質
CelebAテストデータセットと400の編集されたテスト画像の間のカーネルインセプション距離(KID)およびフレシェインセプション距離(FID)が計算されます。
- アイデンティティの保存
イメージの編集時にモデルが被写体のアイデンティティを保存する能力は、事前にトレーニングされたArcFace特徴抽出ネットワークを使用して測定されます。
上記のテーブルは、EditGANフレームワークのパフォーマンスを笑顔編集ベンチマークで他のベースラインモデルと比較したものです。EditGANのフレームワークがこれらの高い結果を提供するために使用する手法は、以下の3つの異なるベースラインと比較されます:
- MaskGAN
MaskGANは、笑顔のない画像とそれらのセグメンテーションマスク、および目標の笑顔のセグメンテーションマスクを入力として使用します。EditGANと比較すると、MaskGANフレームワークは大量の注釈付きデータを必要とします。
- ローカル編集
EditGANは、ローカル編集とも比較してパフォーマンスを評価します。ローカル編集は、GANの特徴をクラスタリングして局所的な編集を実装するために使用され、参照画像に依存します。
- InterFaceGAN
EditGANと同様に、InterFaceGANもモデルの潜在空間で編集ベクトルを見つけようとします。しかし、EditGANとは異なり、InterFaceGANモデルは大量の注釈付きデータと補助属性分類器を使用し、細かい編集精度を持ちません。
- StyleGAN2Distillation
この方法は、実際の画像埋め込みを必要とせず、代わりに編集ベクトルモデルを使用してトレーニングデータセットを作成します。
制限事項
EditGANはGANフレームワークに基づいているため、他のどのGANモデルとも同じ制限を持っています:GANでモデル化できる画像のみを処理できます。EditGANがGANでモデル化された画像でのみ動作する制限は、異なるシナリオでのEditGANの実装が困難である主な理由です。ただし、EditGANの高精度な編集は、編集ベクトルを利用することで他の異なる画像に容易に転送できることに注意する価値があります。
結論
画像編集の領域では、GANが業界標準ではない主な理由の1つは、その限られた実用性です。GANフレームワークは通常、大量の注釈付きトレーニングデータを必要とし、高い効率性と精度を返さないことが多いです。
EditGANは、従来のGANフレームワークが提示する問題に取り組み、高品質かつ高精度な意味的な画像編集のための効果的な方法として提供しようとしています。これまでの結果は、EditGANが宣言するものを提供しており、現在の業界標準の実践とモデルよりも優れたパフォーマンスを発揮していることを示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles