「DifFaceに会ってください:盲目の顔の修復のための新しい深層学習拡散モデル」

DifFace 新しい深層学習拡散モデル、盲目の顔の修復のために

非常に古い写真を見ると、最近のカメラで撮影された写真とは明らかに異なることがわかります。ぼやけたりピクセル化された写真は以前はかなり一般的でした。写真の品質の理想が詳細、定義、鮮明さに関連していることから、古い写真がこれらの品質基準を提供できないのは簡単に理解できます。実際、古いカメラと最近のカメラで撮影された画像の大きな違いに気付きます。しかし、このような問題は最近の写真でも頻繁に発生します。それはカメラのシャッターや環境設定に依存することが多いからです。

もし、あなたがぼやけたポートレートを持っていたり、撮影したことがあって、その詳細がかなり見分けにくい場合はどうなるでしょうか?ぼやけた写真を鮮明で高解像度かつ詳細な写真に変換することが可能かどうか、そして可能な場合はその方法について考えたことはありますか?

これが必要なのは、盲目的な顔の復元(BFR)です。これは、劣化(例えばノイズやぼやけ)または低品質の入力画像から、人の顔の明確で忠実な画像を再構築するタスクを指します。この難しい問題は、監視、生体認証、ソーシャルメディアなど、さまざまな実用的なアプリケーションで広範な関心を集めています。

近年、深層学習手法が盲目的な顔の復元において有望なアプローチとして登場しました。これらの手法は、人工ニューラルネットワークに基づいており、手作りの特徴量や劣化プロセスの明示的なモデリングを必要とせずに、さまざまなベンチマークで印象的な結果を示すことができます。

これらの手法は、復元の品質を向上させるために多くの複雑な指標、数式、およびパラメータに焦点を当てています。L1学習損失は、忠実性を確保するために一般的に使用されます。最近のBFR手法では、より現実的な結果を得るために敵対的損失と知覚損失が導入されています。他のいくつかの既存の手法では、顔の特定の事前条件(顔のランドマーク、顔の部品、生成事前条件など)も利用しています。これらの制約をすべて考慮することは、訓練を不必要に複雑にし、これらの制約の間でトレードオフを実現するために煩雑なハイパーパラメータの調整を必要とすることがしばしばあります。さらに、敵対的損失の悪名高い不安定性は、訓練をより困難にします。

これらの問題を克服するために、DifFaceという新しい手法が開発されました。この手法は、複雑な劣化に対して、状態の設計が複雑でないため、最先端の手法よりも優雅に対処することができます。その主な鍵は、低品質(LQ)画像から高品質(HQ)画像への事後分布です。具体的には、LQ画像から事前訓練された拡散モデルの中間状態に対する遷移分布を利用し、この中間状態からHQターゲットに対して事前訓練された拡散モデルを再帰的に適用して徐々に伝達します。

下の図は、提案されたフレームワークを示しています。

推論には、LQ画像y0から中間拡散変数xN(N<T)が関与します。この中間状態は、いわゆる拡散推定器を介して得られます。これは、入力画像y0から拡散ステップxNを推定するために開発されたニューラルネットワークアーキテクチャを表します。この中間状態から、望ましいx0が推論されます。これにより、いくつかの利点がもたらされます。まず第一に、xTからx0までの完全な逆拡散プロセスよりも効率的です。なぜなら、事前訓練された拡散モデル(xNからx0へ)を利用できるからです。第二に、ゼロから拡散モデルを再訓練する必要はありません。さらに、この手法は訓練に複数の制約を必要とせず、未知の複雑な劣化に対処することができます。

DifFaceとその他の最新手法の結果と比較は、以下の図に示されています。

生成された画像の詳細を見ると、DifFaceは最新の技術を凌駕し、低品質、ぼやけた、劣化した入力画像から高品質で詳細な鮮明な画像を生成することが明らかです。

これは、Blind Face Restorationの問題を解決するための新しいフレームワークであるDifFaceの概要でした。興味がある場合は、以下のリンクで詳細情報を見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

この人工知能論文は、画像認識における差分プライバシーの高度な手法を提案し、より高い精度をもたらします

機械学習は、近年のパフォーマンスにより、さまざまな領域で大幅に増加しました。現代のコンピュータの計算能力とグラフィッ...

人工知能

ウェブコンテンツの選択肢と制御を進化させるための原則に基づいたアプローチ

私たちは、Webパブリッシャーの選択肢とコントロールを提供するための新しい機械可読手段の開発に向けて、WebおよびAIコミュ...

データサイエンス

「PyTorchでのSoft Nearest Neighbor Lossの実装方法」

表現学習は、深層ニューラルネットワークによって与えられたデータセット内の最も顕著な特徴を学習するタスクです通常は教師...

データサイエンス

「AIアシスタントと共に気候変動に備える」

この記事では、優れたProbable Futures APIと新しいOpenAI Assistants APIからの気候変動データを使用して、対話型AIエージェ...

データサイエンス

「ベクターデータベースを使用してLLMアプリを作成する方法」

イントロダクション 人工知能の領域では、OpenAIのGPT-4、AnthropicのClaude 2、MetaのLlama、Falcon、GoogleのPalmなど、Lar...

AIニュース

「OpenAIがGPT-6およびGPT-7の立ち上げ準備を進める:中国で商標申請」

人工知能(AI)の推進に対するコミットメントを示す戦略的な動きとして、OpenAIは最近、中国でGPT-6とGPT-7の商標を申請しま...