「Google ResearchがMediaPipe FaceStylizerを紹介:少数のショットでの効率的な顔スタイリゼーションのための設計」

Google Research introduces MediaPipe FaceStylizer Efficient design for face stylization with a few shots.

近年、研究者や消費者は、拡張現実(AR)を組み合わせたスマートフォンアプリケーションに対する関心を高めています。これにより、ユーザーはリアルタイムで短いビデオ、VR、ゲームのために顔の特徴を生成し変更することができます。生成的対抗ネットワーク(GAN)アプローチに基づく顔の生成と編集モデルは、優れた品質を維持しながら軽量であるため、人気があります。しかし、ほとんどのGANモデルは、計算の複雑さに厳しい制限があり、膨大なトレーニングデータセットを必要とします。また、GANモデルの倫理的な使用も重要です。

Googleの研究者は、これらのモデルの複雑さとデータ効率性を考慮したfew-shot顔スタイリゼーションの効果的な解決策として、MediaPipe FaceStylizerを開発しました。このモデルでは、GANの逆変換が画像を顔生成器の潜在コーディングに変換します。彼らは、粗いから細かいまでの粒度で高品質の画像を生成するために、顔生成器用のモバイルフレンドリーな合成ネットワークを導入しました。このネットワークには、各生成器レベルで特徴をRGBに変換する補助ヘッドも備えています。さらに、彼らは教師StyleGANモデルから学生ジェネレータを蒸留し、前述の補助ヘッドの損失関数を注意深く設計し、共通のGAN損失関数と組み合わせることで、良好な生成品質を維持する軽量なモデルを作り出しました。MediaPipeは提案されたソリューションへのオープンソースアクセスを提供しています。MediaPipe Model Makerを使用すると、ユーザーはジェネレータを微調整して1つまたは数枚の写真からスタイルを学ぶことができます。MediaPipe FaceStylizerにより、結果のモデルをデバイス上の顔スタイリゼーションアプリケーションに展開することができます。

MediaPipe Faceスタイライザータスクのヘルプを受けて、画像やビデオの中の顔を強化またはゼロから作成することができます。この活動により、幅広い美的オプションを持つ仮想キャラクターが作成されることがあります。

このタスクには、顔生成器と顔エンコーダを含むBlazeFaceStylizerモデルが使用されます。StyleGANモデルファミリーの軽量な実装であるBlazeStyleGANは、与えられた美的に合わせた顔を生成および洗練します。顔エンコーダは、入力写真を顔生成器によって生成された顔と関連付けます。

このプロジェクトの目的は、MediaPipe FaceStylizerモデルを様々なスタイルに合わせて微調整するのに役立つパイプラインを提供することです。研究者は、GANの逆変換エンコーダと効果的な顔生成器モデルを使用して、顔スタイリゼーションパイプラインを構築しました(詳細は以下参照)。エンコーダとジェネレータのパイプラインは、さまざまなスタイルの少数の例でトレーニングすることができます。まず、ユーザーは目的の美意識の代表的なサンプルを1つまたは複数送信します。微調整手順では、エンコーダモジュールは凍結され、ジェネレータのみが調整されます。入力スタイル画像のエンコーディング出力周辺のいくつかの潜在コードをサンプリングしてジェネレータをトレーニングします。その後、共通の美意識のある画像と同じ美意識で顔画像を再構築するために、ジョイント対立損失関数を最適化します。この微調整プロセスにより、MediaPipe FaceStylizerはユーザーの入力に柔軟に対応することができます。この方法では、実際の人間の顔のテスト写真にスタイリゼーションを適用することができます。

Googleの研究チームは、BlazeStyleGANを教師モデルとして広く使用されているStyleGAN2を使って知識蒸留を行いました。さらに、学習プロセスにマルチスケールパーセプチュアル損失を導入することで、モデルがより良い画像を生成するようにトレーニングしました。BlazeStyleGANはMobileStyleGANよりもパラメータが少なく、モデルが簡素化されています。彼らはBlazeStyleGANをいくつかのモバイルデバイスでベンチマークテストし、モバイルGPUでリアルタイム速度で実行できることを示しました。BlazeStyleGANの出力は、教師モデルと非常に近い視覚的品質を持っています。彼らはまた、BlazeStyleGANが教師モデルによって生成されるアーティファクトを減らすことで、一部の状況で視覚的品質を向上させることができると述べています。BlazeStyleGANのFrechet Inception Distance(FID)の結果は、教師のStyleGANの結果と比較可能です。以下に貢献の概要を示します:

  • 研究者は、各生成器レベルで追加のUpToRGBヘッドを追加し、推論中のみ使用することで、モバイルフレンドリーなアーキテクチャを作成しました。
  • 補助ヘッドを使用してマルチスケールのパーセプチュアル損失を計算し、実際の画像に対する対立損失を計算することで、蒸留技術を向上させ、画像生成を改善し、教師モデルのアーティファクトの影響を軽減しました。
  • BlazeStyleGANは、さまざまな人気のあるスマートフォン上でリアルタイムで高品質の画像を生成することができます。

Googleの研究チームは、ほとんどのプレミアムスマートフォンでリアルタイムに高品質な顔写真を生成できる世界初のStyleGANモデル(BlazeStyleGAN)を開発しました。効率的なオンデバイス生成モデルにはまだ多くの探索の余地があります。教師モデルのアーティファクトの影響を軽減するために、StyleGAN合成ネットワークの洗練されたアーキテクチャと蒸留技術の微調整を行いました。BlazeStyleGANは、モデルの複雑さが大幅に削減されたため、モバイルデバイスでリアルタイムのパフォーマンスを実現することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIの力による消費者の支払い行動予測」

「AIが予測能力を活用して消費者の支払行動を理解し、予測する方法を発見し、事業に行動可能な洞察を提供する」

データサイエンス

「最小全域木の理解:グラフ理論の重要な概念」

この記事では、MSTの世界に深く入り込み、その意義、特性、実用的な使い方を探求します

データサイエンス

モデルアーキテクチャのための生成AIに向けて

「Attention is All You Need」というトランスフォーマー革命は、深層学習モデルのアーキテクチャの設計に深い影響を与えまし...

AI研究

新しいAI研究がMONAI Generative Modelsを紹介:研究者や開発者が簡単に生成モデルをトレーニング、評価、展開できるオープンソースプラットフォーム

最新の生成型人工知能の進歩により、医療画像を含む複数の分野で新たな進展がありました。これらの生成モデルは、異常検出、...

コンピュータサイエンス

数千の著者がAI企業に対し、無断での作品利用を停止するよう要請

約8,000人の著者が、OpenAI、Alphabet、Metaなど6つのAI企業のリーダー宛に手紙に署名しました

データサイエンス

マイクロソフトがデータフォーミュレータを導入:データ変換の課題に取り組むためのコンセプト駆動型の可視化作成ツールで、人工知能AIエージェントを活用しています

データの可視化は、データ内のパターン、傾向、洞察を理解するために、データを図形や画像の形式で表示することを指します。...