「Google ResearchがMediaPipe FaceStylizerを紹介:少数のショットでの効率的な顔スタイリゼーションのための設計」

Google Research introduces MediaPipe FaceStylizer Efficient design for face stylization with a few shots.

近年、研究者や消費者は、拡張現実(AR)を組み合わせたスマートフォンアプリケーションに対する関心を高めています。これにより、ユーザーはリアルタイムで短いビデオ、VR、ゲームのために顔の特徴を生成し変更することができます。生成的対抗ネットワーク(GAN)アプローチに基づく顔の生成と編集モデルは、優れた品質を維持しながら軽量であるため、人気があります。しかし、ほとんどのGANモデルは、計算の複雑さに厳しい制限があり、膨大なトレーニングデータセットを必要とします。また、GANモデルの倫理的な使用も重要です。

Googleの研究者は、これらのモデルの複雑さとデータ効率性を考慮したfew-shot顔スタイリゼーションの効果的な解決策として、MediaPipe FaceStylizerを開発しました。このモデルでは、GANの逆変換が画像を顔生成器の潜在コーディングに変換します。彼らは、粗いから細かいまでの粒度で高品質の画像を生成するために、顔生成器用のモバイルフレンドリーな合成ネットワークを導入しました。このネットワークには、各生成器レベルで特徴をRGBに変換する補助ヘッドも備えています。さらに、彼らは教師StyleGANモデルから学生ジェネレータを蒸留し、前述の補助ヘッドの損失関数を注意深く設計し、共通のGAN損失関数と組み合わせることで、良好な生成品質を維持する軽量なモデルを作り出しました。MediaPipeは提案されたソリューションへのオープンソースアクセスを提供しています。MediaPipe Model Makerを使用すると、ユーザーはジェネレータを微調整して1つまたは数枚の写真からスタイルを学ぶことができます。MediaPipe FaceStylizerにより、結果のモデルをデバイス上の顔スタイリゼーションアプリケーションに展開することができます。

MediaPipe Faceスタイライザータスクのヘルプを受けて、画像やビデオの中の顔を強化またはゼロから作成することができます。この活動により、幅広い美的オプションを持つ仮想キャラクターが作成されることがあります。

このタスクには、顔生成器と顔エンコーダを含むBlazeFaceStylizerモデルが使用されます。StyleGANモデルファミリーの軽量な実装であるBlazeStyleGANは、与えられた美的に合わせた顔を生成および洗練します。顔エンコーダは、入力写真を顔生成器によって生成された顔と関連付けます。

このプロジェクトの目的は、MediaPipe FaceStylizerモデルを様々なスタイルに合わせて微調整するのに役立つパイプラインを提供することです。研究者は、GANの逆変換エンコーダと効果的な顔生成器モデルを使用して、顔スタイリゼーションパイプラインを構築しました(詳細は以下参照)。エンコーダとジェネレータのパイプラインは、さまざまなスタイルの少数の例でトレーニングすることができます。まず、ユーザーは目的の美意識の代表的なサンプルを1つまたは複数送信します。微調整手順では、エンコーダモジュールは凍結され、ジェネレータのみが調整されます。入力スタイル画像のエンコーディング出力周辺のいくつかの潜在コードをサンプリングしてジェネレータをトレーニングします。その後、共通の美意識のある画像と同じ美意識で顔画像を再構築するために、ジョイント対立損失関数を最適化します。この微調整プロセスにより、MediaPipe FaceStylizerはユーザーの入力に柔軟に対応することができます。この方法では、実際の人間の顔のテスト写真にスタイリゼーションを適用することができます。

Googleの研究チームは、BlazeStyleGANを教師モデルとして広く使用されているStyleGAN2を使って知識蒸留を行いました。さらに、学習プロセスにマルチスケールパーセプチュアル損失を導入することで、モデルがより良い画像を生成するようにトレーニングしました。BlazeStyleGANはMobileStyleGANよりもパラメータが少なく、モデルが簡素化されています。彼らはBlazeStyleGANをいくつかのモバイルデバイスでベンチマークテストし、モバイルGPUでリアルタイム速度で実行できることを示しました。BlazeStyleGANの出力は、教師モデルと非常に近い視覚的品質を持っています。彼らはまた、BlazeStyleGANが教師モデルによって生成されるアーティファクトを減らすことで、一部の状況で視覚的品質を向上させることができると述べています。BlazeStyleGANのFrechet Inception Distance(FID)の結果は、教師のStyleGANの結果と比較可能です。以下に貢献の概要を示します:

  • 研究者は、各生成器レベルで追加のUpToRGBヘッドを追加し、推論中のみ使用することで、モバイルフレンドリーなアーキテクチャを作成しました。
  • 補助ヘッドを使用してマルチスケールのパーセプチュアル損失を計算し、実際の画像に対する対立損失を計算することで、蒸留技術を向上させ、画像生成を改善し、教師モデルのアーティファクトの影響を軽減しました。
  • BlazeStyleGANは、さまざまな人気のあるスマートフォン上でリアルタイムで高品質の画像を生成することができます。

Googleの研究チームは、ほとんどのプレミアムスマートフォンでリアルタイムに高品質な顔写真を生成できる世界初のStyleGANモデル(BlazeStyleGAN)を開発しました。効率的なオンデバイス生成モデルにはまだ多くの探索の余地があります。教師モデルのアーティファクトの影響を軽減するために、StyleGAN合成ネットワークの洗練されたアーキテクチャと蒸留技術の微調整を行いました。BlazeStyleGANは、モデルの複雑さが大幅に削減されたため、モバイルデバイスでリアルタイムのパフォーマンスを実現することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

『circ2CBAを紹介 circRNA-RBP結合サイトの予測を革新する新しい深層学習モデル』

最近、中国の研究チームが、circular RNAs(circRNAs)とRNA-binding proteins(RBPs)の結合部位の予測を革新すると約束する...

機械学習

テンセントAIラボは、進行的条件拡散モデル(PCDM)を紹介しましたこれにより、3つのステージを経て、ターゲットおよびソースのポーズ下のパーソンイメージ間のギャップを徐々に縮めます

ポーズガイドの人物画像合成の研究では、同じ外観を持つ人物の画像を異なるポーズで生成することに重点を置き、近年、大きな...

AI研究

ETHチューリッヒの研究者が、大規模な言語モデル(LLM)のプロンプティング能力を向上させるマシンラーニングフレームワークであるGoT(Graph of Thoughts)を紹介しました

人工知能(AI)は、大規模言語モデル(LLM)の使用が増えています。特に、Transformerアーキテクチャのデコーダーのみの設計...

AIニュース

「AIのアプローチにより、『運動能力の高い知能を持つ』ロボット犬が生み出されました」

国際チームの研究者たちは、障害物を自律的かつ機敏に乗り越えるためのビジョンベースのアルゴリズムを開発しましたこれによ...

AI研究

「スタンフォード大学の研究者が言語モデルの事実性において革新を成し遂げました:自動的な優先順位付けとNLPの進歩によるエラー削減」

スタンフォード大学とUNCチャペルヒルの研究者は、LLMsが生成する事実に反する主張である幻覚として知られる問題に取り組んで...

機械学習

あちこち行って… RAPIDSの物語

このブログ投稿では、RapidsAI cuDFを使用して、十分なデータを取得するための課題と、バイアスがかかったデータセットによっ...