「Google ResearchがMediaPipe FaceStylizerを紹介:少数のショットでの効率的な顔スタイリゼーションのための設計」
Google Research introduces MediaPipe FaceStylizer Efficient design for face stylization with a few shots.
近年、研究者や消費者は、拡張現実(AR)を組み合わせたスマートフォンアプリケーションに対する関心を高めています。これにより、ユーザーはリアルタイムで短いビデオ、VR、ゲームのために顔の特徴を生成し変更することができます。生成的対抗ネットワーク(GAN)アプローチに基づく顔の生成と編集モデルは、優れた品質を維持しながら軽量であるため、人気があります。しかし、ほとんどのGANモデルは、計算の複雑さに厳しい制限があり、膨大なトレーニングデータセットを必要とします。また、GANモデルの倫理的な使用も重要です。
Googleの研究者は、これらのモデルの複雑さとデータ効率性を考慮したfew-shot顔スタイリゼーションの効果的な解決策として、MediaPipe FaceStylizerを開発しました。このモデルでは、GANの逆変換が画像を顔生成器の潜在コーディングに変換します。彼らは、粗いから細かいまでの粒度で高品質の画像を生成するために、顔生成器用のモバイルフレンドリーな合成ネットワークを導入しました。このネットワークには、各生成器レベルで特徴をRGBに変換する補助ヘッドも備えています。さらに、彼らは教師StyleGANモデルから学生ジェネレータを蒸留し、前述の補助ヘッドの損失関数を注意深く設計し、共通のGAN損失関数と組み合わせることで、良好な生成品質を維持する軽量なモデルを作り出しました。MediaPipeは提案されたソリューションへのオープンソースアクセスを提供しています。MediaPipe Model Makerを使用すると、ユーザーはジェネレータを微調整して1つまたは数枚の写真からスタイルを学ぶことができます。MediaPipe FaceStylizerにより、結果のモデルをデバイス上の顔スタイリゼーションアプリケーションに展開することができます。
MediaPipe Faceスタイライザータスクのヘルプを受けて、画像やビデオの中の顔を強化またはゼロから作成することができます。この活動により、幅広い美的オプションを持つ仮想キャラクターが作成されることがあります。
- 「韓国のAI研究がマギキャプチャを紹介:主題とスタイルの概念を統合して高解像度のポートレート画像を生成するための個人化手法」
- 「MITの学者たちは、生成型AIの社会的な影響を探るためのシードグラントを授与されました」
- 「タンパク質設計の次は何か?マイクロソフトの研究者がエボディフ:シーケンスファーストのタンパク質エンジニアリングのための画期的なAIフレームワークを紹介」
このタスクには、顔生成器と顔エンコーダを含むBlazeFaceStylizerモデルが使用されます。StyleGANモデルファミリーの軽量な実装であるBlazeStyleGANは、与えられた美的に合わせた顔を生成および洗練します。顔エンコーダは、入力写真を顔生成器によって生成された顔と関連付けます。
このプロジェクトの目的は、MediaPipe FaceStylizerモデルを様々なスタイルに合わせて微調整するのに役立つパイプラインを提供することです。研究者は、GANの逆変換エンコーダと効果的な顔生成器モデルを使用して、顔スタイリゼーションパイプラインを構築しました(詳細は以下参照)。エンコーダとジェネレータのパイプラインは、さまざまなスタイルの少数の例でトレーニングすることができます。まず、ユーザーは目的の美意識の代表的なサンプルを1つまたは複数送信します。微調整手順では、エンコーダモジュールは凍結され、ジェネレータのみが調整されます。入力スタイル画像のエンコーディング出力周辺のいくつかの潜在コードをサンプリングしてジェネレータをトレーニングします。その後、共通の美意識のある画像と同じ美意識で顔画像を再構築するために、ジョイント対立損失関数を最適化します。この微調整プロセスにより、MediaPipe FaceStylizerはユーザーの入力に柔軟に対応することができます。この方法では、実際の人間の顔のテスト写真にスタイリゼーションを適用することができます。
Googleの研究チームは、BlazeStyleGANを教師モデルとして広く使用されているStyleGAN2を使って知識蒸留を行いました。さらに、学習プロセスにマルチスケールパーセプチュアル損失を導入することで、モデルがより良い画像を生成するようにトレーニングしました。BlazeStyleGANはMobileStyleGANよりもパラメータが少なく、モデルが簡素化されています。彼らはBlazeStyleGANをいくつかのモバイルデバイスでベンチマークテストし、モバイルGPUでリアルタイム速度で実行できることを示しました。BlazeStyleGANの出力は、教師モデルと非常に近い視覚的品質を持っています。彼らはまた、BlazeStyleGANが教師モデルによって生成されるアーティファクトを減らすことで、一部の状況で視覚的品質を向上させることができると述べています。BlazeStyleGANのFrechet Inception Distance(FID)の結果は、教師のStyleGANの結果と比較可能です。以下に貢献の概要を示します:
- 研究者は、各生成器レベルで追加のUpToRGBヘッドを追加し、推論中のみ使用することで、モバイルフレンドリーなアーキテクチャを作成しました。
- 補助ヘッドを使用してマルチスケールのパーセプチュアル損失を計算し、実際の画像に対する対立損失を計算することで、蒸留技術を向上させ、画像生成を改善し、教師モデルのアーティファクトの影響を軽減しました。
- BlazeStyleGANは、さまざまな人気のあるスマートフォン上でリアルタイムで高品質の画像を生成することができます。
Googleの研究チームは、ほとんどのプレミアムスマートフォンでリアルタイムに高品質な顔写真を生成できる世界初のStyleGANモデル(BlazeStyleGAN)を開発しました。効率的なオンデバイス生成モデルにはまだ多くの探索の余地があります。教師モデルのアーティファクトの影響を軽減するために、StyleGAN合成ネットワークの洗練されたアーキテクチャと蒸留技術の微調整を行いました。BlazeStyleGANは、モデルの複雑さが大幅に削減されたため、モバイルデバイスでリアルタイムのパフォーマンスを実現することができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このAI研究は、AstroLLaMAを紹介しますこれは、ArXivからの30万以上の天文学の要約を使用して、LLaMA-2からファインチューンされた7Bパラメーターモデルです
- MITとマイクロソフトの研究者が、DoLaという新しいAIデコーディング戦略を紹介しましたこれは、LLMsにおける幻覚を減らすことを目的としています
- 「AIを活用したツールにより、3Dプリント可能なモデルの個別化が容易になります」
- 中国の研究者がImageBind-LLMを紹介:ImageBindを介した大規模言語モデル(LLM)のマルチモダリティインストラクションチューニング方法
- スタンフォード大学の研究者たちは、「Protpardelle」という画期的な全原子拡散モデルを導入しましたこれは、タンパク質の構造と配列を共同設計するためのものです
- スタンフォード大学の研究者たちは、スペルバーストという大規模言語モデル(LLM)を搭載したクリエイティブコーディング環境を紹介しました
- 「MITの研究者が、デバイス内の意味的セグメンテーションのための新しい軽量マルチスケールアテンションを紹介」