「バイトダンスAI研究は、連続および離散パラメータのミックスを使用して、高品質のスタイル化された3Dアバターを作成するための革新的な自己教師あり学習フレームワークを提案しています」

The ByteDance AI research proposes an innovative self-supervised learning framework that uses a mix of continuous and discrete parameters to create high-quality stylized 3D avatars.

デジタルワールドへの重要な入り口は、社交、ショッピング、ゲームなどの活動において現代の生活でより一般的になっており、魅力的でアニメーションのある3Dアバターです。良いアバターは魅力的で、ユーザーの外見に合わせてカスタマイズされるべきです。Zepeto1やReadyPlayer2など、よく知られたアバターシステムは、楽しく使いやすいため、カートゥーン化されたスタイルが採用されています。しかし、通常、アバターを選択し、変更するには、多くのグラフィック要素から手作業で苦労して修正する必要があり、初心者のユーザーにとっては時間がかかり、難しい作業です。この研究では、フロントから撮影された一枚のセルフィーからスタイル化された3Dアバターの自動生成を調査しています。

具体的には、セルフィー画像が与えられた場合、彼らのアルゴリズムはアバターベクトルを予測し、グラフィックエンジンによって3Dアバターを生成し、事前定義された3Dアセットからアバター画像をレンダリングします。アバターベクトルは、事前定義されたアセットに固有のパラメータで構成されており、連続的なもの(例:頭の長さ)または離散的なもの(例:髪の種類)のいずれかである場合があります。単純な解決策は、一連のセルフィー画像に注釈を付け、監督学習を介してアバターベクトルを予測するモデルをトレーニングすることです。しかし、広範なアセット(通常数百)を扱うためには、大規模な注釈が必要です。セルフサプライズアプローチでは、異なる識別と意味セグメンテーションの損失を利用して、グラフィックエンジンのレンダリングを自動的に一致させるためのイミテータを訓練することで、注釈のコストを削減します。

さらに具体的には、セルフィー写真が与えられた場合、彼らのシステムはアバターベクトルを予測し、グラフィックエンジンによって3Dアバターを生成し、指定された3Dアセットからアバター画像をレンダリングします。アバターベクトルを構成する特徴は、プリセットのアセットに固有であり、連続的なもの(例:頭の長さ)または離散的なもの(例:髪の種類)のいずれかである場合があります。単純な方法は、一連のセルフィーに注釈を付け、監督学習を使用してアバターベクトルを予測するモデルを構築することです。しかし、広範なアセット(通常数百)を管理するためには、大規模な注釈が必要です。

アバターベクトル変換、セルフサプライズアバターパラメータ化、およびポートレートスタイリゼーションは、彼らの革新的なアーキテクチャの3つのステップを構成しています。図1に示すように、識別情報(ヘアスタイル、肌の色、眼鏡など)はパイプライン全体で保持され、ドメインのギャップは3つの段階を通じて徐々に縮小されます。ポートレートスタイリゼーションステージでは、まず2Dの実写からスタイル化された外観へのドメインクロスオーバーに集中します。このステップでは、入力セルフィーをスタイル化されたアバターとして生成することで、画像空間を維持します。現在のスタイリゼーション技術の粗雑な使用は、表情などの要素を保持し、パイプラインの後続のフェーズを複雑にする可能性があります。

図1

その結果、彼らは表情の均一性を保証しながらユーザーの識別を維持するために、AgileGANの修正バージョンを開発しました。次に、セルフサプライズアバターパラメータ化ステップでは、ピクセルベースの画像からベクトルベースのアバターに移行します。彼らは、強力なパラメータの離散性の強制が収束動作を達成できないことを発見しました。彼らは、離散的なパラメータを連続的なワンホットベクトルとしてエンコードするという寛大な形式を採用し、異なる可能性を訓練できるように、差分可能性を実現するためにイミテータに教えました。アバターベクトル変換ステップでは、すべての離散的なパラメータがワンホットベクトルに変換されます。リラックスしたアバターベクトル空間から厳密なアバターベクトル空間へのドメインクロスが行われます。グラフィックエンジンは最終的なアバターを構築し、厳密なアバターベクトルを使用してそれらをレンダリングすることができます。彼らは、直接量子化よりも優れた結果を出すユニークな検索手法を使用しています。彼らは人間の好みの研究を利用して結果を評価し、F2Pや手作業の作成などのベースライン手法と比較して、彼らの手法が個人のユニークさをどれだけ効果的に保護しているかを確認しています。その結果は、ベースライン手法のスコアよりもかなり高く、手作業の作成とほぼ同等のスコアを達成しています。

彼らはパイプラインの設計決定をサポートするためのアブレーションスタディも提供しています。彼らの技術的貢献は、以下の通りです:

• 連続および離散パラメータの組み合わせを用いた高品質なスタイル化された3Dアバターを生成するための新しい自己教師あり学習フレームワーク

• ポートレートのスタイル化を用いたスタイルドメインの大きなギャップを埋めるための新しい方法によるスタイル化された3Dアバターの作成

• 離散アバターパラメータの最適化における収束問題に対処するためのカスケードリラクゼーションおよび検索パイプライン

彼らのサイトで論文のビデオデモンストレーションを見ることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「浙江大学の研究者がUrbanGIRAFFEを提案し、難しい都市のシーンに対する制御可能な3D認識画像の生成に取り組む」

“` UrbanGIRAFFEは、浙江大学の研究者が提案した写真のようなイメージ合成の手法であり、操作可能なカメラの位置とシー...

機械学習

「Amazon ComprehendのためのPDFの事前ラベル付けを自動化する」

「Amazon Comprehend」はテキストデータから洞察を得るための事前トレーニング済みおよびカスタムAPIを提供する自然言語処理...

データサイエンス

イメージセグメンテーション:詳細ガイド

画像セグメンテーションとは、コンピュータ(またはより正確にはコンピュータに保存されたモデル)が画像を取り込み、画像内...

機械学習

「2023年の最高のAI文法チェッカーツール」

Grammarly  Grammarlyは、人工知能によって強力にサポートされたウェブベースのライティングチューターです。文法、スペル、...

データサイエンス

NumpyとPandasを超えて:知られざるPythonライブラリの潜在能力の解放

Pythonでのデータ操作と計算について話すとき、一般的にはPandasとNumpyを思い浮かべます他にも3つの強力なライブラリを見つ...

AIニュース

人工知能(AI)におけるトップの物体検出アルゴリズムとライブラリ

コンピュータビジョンの科学では、オブジェクトの識別において劇的な変化が最近見られています。これは、研究の難しい領域と...