「バイトダンスAI研究は、連続および離散パラメータのミックスを使用して、高品質のスタイル化された3Dアバターを作成するための革新的な自己教師あり学習フレームワークを提案しています」

The ByteDance AI research proposes an innovative self-supervised learning framework that uses a mix of continuous and discrete parameters to create high-quality stylized 3D avatars.

デジタルワールドへの重要な入り口は、社交、ショッピング、ゲームなどの活動において現代の生活でより一般的になっており、魅力的でアニメーションのある3Dアバターです。良いアバターは魅力的で、ユーザーの外見に合わせてカスタマイズされるべきです。Zepeto1やReadyPlayer2など、よく知られたアバターシステムは、楽しく使いやすいため、カートゥーン化されたスタイルが採用されています。しかし、通常、アバターを選択し、変更するには、多くのグラフィック要素から手作業で苦労して修正する必要があり、初心者のユーザーにとっては時間がかかり、難しい作業です。この研究では、フロントから撮影された一枚のセルフィーからスタイル化された3Dアバターの自動生成を調査しています。

具体的には、セルフィー画像が与えられた場合、彼らのアルゴリズムはアバターベクトルを予測し、グラフィックエンジンによって3Dアバターを生成し、事前定義された3Dアセットからアバター画像をレンダリングします。アバターベクトルは、事前定義されたアセットに固有のパラメータで構成されており、連続的なもの(例:頭の長さ)または離散的なもの(例:髪の種類)のいずれかである場合があります。単純な解決策は、一連のセルフィー画像に注釈を付け、監督学習を介してアバターベクトルを予測するモデルをトレーニングすることです。しかし、広範なアセット(通常数百)を扱うためには、大規模な注釈が必要です。セルフサプライズアプローチでは、異なる識別と意味セグメンテーションの損失を利用して、グラフィックエンジンのレンダリングを自動的に一致させるためのイミテータを訓練することで、注釈のコストを削減します。

さらに具体的には、セルフィー写真が与えられた場合、彼らのシステムはアバターベクトルを予測し、グラフィックエンジンによって3Dアバターを生成し、指定された3Dアセットからアバター画像をレンダリングします。アバターベクトルを構成する特徴は、プリセットのアセットに固有であり、連続的なもの(例:頭の長さ)または離散的なもの(例:髪の種類)のいずれかである場合があります。単純な方法は、一連のセルフィーに注釈を付け、監督学習を使用してアバターベクトルを予測するモデルを構築することです。しかし、広範なアセット(通常数百)を管理するためには、大規模な注釈が必要です。

アバターベクトル変換、セルフサプライズアバターパラメータ化、およびポートレートスタイリゼーションは、彼らの革新的なアーキテクチャの3つのステップを構成しています。図1に示すように、識別情報(ヘアスタイル、肌の色、眼鏡など)はパイプライン全体で保持され、ドメインのギャップは3つの段階を通じて徐々に縮小されます。ポートレートスタイリゼーションステージでは、まず2Dの実写からスタイル化された外観へのドメインクロスオーバーに集中します。このステップでは、入力セルフィーをスタイル化されたアバターとして生成することで、画像空間を維持します。現在のスタイリゼーション技術の粗雑な使用は、表情などの要素を保持し、パイプラインの後続のフェーズを複雑にする可能性があります。

図1

その結果、彼らは表情の均一性を保証しながらユーザーの識別を維持するために、AgileGANの修正バージョンを開発しました。次に、セルフサプライズアバターパラメータ化ステップでは、ピクセルベースの画像からベクトルベースのアバターに移行します。彼らは、強力なパラメータの離散性の強制が収束動作を達成できないことを発見しました。彼らは、離散的なパラメータを連続的なワンホットベクトルとしてエンコードするという寛大な形式を採用し、異なる可能性を訓練できるように、差分可能性を実現するためにイミテータに教えました。アバターベクトル変換ステップでは、すべての離散的なパラメータがワンホットベクトルに変換されます。リラックスしたアバターベクトル空間から厳密なアバターベクトル空間へのドメインクロスが行われます。グラフィックエンジンは最終的なアバターを構築し、厳密なアバターベクトルを使用してそれらをレンダリングすることができます。彼らは、直接量子化よりも優れた結果を出すユニークな検索手法を使用しています。彼らは人間の好みの研究を利用して結果を評価し、F2Pや手作業の作成などのベースライン手法と比較して、彼らの手法が個人のユニークさをどれだけ効果的に保護しているかを確認しています。その結果は、ベースライン手法のスコアよりもかなり高く、手作業の作成とほぼ同等のスコアを達成しています。

彼らはパイプラインの設計決定をサポートするためのアブレーションスタディも提供しています。彼らの技術的貢献は、以下の通りです:

• 連続および離散パラメータの組み合わせを用いた高品質なスタイル化された3Dアバターを生成するための新しい自己教師あり学習フレームワーク

• ポートレートのスタイル化を用いたスタイルドメインの大きなギャップを埋めるための新しい方法によるスタイル化された3Dアバターの作成

• 離散アバターパラメータの最適化における収束問題に対処するためのカスケードリラクゼーションおよび検索パイプライン

彼らのサイトで論文のビデオデモンストレーションを見ることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「チャットボットの台頭:バカな機械からクリエイティブな共同作業者へ」

2023年は私たちにとって画期的な年となりましたロボットとのコミュニケーション、創造性、チームワーク、さらには操作術をマ...

AI研究

コーネル大学の研究者たちは、不連続処理を伴う量子化(QuIP)を導入しましたこれは、量子化が不連続な重みとヘシアン行列から利益を得るという洞察に基づく新しいAIの手法です

大規模言語モデル(LLM)によって、テキスト作成、フューショット学習、推論、タンパク質配列モデリングなどの領域で改善が可...

AI研究

「NTUシンガポールの研究者たちは、テキストから3D生成のための新しいプラグアンドプレイなリファインメントAIメソッドであるIT3Dを提案しています」

テキストから画像への領域で注目すべき進歩があり、研究コミュニティ内で3D生成への拡大に対する熱意の急増が起きています。...

機械学習

自然言語処理における転移学習:テキスト分類のための事前学習済みモデルの活用

この記事では、転移学習の概念について説明し、いくつかの人気のある事前学習済みモデルを探求し、テキスト分類に使用する方...

機械学習

「スロープ・トランスフォーマーに出会ってください:銀行の言語を理解するために特別に訓練された大規模な言語モデル(LLM)」

支払いにおいて、トランザクションの理解は事業のリスク評価において重要です。しかし、乱雑な銀行の取引データの解読は課題...

AI研究

「スピーチの回復を革新する:スタンフォード主導の研究が制約のないコミュニケーションのための高性能な神経プロステーシスを公開」

脳コンピュータインタフェース(BCI)を用いた音声は、障害によりコミュニケーション能力を失った人々のリハビリに有望な応用...