「バイトダンスAI研究は、連続および離散パラメータのミックスを使用して、高品質のスタイル化された3Dアバターを作成するための革新的な自己教師あり学習フレームワークを提案しています」
The ByteDance AI research proposes an innovative self-supervised learning framework that uses a mix of continuous and discrete parameters to create high-quality stylized 3D avatars.
デジタルワールドへの重要な入り口は、社交、ショッピング、ゲームなどの活動において現代の生活でより一般的になっており、魅力的でアニメーションのある3Dアバターです。良いアバターは魅力的で、ユーザーの外見に合わせてカスタマイズされるべきです。Zepeto1やReadyPlayer2など、よく知られたアバターシステムは、楽しく使いやすいため、カートゥーン化されたスタイルが採用されています。しかし、通常、アバターを選択し、変更するには、多くのグラフィック要素から手作業で苦労して修正する必要があり、初心者のユーザーにとっては時間がかかり、難しい作業です。この研究では、フロントから撮影された一枚のセルフィーからスタイル化された3Dアバターの自動生成を調査しています。
具体的には、セルフィー画像が与えられた場合、彼らのアルゴリズムはアバターベクトルを予測し、グラフィックエンジンによって3Dアバターを生成し、事前定義された3Dアセットからアバター画像をレンダリングします。アバターベクトルは、事前定義されたアセットに固有のパラメータで構成されており、連続的なもの(例:頭の長さ)または離散的なもの(例:髪の種類)のいずれかである場合があります。単純な解決策は、一連のセルフィー画像に注釈を付け、監督学習を介してアバターベクトルを予測するモデルをトレーニングすることです。しかし、広範なアセット(通常数百)を扱うためには、大規模な注釈が必要です。セルフサプライズアプローチでは、異なる識別と意味セグメンテーションの損失を利用して、グラフィックエンジンのレンダリングを自動的に一致させるためのイミテータを訓練することで、注釈のコストを削減します。
さらに具体的には、セルフィー写真が与えられた場合、彼らのシステムはアバターベクトルを予測し、グラフィックエンジンによって3Dアバターを生成し、指定された3Dアセットからアバター画像をレンダリングします。アバターベクトルを構成する特徴は、プリセットのアセットに固有であり、連続的なもの(例:頭の長さ)または離散的なもの(例:髪の種類)のいずれかである場合があります。単純な方法は、一連のセルフィーに注釈を付け、監督学習を使用してアバターベクトルを予測するモデルを構築することです。しかし、広範なアセット(通常数百)を管理するためには、大規模な注釈が必要です。
- 画像分類において、拡散モデルがGANより優れていることがAI研究で明らかになりましたこの研究では、BigBiGANなどの同等の生成的識別的手法に比べて、拡散モデルが分類タスクにおいて優れた性能を発揮することが示されました
- 「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」
- 新しいAI研究が、大規模言語モデル(LLMs)の能力を分析するためのプロンプト中心のアプローチを提案しています
アバターベクトル変換、セルフサプライズアバターパラメータ化、およびポートレートスタイリゼーションは、彼らの革新的なアーキテクチャの3つのステップを構成しています。図1に示すように、識別情報(ヘアスタイル、肌の色、眼鏡など)はパイプライン全体で保持され、ドメインのギャップは3つの段階を通じて徐々に縮小されます。ポートレートスタイリゼーションステージでは、まず2Dの実写からスタイル化された外観へのドメインクロスオーバーに集中します。このステップでは、入力セルフィーをスタイル化されたアバターとして生成することで、画像空間を維持します。現在のスタイリゼーション技術の粗雑な使用は、表情などの要素を保持し、パイプラインの後続のフェーズを複雑にする可能性があります。
その結果、彼らは表情の均一性を保証しながらユーザーの識別を維持するために、AgileGANの修正バージョンを開発しました。次に、セルフサプライズアバターパラメータ化ステップでは、ピクセルベースの画像からベクトルベースのアバターに移行します。彼らは、強力なパラメータの離散性の強制が収束動作を達成できないことを発見しました。彼らは、離散的なパラメータを連続的なワンホットベクトルとしてエンコードするという寛大な形式を採用し、異なる可能性を訓練できるように、差分可能性を実現するためにイミテータに教えました。アバターベクトル変換ステップでは、すべての離散的なパラメータがワンホットベクトルに変換されます。リラックスしたアバターベクトル空間から厳密なアバターベクトル空間へのドメインクロスが行われます。グラフィックエンジンは最終的なアバターを構築し、厳密なアバターベクトルを使用してそれらをレンダリングすることができます。彼らは、直接量子化よりも優れた結果を出すユニークな検索手法を使用しています。彼らは人間の好みの研究を利用して結果を評価し、F2Pや手作業の作成などのベースライン手法と比較して、彼らの手法が個人のユニークさをどれだけ効果的に保護しているかを確認しています。その結果は、ベースライン手法のスコアよりもかなり高く、手作業の作成とほぼ同等のスコアを達成しています。
彼らはパイプラインの設計決定をサポートするためのアブレーションスタディも提供しています。彼らの技術的貢献は、以下の通りです:
• 連続および離散パラメータの組み合わせを用いた高品質なスタイル化された3Dアバターを生成するための新しい自己教師あり学習フレームワーク
• ポートレートのスタイル化を用いたスタイルドメインの大きなギャップを埋めるための新しい方法によるスタイル化された3Dアバターの作成
• 離散アバターパラメータの最適化における収束問題に対処するためのカスケードリラクゼーションおよび検索パイプライン
彼らのサイトで論文のビデオデモンストレーションを見ることができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 清華大学の研究者たちは、メタラーニングの枠組みの下で新しい機械学習アルゴリズムを紹介しました
- UCサンタクルーズとSamsungの研究者が、ナビゲーションの決定にChatGPTのようなLLM(言語モデル)で共通センスを活用するゼロショットオブジェクトナビゲーションエージェントであるESCを紹介しました
- 新しいAI研究が、転移学習のためのマルチタスクプロンプトチューニング(MPT)を紹介します
- ネゲヴのベン・グリオン大学の研究者たちは、社会的規範の違反を特定するAIシステムを設計しました
- 中国からの新しいAI研究は、機械学習の手法と質問を組み合わせることで、指導者と学生の関係のつながりに新たな次元を明らかにします
- 「人間の知能の解読:スタンフォードの最新のAI研究は、生来の数の感覚は学びのスキルなのか、自然の贈り物なのかを問いかける」
- RLHF(Reinforcement Learning from Human Feedback)において本当に強化学習(RL)は必要ですか?スタンフォード大学の新しい研究では、DPO(Direct Preference Optimization)を提案していますこれは、RLを使用せずに言語モデルを好みに基づいて訓練するためのシンプルなトレーニング方法です