「NTUシンガポールの研究者たちは、テキストから3D生成のための新しいプラグアンドプレイなリファインメントAIメソッドであるIT3Dを提案しています」

NTUシンガポールの研究者は、IT3Dという新しいプラグアンドプレイなリファインメントAIメソッドを提案しています

テキストから画像への領域で注目すべき進歩があり、研究コミュニティ内で3D生成への拡大に対する熱意の急増が起きています。この興奮は、事前学習された2Dテキストから画像への拡散モデルを利用する手法の出現によるものです。

この領域で重要な進展となるのは、Dreamfusionによって行われた創造的な作業です。彼らはスコア蒸留サンプリング(SDS)アルゴリズムという新しい手法を導入しました。この手法は、テキストの指示だけで数多くの異なる3Dオブジェクトを作成できるため、大きな違いをもたらしています。革新的なアプローチであるにもかかわらず、ジオメトリとテクスチャの制御には制約があり、過飽和やモデルの多重顔のような問題がよく発生します。

さらに、研究者は、テキストの指示を強化するだけではモデルをより良くすることはできないと気付いています。

これらの課題に立ち向かうために、研究者たちはこの3D生成のための強化された手法を導入しました。この手法は、望ましい3Dモデルの異なる角度から複数の画像を作成し、これらの画像を使用して3Dオブジェクトを再構築することに焦点を当てています。このプロセスは、DreamFusionなどの既存のテキストから3D生成モデルを使用して、オブジェクトの基本的な表現を作成することから始まります。これらの初期モデルを作成することで、オブジェクトの形状と空間内での配置の基本的な理解を得ることができます。その後、この手法は画像から画像への生成プロセスを使用して、ビューの画像を改善します。

IT3Dは、メッシュやNeRFなどの異なる3D出力表現に対する支援を提供し、テキスト入力を使用して3Dモデルの外観を効率的に変更する能力が追加の強みです。上記の画像はIT3Dのパイプラインを示しています。IT3Dは、粗い3Dモデルから始めて、まず画像から画像へのパイプラインを活用して小さなポーズデータセットを生成します。

次に、ランダムに初期化された識別器を組み込み、生成されたデータセットから知識を蒸留し、識別損失とSDS損失を使用して3Dモデルを更新します。

さらに、分析からは、この手法が訓練プロセスを高速化し、必要な訓練ステップを減らし、合計の訓練時間を比較可能にすることが示されます。この手法は、上記の画像からもわかるように、高い分散データセットにも耐えることができます。最後に、経験的な結果は、提案された手法がテクスチャの詳細、ジオメトリ、およびテキストプロンプトと生成された3Dオブジェクトとの忠実度の点でベースラインモデルを大幅に改善することを示しています。

この技術は、テキストから3D生成に関する新しい視点を提供し、GANと拡散事前学習を組み合わせた最初の研究作業となりました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

エイントホーフェンとノースウェスタン大学の研究者が、外部のトレーニングを必要としないオンチップ学習が可能な新しいニューロモーフィックバイオセンサーを開発しました

ニューロモーフィックコンピューティングは、人間の脳の構造と機能に触発されています。ニューロモーフィックチップは、物理...

AIニュース

「Amazon SageMaker StudioでAmazon SageMaker JumpStartを使用して安定したDiffusion XLを利用する」

「今日、私たちはお知らせすることを喜んでいますStable Diffusion XL 1.0(SDXL 1.0)がAmazon SageMaker JumpStartを通じて...

AI研究

アムステルダム大学とクアルコムAIの研究者がVeRAを発表:LoRAと比べて訓練可能なパラメーターの数を10倍削減する革新的なファインチューニングAI手法

自然言語処理の応用範囲の拡大に伴い、最小限の計算複雑性とメモリ要件で特定の指示を効果的に理解し行動するモデルへの需要...

機械学習

このAIの論文は、純粋なゼロショットの設定で、タスクの適応と未知のタスクや環境への一般化に優れたCLIN(Continuous Learning Language Agent)を紹介しています

人工知能の持続的な進化により、繊細な言語ベースのエージェントが複雑なタスクを訓練や明示的なデモなしで実行できるように...

AI研究

マイクロソフトリサーチとジョージア工科大学の研究者が、言語モデルの幻覚の統計的な境界を公表しました

最近、言語モデルで浮かび上がった主要な問題の一つは、言語モデル(LM)が存在しない記事タイトルへの言及を含む誤った情報...