「NTUシンガポールの研究者たちは、テキストから3D生成のための新しいプラグアンドプレイなリファインメントAIメソッドであるIT3Dを提案しています」

NTUシンガポールの研究者は、IT3Dという新しいプラグアンドプレイなリファインメントAIメソッドを提案しています

テキストから画像への領域で注目すべき進歩があり、研究コミュニティ内で3D生成への拡大に対する熱意の急増が起きています。この興奮は、事前学習された2Dテキストから画像への拡散モデルを利用する手法の出現によるものです。

この領域で重要な進展となるのは、Dreamfusionによって行われた創造的な作業です。彼らはスコア蒸留サンプリング(SDS)アルゴリズムという新しい手法を導入しました。この手法は、テキストの指示だけで数多くの異なる3Dオブジェクトを作成できるため、大きな違いをもたらしています。革新的なアプローチであるにもかかわらず、ジオメトリとテクスチャの制御には制約があり、過飽和やモデルの多重顔のような問題がよく発生します。

さらに、研究者は、テキストの指示を強化するだけではモデルをより良くすることはできないと気付いています。

これらの課題に立ち向かうために、研究者たちはこの3D生成のための強化された手法を導入しました。この手法は、望ましい3Dモデルの異なる角度から複数の画像を作成し、これらの画像を使用して3Dオブジェクトを再構築することに焦点を当てています。このプロセスは、DreamFusionなどの既存のテキストから3D生成モデルを使用して、オブジェクトの基本的な表現を作成することから始まります。これらの初期モデルを作成することで、オブジェクトの形状と空間内での配置の基本的な理解を得ることができます。その後、この手法は画像から画像への生成プロセスを使用して、ビューの画像を改善します。

IT3Dは、メッシュやNeRFなどの異なる3D出力表現に対する支援を提供し、テキスト入力を使用して3Dモデルの外観を効率的に変更する能力が追加の強みです。上記の画像はIT3Dのパイプラインを示しています。IT3Dは、粗い3Dモデルから始めて、まず画像から画像へのパイプラインを活用して小さなポーズデータセットを生成します。

次に、ランダムに初期化された識別器を組み込み、生成されたデータセットから知識を蒸留し、識別損失とSDS損失を使用して3Dモデルを更新します。

さらに、分析からは、この手法が訓練プロセスを高速化し、必要な訓練ステップを減らし、合計の訓練時間を比較可能にすることが示されます。この手法は、上記の画像からもわかるように、高い分散データセットにも耐えることができます。最後に、経験的な結果は、提案された手法がテクスチャの詳細、ジオメトリ、およびテキストプロンプトと生成された3Dオブジェクトとの忠実度の点でベースラインモデルを大幅に改善することを示しています。

この技術は、テキストから3D生成に関する新しい視点を提供し、GANと拡散事前学習を組み合わせた最初の研究作業となりました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

「新しい攻撃が主要なAIチャットボットに影響を与え、誰もそれを止める方法を知りません」

研究者は、ChatGPT、Bard、および他のチャットボットが不正行為を行う簡単な方法を見つけ、AIは手に負えないことを証明しました

機械学習

LLMのトレーニングの異なる方法

大規模言語モデル(LLM)の領域では、さまざまなトレーニングメカニズムがあり、異なる手段、要件、目標がありますそれぞれが...

データサイエンス

「非構造化データ内のデータスライスの検出」 翻訳結果は以下の通りです: 「非構造化データ内でデータスライスを見つける」

データスライスは、モデルが異常な動作をするデータの意味のあるサブセットです非構造化データの問題(例:画像、テキスト)...

データサイエンス

「Apache CassandraとApache Pulsarを使用した製品推薦エンジンの構築」

仮説上の請負業者がApache PulsarとApache Cassandraを使用してAIの加速化を行った方法この記事ではAI/MLへの道のりの重要な...

AI研究

新しいAI論文で、CMUとGoogleの研究者が言語モデルの出力を再定義します:応答を一時停止トークンで遅延させることが、QAや推論のタスクでのパフォーマンスを向上させる方法

トークンは、トランスフォーマーに基づく因果言語モデルを使用して、高速に生成されます。このモデルは、K個の前のトークンを...

データサイエンス

「機械学習アルゴリズムとGAN」

「GANとさまざまな機械学習アルゴリズムについて詳しく学びましょう」(GANとさまざまなきかいがくしゅうアルゴリズムについて...