「NTUシンガポールの研究者たちは、テキストから3D生成のための新しいプラグアンドプレイなリファインメントAIメソッドであるIT3Dを提案しています」

NTUシンガポールの研究者は、IT3Dという新しいプラグアンドプレイなリファインメントAIメソッドを提案しています

テキストから画像への領域で注目すべき進歩があり、研究コミュニティ内で3D生成への拡大に対する熱意の急増が起きています。この興奮は、事前学習された2Dテキストから画像への拡散モデルを利用する手法の出現によるものです。

この領域で重要な進展となるのは、Dreamfusionによって行われた創造的な作業です。彼らはスコア蒸留サンプリング(SDS)アルゴリズムという新しい手法を導入しました。この手法は、テキストの指示だけで数多くの異なる3Dオブジェクトを作成できるため、大きな違いをもたらしています。革新的なアプローチであるにもかかわらず、ジオメトリとテクスチャの制御には制約があり、過飽和やモデルの多重顔のような問題がよく発生します。

さらに、研究者は、テキストの指示を強化するだけではモデルをより良くすることはできないと気付いています。

これらの課題に立ち向かうために、研究者たちはこの3D生成のための強化された手法を導入しました。この手法は、望ましい3Dモデルの異なる角度から複数の画像を作成し、これらの画像を使用して3Dオブジェクトを再構築することに焦点を当てています。このプロセスは、DreamFusionなどの既存のテキストから3D生成モデルを使用して、オブジェクトの基本的な表現を作成することから始まります。これらの初期モデルを作成することで、オブジェクトの形状と空間内での配置の基本的な理解を得ることができます。その後、この手法は画像から画像への生成プロセスを使用して、ビューの画像を改善します。

IT3Dは、メッシュやNeRFなどの異なる3D出力表現に対する支援を提供し、テキスト入力を使用して3Dモデルの外観を効率的に変更する能力が追加の強みです。上記の画像はIT3Dのパイプラインを示しています。IT3Dは、粗い3Dモデルから始めて、まず画像から画像へのパイプラインを活用して小さなポーズデータセットを生成します。

次に、ランダムに初期化された識別器を組み込み、生成されたデータセットから知識を蒸留し、識別損失とSDS損失を使用して3Dモデルを更新します。

さらに、分析からは、この手法が訓練プロセスを高速化し、必要な訓練ステップを減らし、合計の訓練時間を比較可能にすることが示されます。この手法は、上記の画像からもわかるように、高い分散データセットにも耐えることができます。最後に、経験的な結果は、提案された手法がテクスチャの詳細、ジオメトリ、およびテキストプロンプトと生成された3Dオブジェクトとの忠実度の点でベースラインモデルを大幅に改善することを示しています。

この技術は、テキストから3D生成に関する新しい視点を提供し、GANと拡散事前学習を組み合わせた最初の研究作業となりました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Mistral-7B-v0.1をご紹介します:新しい大型言語モデルの登場' (Misutoraru 7B v0.1 wo goshōkai shimasu Atarashii ōgata gengo moderu no tōjō)

“`html Mistral-7B-v0.1は、大規模な言語モデル(LLM)の人工知能(AI)の最新の進歩の一つです。Mistral AIの最新のLL...

AI研究

『Google AI Researchが効率的な連成振動子のシミュレーションに革新的な量子アルゴリズムを導入』

古典力学は、物体の運動、それに作用する力、およびその活動に関連付けられたエネルギーについて扱います。量子力学は、物質...

データサイエンス

「Amazon SageMaker Canvasによるデータ処理、トレーニング、推論におけるパフォーマンスを70%向上させ、ビジネスの成果を加速させましょう」

Amazon SageMaker Canvasは、ビジネスアナリストが独自の機械学習(ML)予測を正確に生成することができる視覚的なインタフェ...

AI研究

このAI研究は、AstroLLaMAを紹介しますこれは、ArXivからの30万以上の天文学の要約を使用して、LLaMA-2からファインチューンされた7Bパラメーターモデルです

大規模言語モデル(LLM)の登場は、複数の重要な要素が結集したため、多くの分野から注目を集めています。これらの要素には、...

データサイエンス

データを中心に:Srikanth Velamakanniと共にデータドリブンの組織を築く

Analytics Vidhyaの「データを活用したリーダーシップ(Leading With Data)」は、業界のリーダーが自身の経験、キャリアの道...

AI研究

希望、恐怖、そしてAI:AIツールに対する消費者の態度に関する最新の調査結果

米国の消費者が人工知能(AI)に関する意見と認識について述べた最新の「Trust Survey」の結果を明らかにしたThe Vergeの報告...