次元をパンプアップせよ：DreamEditorは、テキストプロンプトを使って3Dシーンを編集するAIモデルです

DreamEditorは、AIモデルで、テキストプロンプトを使用して3Dシーンを編集します次元をパンプアップしましょう

最近、3Dコンピュータビジョンの領域はNeRFで溢れていました。それらは画期的な技術として登場し、シーンの新しいビューの再構築と合成を可能にしました。NeRFは、複数の視点画像のコレクションから基礎となるジオメトリと外観情報をキャプチャしモデル化します。

NeRFはニューラルネットワークを活用することで、従来の方法を超えるデータ駆動型のアプローチを提供します。NeRF内のニューラルネットワークは、シーンのジオメトリ、照明、ビュー依存の外観との複雑な関係を表現することを学び、高精細かつリアルなシーンの再構築を可能にします。NeRFの主な利点は、元の画像セットでキャプチャされていない領域を含め、シーン内の任意の視点から写真のようなリアルな画像を生成できる能力にあります。

NeRFの成功は、コンピュータグラフィックス、仮想現実、拡張現実において新たな可能性を切り開き、現実世界のシーンに近い没入型でインタラクティブな仮想環境の作成を可能にしました。そのため、NeRFをさらに進化させるための領域内での真剣な関心が存在します。

NeRFのいくつかの欠点は、現実世界のシナリオでの適用範囲を制限しています。たとえば、ニューラルフィールドの編集は、高次元のニューラルネットワーク特徴内での形状とテクスチャ情報の暗黙の符号化により、大きな課題となります。一部の方法では、この問題に取り組むために探索的な編集技術を使用しましたが、これらは広範なユーザーの入力を必要とし、正確で高品質な結果を得るのに苦労します。

NeRFの編集可能性は、現実世界のアプリケーションに新たな可能性を開くことができます。しかし、今までの試みは問題を解決するには十分に良い結果ではありませんでした。しかし、私たちには新しいプレーヤーが登場しました。その名はDreamEditorです。

DreamEditorは3D NeRFの編集を可能にします。出典：https://arxiv.org/pdf/2306.13455.pdf

DreamEditorは、テキストのプロンプトを使用して直感的かつ便利なニューラルフィールドの変更を可能にするユーザーフレンドリーなフレームワークです。メッシュベースのニューラルフィールドを使用してシーンを表現し、ステップバイステップの編集フレームワークを採用することで、再テクスチャリング、オブジェクトの置換、オブジェクトの挿入など、さまざまな編集効果を実現します。

メッシュ表現は、2Dの編集マスクを3Dの編集領域に変換することで、正確なローカル編集を容易にします。また、ジオメトリとテクスチャを分離することにより、過度な変形を防ぎます。ステップバイステップのフレームワークは、事前に学習された拡散モデルとスコア蒸留サンプリングを組み合わせることで、簡単なテキストのプロンプトに基づいた効率的かつ正確な編集を可能にします。

DreamEditorの概要。出典：https://arxiv.org/pdf/2306.13455.pdf

DreamEditorは、直感的かつ正確なテキストによる3Dシーンの編集を容易にするために、3つの主要なステージを追います。最初のステージでは、元のニューラル放射フィールドをメッシュベースのニューラルフィールドに変換します。このメッシュ表現は、空間的に選択的な編集を可能にします。変換後、特定のシーンで訓練されたカスタマイズされたテキストから画像へ（T2I）モデルを使用します。このモデルはテキストのプロンプトとシーンの視覚的コンテンツとの間の意味関係を捉えます。最後に、編集された変更はT2I拡散モードを使用してニューラルフィールド内のターゲットオブジェクトに適用されます。

DreamEditor は高い忠実度とリアリズムを保ちながら、3Dシーンを正確かつ進行的に編集することができます。メッシュベースの表現から正確な位置特定、拡散モデルを介した制御された編集まで、段階的なアプローチによって、DreamEditor は関連性のない領域での不必要な変更を最小限に抑えながら、非常にリアルな編集結果を実現することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors PickLanguage modelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

次元をパンプアップせよ：DreamEditorは、テキストプロンプトを使って3Dシーンを編集するAIモデルです

Was this article helpful?

7月号データサイエンティストのための気候リソース

Google AIがFlan-T5をオープンソース化 NLPタスクにおいてテキスト対テキストアプローチを使用するトランスフォーマーベースの言語モデル

機械学習

「オーディオ機械学習入門」

「GPT4Readability — リードミーをもう一度書く必要はありません」

テストに合格する：NVIDIAがMLPerfベンチマークでジェネラティブAIのトレーニングをターボチャージします

デューク大学の研究者たちは、ポリシーステッチングを提案していますこれは、ロボットとタスクの新しい組み合わせにおけるロボットの転送学習を容易にする、画期的なAIフレームワークです

AIの力なぜウェブ開発者はまだ絶対的な存在なのか

「React開発者にとってのAI言語モデルの力包括的なガイド」