「画像の補完の進展:この新しいAI補完による2Dと3Dの操作のギャップを埋めるニューラル放射場」
AI補完による2Dと3Dの操作のギャップを埋めるニューラル放射場
コンテンツ作成において、画像の操作には持続的な関心があります。最も広く研究されている操作の1つは、オブジェクトの削除と挿入であり、画像補完のタスクとしてよく言及されています。現在の補完モデルは、周囲の画像とシームレスになじむ視覚的に説得力のあるコンテンツを生成することに長けていますが、これまでは単一の2D画像入力に限られていました。しかし、一部の研究者は、このようなモデルの応用を完全な3Dシーンの操作に進めようとしています。
ニューラル・ラディアンス・フィールド(NeRFs)の登場により、実際の2D写真を生き生きとした3D表現に変換することがより容易になりました。アルゴリズムの改良が進み、計算要件が減少するにつれ、これらの3D表現は一般的になるかもしれません。したがって、この研究は、2D画像に対して利用可能なような3D NeRFsの操作を可能にすることを目指しています。
3Dオブジェクトの補完には、3Dデータの希少性や3Dジオメトリと外観の両方を考慮する必要性など、独自の課題があります。シーン表現としてのNeRFsの使用は、さらなる複雑さを導入します。ニューラル表現の暗黙性のため、ジオメトリの理解に基づいて基礎データ構造を直接変更することは実用的ではありません。また、NeRFsは画像からトレーニングされるため、複数のビュー間での一貫性の維持は難しいです。個々の構成画像の独立した補完は、視点の不整合や視覚的に現実的でない出力を引き起こす可能性があります。
- 「PyTorchモデルのパフォーマンス分析と最適化—パート6」
- 機械学習の革新により、コンピュータの電力使用量が削減されています
- StableSRをご紹介します:事前トレーニング済み拡散モデルの力を活用した新たなAIスーパーレゾリューション手法
これらの課題に対処するために、さまざまなアプローチが試みられています。たとえば、NeRF-Inは、ピクセル単位の損失を介してビューを組み合わせる方法や、知覚的な損失を使用するSPIn-NeRFなど、不整合を事後に解決しようとするいくつかの手法があります。しかし、これらのアプローチは、補完されたビューが著しい知覚的な違いを示す場合や、複雑な外観が関与する場合には苦労するかもしれません。
また、単一参照補完方法も検討されており、参照ビューのみを使用することでビューの不整合を回避しています。ただし、このアプローチには、非参照ビューの視覚的品質の低下、ビュー依存の効果の欠如、および非表示領域の問題など、いくつかの課題があります。
上記の制限を考慮すると、3Dオブジェクトの補完を可能にするための新しいアプローチが開発されました。
システムへの入力は、異なる視点からのN枚の画像と、それらに対応するカメラ変換行列とマスク(不要な領域を示す)です。さらに、入力画像に関連する補完参照ビューが必要であり、これはユーザーがシーンの3D補完から期待する情報を提供します。この参照は、マスクを置き換えるオブジェクトのテキストの説明など、単純なものでもかまいません。
上記の例では、「ラバーダック」や「花瓶」といった参照は、単一画像によるテキスト条件付け補完を使用することで取得できます。これにより、ユーザーは望ましい編集を持つ3Dシーンの生成を制御および駆動することができます。
ビュー依存の効果(VDE)に重点を置いたモジュールにより、著者はシーンの視点依存の変化(たとえば、スペキュラリティや非ランバート効果)を考慮しようとします。そのため、他のビューの周囲コンテキストに一致するように参照色を修正することで、参照ビューポイント以外のマスク領域にVDEを追加します。
さらに、参照画像の深度に応じて、補完領域のジオメトリをガイドするために単眼の深度推定器を導入しています。参照ではすべてのマスク対象ピクセルが見えないため、追加の補完を介してこれらの非遮蔽ピクセルを監視するアプローチが考案されています。
提案手法の最新のSPIn-NeRF-Lamaとの新しいビューの描画の視覚的比較を以下に示します。
これは、ニューラル輝度場の参照に基づいた制御可能なインペインティングのための新しいAIフレームワークの概要です。興味がある場合は、以下に引用されているリンクを参照して詳細を学ぶことができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「11/9から17/9までの週のトップ重要なコンピュータビジョンの論文」
- 無料でGoogle Colab上でQLoraを使用してLLAMAv2を微調整する
- 「ビデオセグメンテーションはよりコスト効果的になることができるのか?アノテーションを節約し、タスク間で一般化するための分離型ビデオセグメンテーションアプローチDEVAに会いましょう」
- 「教科書で学ぶ教師なし学習:K-Meansクラスタリングの実践」
- オーディオSRにお会いください:信じられないほどの48kHzの音質にオーディオをアップサンプリングするためのプラグ&プレイであり、ワンフォーオールのAIソリューション
- LLMs(Language Model)と知識グラフ
- 「ベイチュアン2に会おう:7Bおよび13Bのパラメータを持つ大規模な多言語言語モデルのシリーズ、2.6Tトークンでゼロからトレーニングされました」