「画像の補完の進展:この新しいAI補完による2Dと3Dの操作のギャップを埋めるニューラル放射場」

AI補完による2Dと3Dの操作のギャップを埋めるニューラル放射場

コンテンツ作成において、画像の操作には持続的な関心があります。最も広く研究されている操作の1つは、オブジェクトの削除と挿入であり、画像補完のタスクとしてよく言及されています。現在の補完モデルは、周囲の画像とシームレスになじむ視覚的に説得力のあるコンテンツを生成することに長けていますが、これまでは単一の2D画像入力に限られていました。しかし、一部の研究者は、このようなモデルの応用を完全な3Dシーンの操作に進めようとしています。

ニューラル・ラディアンス・フィールド(NeRFs)の登場により、実際の2D写真を生き生きとした3D表現に変換することがより容易になりました。アルゴリズムの改良が進み、計算要件が減少するにつれ、これらの3D表現は一般的になるかもしれません。したがって、この研究は、2D画像に対して利用可能なような3D NeRFsの操作を可能にすることを目指しています。

3Dオブジェクトの補完には、3Dデータの希少性や3Dジオメトリと外観の両方を考慮する必要性など、独自の課題があります。シーン表現としてのNeRFsの使用は、さらなる複雑さを導入します。ニューラル表現の暗黙性のため、ジオメトリの理解に基づいて基礎データ構造を直接変更することは実用的ではありません。また、NeRFsは画像からトレーニングされるため、複数のビュー間での一貫性の維持は難しいです。個々の構成画像の独立した補完は、視点の不整合や視覚的に現実的でない出力を引き起こす可能性があります。

これらの課題に対処するために、さまざまなアプローチが試みられています。たとえば、NeRF-Inは、ピクセル単位の損失を介してビューを組み合わせる方法や、知覚的な損失を使用するSPIn-NeRFなど、不整合を事後に解決しようとするいくつかの手法があります。しかし、これらのアプローチは、補完されたビューが著しい知覚的な違いを示す場合や、複雑な外観が関与する場合には苦労するかもしれません。

また、単一参照補完方法も検討されており、参照ビューのみを使用することでビューの不整合を回避しています。ただし、このアプローチには、非参照ビューの視覚的品質の低下、ビュー依存の効果の欠如、および非表示領域の問題など、いくつかの課題があります。

上記の制限を考慮すると、3Dオブジェクトの補完を可能にするための新しいアプローチが開発されました。

システムへの入力は、異なる視点からのN枚の画像と、それらに対応するカメラ変換行列とマスク(不要な領域を示す)です。さらに、入力画像に関連する補完参照ビューが必要であり、これはユーザーがシーンの3D補完から期待する情報を提供します。この参照は、マスクを置き換えるオブジェクトのテキストの説明など、単純なものでもかまいません。

https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf

上記の例では、「ラバーダック」や「花瓶」といった参照は、単一画像によるテキスト条件付け補完を使用することで取得できます。これにより、ユーザーは望ましい編集を持つ3Dシーンの生成を制御および駆動することができます。

ビュー依存の効果(VDE)に重点を置いたモジュールにより、著者はシーンの視点依存の変化(たとえば、スペキュラリティや非ランバート効果)を考慮しようとします。そのため、他のビューの周囲コンテキストに一致するように参照色を修正することで、参照ビューポイント以外のマスク領域にVDEを追加します。

さらに、参照画像の深度に応じて、補完領域のジオメトリをガイドするために単眼の深度推定器を導入しています。参照ではすべてのマスク対象ピクセルが見えないため、追加の補完を介してこれらの非遮蔽ピクセルを監視するアプローチが考案されています。

提案手法の最新のSPIn-NeRF-Lamaとの新しいビューの描画の視覚的比較を以下に示します。

https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf

これは、ニューラル輝度場の参照に基づいた制御可能なインペインティングのための新しいAIフレームワークの概要です。興味がある場合は、以下に引用されているリンクを参照して詳細を学ぶことができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

データを中心に:Srikanth Velamakanniと共にデータドリブンの組織を築く

Analytics Vidhyaの「データを活用したリーダーシップ(Leading With Data)」は、業界のリーダーが自身の経験、キャリアの道...

機械学習

「ディープランゲージモデルは、コンテキストから次の単語を予測することを学ぶことで、ますます優れてきていますこれが本当に人間の脳が行っていることなのでしょうか?」

ディープラーニングは、テキスト生成、翻訳、および補完の分野で最近大きな進歩を遂げています。周囲の文脈から単語を予測す...

データサイエンス

「エンタープライズAIの処理のための表現能力を向上させる鍵は、RAG + ファインチューニングです以下にその理由を説明します」

「ジェネレーティブAIはほとんどのCEOの頭にありますが、そのエンタープライズへの適応方法は議論の余地がありますその成功の...

機械学習

AIの時代のコーディング:ChatGPTの役割と次世代プログラミング

ChatGPTはデジタルの世界を変えつつあり、プログラミングも例外ではありませんプログラマーにどのように助けられ、コーディン...

人工知能

「仕事を守るために自動化を避ける」

自動化は怖いです私のキャリアの最初のころ、私は何かを自動化しましたが、私が去ればすぐに廃止されました人々は仕事を失う...

人工知能

サイバーセキュリティにおいてAIを活用して人間を補完する

セキュリティを加速するためにAIを使用する利点がありますしかし、完全な自動化には人間の洞察力が必要です人間の創造力と機...