「画像の補完の進展:この新しいAI補完による2Dと3Dの操作のギャップを埋めるニューラル放射場」

AI補完による2Dと3Dの操作のギャップを埋めるニューラル放射場

コンテンツ作成において、画像の操作には持続的な関心があります。最も広く研究されている操作の1つは、オブジェクトの削除と挿入であり、画像補完のタスクとしてよく言及されています。現在の補完モデルは、周囲の画像とシームレスになじむ視覚的に説得力のあるコンテンツを生成することに長けていますが、これまでは単一の2D画像入力に限られていました。しかし、一部の研究者は、このようなモデルの応用を完全な3Dシーンの操作に進めようとしています。

ニューラル・ラディアンス・フィールド(NeRFs)の登場により、実際の2D写真を生き生きとした3D表現に変換することがより容易になりました。アルゴリズムの改良が進み、計算要件が減少するにつれ、これらの3D表現は一般的になるかもしれません。したがって、この研究は、2D画像に対して利用可能なような3D NeRFsの操作を可能にすることを目指しています。

3Dオブジェクトの補完には、3Dデータの希少性や3Dジオメトリと外観の両方を考慮する必要性など、独自の課題があります。シーン表現としてのNeRFsの使用は、さらなる複雑さを導入します。ニューラル表現の暗黙性のため、ジオメトリの理解に基づいて基礎データ構造を直接変更することは実用的ではありません。また、NeRFsは画像からトレーニングされるため、複数のビュー間での一貫性の維持は難しいです。個々の構成画像の独立した補完は、視点の不整合や視覚的に現実的でない出力を引き起こす可能性があります。

これらの課題に対処するために、さまざまなアプローチが試みられています。たとえば、NeRF-Inは、ピクセル単位の損失を介してビューを組み合わせる方法や、知覚的な損失を使用するSPIn-NeRFなど、不整合を事後に解決しようとするいくつかの手法があります。しかし、これらのアプローチは、補完されたビューが著しい知覚的な違いを示す場合や、複雑な外観が関与する場合には苦労するかもしれません。

また、単一参照補完方法も検討されており、参照ビューのみを使用することでビューの不整合を回避しています。ただし、このアプローチには、非参照ビューの視覚的品質の低下、ビュー依存の効果の欠如、および非表示領域の問題など、いくつかの課題があります。

上記の制限を考慮すると、3Dオブジェクトの補完を可能にするための新しいアプローチが開発されました。

システムへの入力は、異なる視点からのN枚の画像と、それらに対応するカメラ変換行列とマスク(不要な領域を示す)です。さらに、入力画像に関連する補完参照ビューが必要であり、これはユーザーがシーンの3D補完から期待する情報を提供します。この参照は、マスクを置き換えるオブジェクトのテキストの説明など、単純なものでもかまいません。

https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf

上記の例では、「ラバーダック」や「花瓶」といった参照は、単一画像によるテキスト条件付け補完を使用することで取得できます。これにより、ユーザーは望ましい編集を持つ3Dシーンの生成を制御および駆動することができます。

ビュー依存の効果(VDE)に重点を置いたモジュールにより、著者はシーンの視点依存の変化(たとえば、スペキュラリティや非ランバート効果)を考慮しようとします。そのため、他のビューの周囲コンテキストに一致するように参照色を修正することで、参照ビューポイント以外のマスク領域にVDEを追加します。

さらに、参照画像の深度に応じて、補完領域のジオメトリをガイドするために単眼の深度推定器を導入しています。参照ではすべてのマスク対象ピクセルが見えないため、追加の補完を介してこれらの非遮蔽ピクセルを監視するアプローチが考案されています。

提案手法の最新のSPIn-NeRF-Lamaとの新しいビューの描画の視覚的比較を以下に示します。

https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf

これは、ニューラル輝度場の参照に基づいた制御可能なインペインティングのための新しいAIフレームワークの概要です。興味がある場合は、以下に引用されているリンクを参照して詳細を学ぶことができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

すべての開発者が知るべき6つの生成AIフレームワークとツール

この記事では、トップのジェネラティブAIフレームワークとツールについて探求しますあなたの想像力を解き放ち、ジェネラティ...

AIニュース

「OpenAIのGPTストアで稼ぐための11のカスタムGPTアイデア」

OpenAIは次の大きな収入源の機会を発表しました

機械学習

バード:新しいChatGPTの競争相手

「人工知能におけるユーザーエクスペリエンスを最適化するための絶え間ない探求心を持つGoogleは、最新で最も先進的な対話シ...

人工知能

「チャットボットとAIアシスタントの構築」

この記事は、自然言語処理(NLP)とチャットボットフレームワークの総合ガイドを紹介します詳しくは、学んでください!

データサイエンス

「ワイルドワイルドRAG…(パート1)」

「RAG(Retrieval-Augmented Generation)は、外部の知識源を取り込むことで言語モデルによって生成された応答の品質を向上さ...

機械学習

「LLaMA-v2-Chat対アルパカ:どのAIモデルを使用するべきですか?」

この記事は以下の質問に答えます:LLaMA-v2-Chat vs アルパカ、どちらを使うべきですか?両方のAIモデルの利点と欠点は何です...