「浙江大学の研究者がUrbanGIRAFFEを提案し、難しい都市のシーンに対する制御可能な3D認識画像の生成に取り組む」

「浙江大学の研究者によるUrbanGIRAFFEの提案と、制御可能な3D認識画像の生成に向けた都市のシーンへの取り組み」

“`

UrbanGIRAFFEは、浙江大学の研究者が提案した写真のようなイメージ合成の手法であり、操作可能なカメラの位置とシーンの内容を紹介しています。自由なカメラの視点制御とシーンの編集における都市のシーンの生成の課題に対処するために、このモデルは構成可能かつ制御可能な戦略を用いており、粗い3D全視野の事前知識を利用しています。さらに、シーンを事物、オブジェクト、空に分解することで、大きなカメラの動き、スタッフの編集、オブジェクトの操作など、多様な制御が可能となっています。

条件付きイメージ合成では、従来の手法が優れており、特に生成対抗ネットワーク(GAN)を利用して写真のようなイメージを生成するものがあります。しかし、既存の手法は、イメージ合成を意味論的セグメンテーションマップやレイアウトに基づいて行ってきたことが主流であり、複雑な対応の取りにくい都市のシーンを無視してきました。UrbanGIRAFFEは、都市のシーンのための専用の3D認識可能な生成モデルであり、これらの制約に対応し、大きなカメラの動き、スタッフの編集、オブジェクトの操作に対する多様な制御を提供しています。

GANは、条件付きイメージ合成において制御可能で写真のようなイメージを生成するために有効な手法となっています。しかし、既存の手法は、対象を中心としたシーンに限定されており、都市のシーンに支援が必要であり、自由なカメラの視点制御やシーンの編集に制約があります。UrbanGIRAFFEは、シーンをスタッフ、オブジェクト、空に分解し、意味的なボクセルグリッドとオブジェクトのレイアウトを活用して、多様な制御が可能な状態にします。

UrbanGIRAFFEは創造的な手法で都市のシーンをスタッフ、オブジェクト、空に分解し、事物と物事のための事前分布を利用して、複雑な都市環境を解きほぐします。このモデルには、粗い意味的および幾何学的情報を統合するために意味的なボクセルグリッドを事物ジェネレータとして利用する条件つきの事物ジェネレータがあります。オブジェクトの配置事前知識により、乱雑なシーンからオブジェクトジェネレータを学習します。敵対的および再構成の損失と合わせてエンドツーエンドでトレーニングされたモデルは、サンプリング位置を最適化するためにレイボクセルおよびレイボックスの相互交差戦略を活用し、必要なサンプリングポイントの数を減らすことができます。

総合的な評価では、提案されたUrbanGIRAFFEの手法は、合成および実世界のデータセットにおいてさまざまな2Dおよび3Dの基準を上回り、優れた制御性と忠実度を示しています。KITTI-360データセットでの質的評価では、UrbanGIRAFFEは背景モデリングにおいてGIRAFFEを上回る性能を発揮し、スタッフの編集とカメラの視点制御を向上させることが可能となっています。KITTI-360での略取研究は、再構成損失、オブジェクトの判別器、革新的なオブジェクトモデリングなど、UrbanGIRAFFEのアーキテクチャの要素の有効性を確認しています。推論時に移動平均モデルを採用することで、生成されるイメージの品質をさらに向上させることができます。

UrbanGIRAFFEは、都市のシーンに対する制御可能な3D認識可能なイメージ合成の複雑なタスクに革新的に対応し、カメラの視点操作、意味レイアウト、オブジェクトの相互作用において顕著な柔軟性を実現しています。3D全視野の事前知識を活用することで、このモデルはシーンをスタッフ、オブジェクト、空に効果的に解釈し、構成的な生成モデリングを可能にしています。今後の方向性には、新しいシーンサンプリングのための意味的なボクセルジェネレータの統合や、光の環境の色からの光の制御の探索などが含まれます。再構成の損失の重要性は、忠実度を保ち、特にまれに遭遇する意味クラスを生成するために、多様な結果を生み出すために強調されます。

UrbanGIRAFFEの将来の研究には、新しいシーンサンプリングのための意味的なボクセルジェネレータの統合、多様で新しい都市のシーンの生成能力の向上が含まれます。また、光の色を環境から分離することで、生成されたシーンの視覚的な側面においてより詳細な制御を提供するための光の制御の探索も計画されています。生成されたイメージの品質を向上させるためには、推論時に移動平均モデルを使用すると良いでしょう。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

リトリーバル・オーグメンテッド・ジェネレーションを使用して、安定した拡散プロンプトを改善しましょう

テキストから画像を生成することは、メディアやエンターテイメント、ゲーム、ECサイトの商品ビジュアライゼーション、広告や...

データサイエンス

Ludwig - より「フレンドリーな」ディープラーニングフレームワーク

産業用途の深層学習については、私は避ける傾向があります興味がないわけではなく、むしろ人気のある深層学習フレームワーク...

機械学習

このAI論文では、これらの課題に対処しながらMoEsの利点を維持するために、完全に微分可能な疎なTransformerであるSoft MoEを提案しています

大きなTransformerが適切に機能するには、より多くの計算コストが必要です。最近の研究では、モデルのサイズとトレーニングデ...

AI研究

コーネル大学の研究者たちは、言語モデルのプロンプトについての洞察を明らかにしました:次のトークンの確率が隠れたテキストを明らかにする方法についての深い探求

コーネル大学の研究者による調査では、言語モデルの逆転問題に取り組んでいます。彼らは、次のトークンの確率にはそれに先行...

AIニュース

予想外な方法でAIがイスラエル・ハマス戦争を混乱させる

「ディスインフォメーション研究者は、人工知能を利用してイスラエル・ハマス戦争で誤情報を広めることが、オンラインコンテ...

人工知能

「パーソナリティをピクセルにもたらす、Inworldは自己再生AIを使用してゲームキャラクターをレベルアップさせます」

ゲーム体験を一層向上させるために、スタジオと開発者は非常な努力を払い、写実的で没入感のあるゲーム内環境を作り上げてい...