「浙江大学の研究者がUrbanGIRAFFEを提案し、難しい都市のシーンに対する制御可能な3D認識画像の生成に取り組む」

「浙江大学の研究者によるUrbanGIRAFFEの提案と、制御可能な3D認識画像の生成に向けた都市のシーンへの取り組み」

“`

UrbanGIRAFFEは、浙江大学の研究者が提案した写真のようなイメージ合成の手法であり、操作可能なカメラの位置とシーンの内容を紹介しています。自由なカメラの視点制御とシーンの編集における都市のシーンの生成の課題に対処するために、このモデルは構成可能かつ制御可能な戦略を用いており、粗い3D全視野の事前知識を利用しています。さらに、シーンを事物、オブジェクト、空に分解することで、大きなカメラの動き、スタッフの編集、オブジェクトの操作など、多様な制御が可能となっています。

条件付きイメージ合成では、従来の手法が優れており、特に生成対抗ネットワーク(GAN)を利用して写真のようなイメージを生成するものがあります。しかし、既存の手法は、イメージ合成を意味論的セグメンテーションマップやレイアウトに基づいて行ってきたことが主流であり、複雑な対応の取りにくい都市のシーンを無視してきました。UrbanGIRAFFEは、都市のシーンのための専用の3D認識可能な生成モデルであり、これらの制約に対応し、大きなカメラの動き、スタッフの編集、オブジェクトの操作に対する多様な制御を提供しています。

GANは、条件付きイメージ合成において制御可能で写真のようなイメージを生成するために有効な手法となっています。しかし、既存の手法は、対象を中心としたシーンに限定されており、都市のシーンに支援が必要であり、自由なカメラの視点制御やシーンの編集に制約があります。UrbanGIRAFFEは、シーンをスタッフ、オブジェクト、空に分解し、意味的なボクセルグリッドとオブジェクトのレイアウトを活用して、多様な制御が可能な状態にします。

UrbanGIRAFFEは創造的な手法で都市のシーンをスタッフ、オブジェクト、空に分解し、事物と物事のための事前分布を利用して、複雑な都市環境を解きほぐします。このモデルには、粗い意味的および幾何学的情報を統合するために意味的なボクセルグリッドを事物ジェネレータとして利用する条件つきの事物ジェネレータがあります。オブジェクトの配置事前知識により、乱雑なシーンからオブジェクトジェネレータを学習します。敵対的および再構成の損失と合わせてエンドツーエンドでトレーニングされたモデルは、サンプリング位置を最適化するためにレイボクセルおよびレイボックスの相互交差戦略を活用し、必要なサンプリングポイントの数を減らすことができます。

総合的な評価では、提案されたUrbanGIRAFFEの手法は、合成および実世界のデータセットにおいてさまざまな2Dおよび3Dの基準を上回り、優れた制御性と忠実度を示しています。KITTI-360データセットでの質的評価では、UrbanGIRAFFEは背景モデリングにおいてGIRAFFEを上回る性能を発揮し、スタッフの編集とカメラの視点制御を向上させることが可能となっています。KITTI-360での略取研究は、再構成損失、オブジェクトの判別器、革新的なオブジェクトモデリングなど、UrbanGIRAFFEのアーキテクチャの要素の有効性を確認しています。推論時に移動平均モデルを採用することで、生成されるイメージの品質をさらに向上させることができます。

UrbanGIRAFFEは、都市のシーンに対する制御可能な3D認識可能なイメージ合成の複雑なタスクに革新的に対応し、カメラの視点操作、意味レイアウト、オブジェクトの相互作用において顕著な柔軟性を実現しています。3D全視野の事前知識を活用することで、このモデルはシーンをスタッフ、オブジェクト、空に効果的に解釈し、構成的な生成モデリングを可能にしています。今後の方向性には、新しいシーンサンプリングのための意味的なボクセルジェネレータの統合や、光の環境の色からの光の制御の探索などが含まれます。再構成の損失の重要性は、忠実度を保ち、特にまれに遭遇する意味クラスを生成するために、多様な結果を生み出すために強調されます。

UrbanGIRAFFEの将来の研究には、新しいシーンサンプリングのための意味的なボクセルジェネレータの統合、多様で新しい都市のシーンの生成能力の向上が含まれます。また、光の色を環境から分離することで、生成されたシーンの視覚的な側面においてより詳細な制御を提供するための光の制御の探索も計画されています。生成されたイメージの品質を向上させるためには、推論時に移動平均モデルを使用すると良いでしょう。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました

現代社会はインターネット上の情報の拡散によって特徴付けられ、検索エンジンは知識を見つけたりまとめたりするために欠かせ...

AIニュース

ヴィンセント・ファン・ゴッホの復活

パリのオルセー美術館では、ヴィンセント・ファン・ゴッホのレプリカが訪問者とおしゃべりし、彼の生涯や死についての洞察を...

機械学習

学習曲線の航行:AIの記憶保持との闘い

人工知能(AI)の境界が絶えず拡大するにつれて、研究者たちはこの分野の最大の課題の1つである記憶喪失と格闘していますAIの...

AI研究

メタAIがオーディオジェネレーションに関するディープラーニングの研究のためのPyTorchライブラリであるAudioCraftをオープンソース化しました

研究者や実践者がモデルを訓練し、最先端を推進するために、メタはテキストから音楽を生成するためのソースコードであるAudio...

機械学習

「推測を超えて:効果的な記事タイトル選択のためのベイジアン統計の活用」

記事は、ベイジアン多腕バンディットアルゴリズムがデジタルメディアのタイトル選択を最適化し、従来のA/Bテスト手法を超える...

AI研究

このAI研究は、AstroLLaMAを紹介しますこれは、ArXivからの30万以上の天文学の要約を使用して、LLaMA-2からファインチューンされた7Bパラメーターモデルです

大規模言語モデル(LLM)の登場は、複数の重要な要素が結集したため、多くの分野から注目を集めています。これらの要素には、...