スタンフォード大学の研究者が「局所的に条件付けられた拡散(Locally Conditioned Diffusion):拡散モデルを使用した構成的なテキストから画像への生成手法」を紹介しました

Stanford University researchers introduced Locally Conditioned Diffusion A Generative Method from Constructive Text to Images Using Diffusion Models.

3Dシーンモデリングは従来、特定の知識を持つ人々に限られた時間のかかる手続きでした。パブリックドメインには多くの3D素材がありますが、ユーザーの要件に合う3Dシーンを見つけることは珍しいです。そのため、3Dデザイナーは個々の3Dオブジェクトをモデリングし、シーンに組み立てるために数時間または数日を費やすことがあります。3Dの作成を簡単にし、同時にその構成要素を制御できるようにすることは、経験豊富な3Dデザイナーと一般の人々(例:個々のオブジェクトのサイズと位置)とのギャップを埋めるのに役立ちます。

最近、3Dシーンモデリングのアクセシビリティが改善されました。3D生成モデルに取り組むことで、3Dオブジェクトの合成において有望な結果が得られています。3Daware生成対抗ネットワーク(GAN)を使用して3Dオブジェクトの合成に関する有望な結果が得られており、作成されたアイテムをシーンに組み合わせるための第一歩となっています。しかし、GANは特定のアイテムカテゴリに特化しており、結果のバラエティが制限され、シーンレベルのテキストから3Dへの変換が困難です。これに対し、拡散モデルを使用したテキストから3Dへの生成は、さまざまなカテゴリの3Dオブジェクトの作成を促すことができます。

現在の研究では、異なる可能なシーン表現の描画ビューにグローバルな条件付けを課すために、インターネットスケールのデータで学習された堅牢な2Dイメージ拡散事前分布を使用して、単語のプロンプトを使用しています。これらの手法は、優れたオブジェクト中心の生成物を生み出すことができますが、複数のユニークな特徴を持つシーンを生成するためには支援が必要です。グローバルな条件付けは、ユーザー入力が単一のテキストプロンプトに制限され、作成されたシーンのデザインに影響を与える方法がないため、制御性を制限します。Stanfordの研究者は、局所的な条件付き拡散と呼ばれる拡散モデルを使用した構成的なテキストからイメージへの生成手法を提供しています。

彼らの提案手法は、テキストプロンプトと3Dバウンディングボックスを入力として使用し、個々のオブジェクトのサイズと位置を制御しながら、一貫性のある3Dセットを構築します。彼らのアプローチでは、入力セグメンテーションマスクと一致するテキストプロンプトを使用して特定の部分の画像に条件付き拡散ステージを選択的に適用し、ユーザー指定の構成に従って出力を生成します。スコア蒸留サンプリングに基づくテキストから3D生成パイプラインに彼らの手法を組み込むことで、彼らは構成的なテキストから3Dシーンを作成することもできます。

彼らは具体的に以下の貢献を提供しています:

• 2D拡散モデルにより構成的な柔軟性を持たせる局所的な条件付け拡散を提案します。

• 構成的な3D生成に不可欠な重要なカメラの姿勢サンプリング手法を提案します。

• スコア蒸留サンプリングベースの3D生成パイプラインに局所的な条件付け拡散を追加することで、構成的な3D合成の手法を紹介します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

『Q-Starを超えて OpenAIのPPOによるAGIのブレイクスルーが可能』

人工汎用知能(AGI)はAIの領域を魅了し、人間の能力を超えるシステムを象徴しています。OpenAIは重要なAGIの研究者であり、...

機械学習

ハギングフェイスがIDEFICSを導入:視覚言語モデルを活用した先駆的なオープンマルチモーダル対話AI

人工知能のダイナミックな景色において、続く挑戦がこの分野の進歩に影を落としています:最先端のAIモデルについての謎。こ...

機械学習

「LLMは誰の意見を反映しているのか? スタンフォード大学のこのAI論文では、言語モデルLMが一般世論調査の観点から反映している意見について検証しています」

過去数年間、言語モデル(LM)は、医療、ソフトウェア開発、金融など、さまざまな産業において、自然言語処理アプリケーショ...

AI研究

「オックスフォード大学と西安交通大学の研究者たちが、先端メモリ技術での相変化材料のシミュレーションに向けた革新的な機械学習モデルを発表」

相変化材料の理解と最先端のメモリ技術の開発には、コンピュータシミュレーションの利用が大きなメリットがあります。ただし...

機械学習

メタAIのコンピュータビジョンにおける公平性のための2つの新しい取り組み:DINOv2のためのライセンス導入とFACETのリリースの紹介

コンピュータビジョンの絶え間ない進化の中で、公平性を確保することが急務となっています。この記事では、AI技術、特にコン...

データサイエンス

「GoとMetalシェーディング言語を通じてAppleのGPUをプログラミングする」

以下では、GoとネイティブCの間でcgoを使用してインターフェースを作成するプロセス、これを使用してAppleのMetal Performanc...