オックスフォードの研究者たちは、「Farm3D」というAIフレームワークを提案していますこのフレームワークは、2D拡散を蒸留して学習し、ビデオゲームなどのリアルタイムアプリケーションで利用できる関節のある3Dアニマルを生成することができます

Oxford researchers propose an AI framework called Farm3D that can generate articulated 3D animals by distilling 2D motion and is applicable in real-time applications such as video games.

生成AIの驚異的な成長は、DALL-E、Imagen、Stable Diffusionなどの技術により、テキストの手がかりから優れた画像を作成するという興味深い進展を引き起こしました。この成果は2Dデータを超えて広がるかもしれません。テキストから画像を生成するジェネレーターを使用して、3Dモデルの高品質な作成が可能です。最近DreamFusionによって実証されています。ジェネレーターは3Dのトレーニングを行っていませんが、3D形状を再構築するための十分なデータがあります。本記事では、テキストから画像ジェネレーターをより効果的に活用し、複数の3Dアイテムタイプの関節モデルを取得する方法について説明します。

つまり、DreamFusionのような単一の3Dアセットを作成しようとする代わりに、彼らは(牛、羊、馬などの)関節3Dオブジェクトのクラス全体の統計モデルを作成したいと考えています。このモデルは、単一の画像から実現可能な3Dアセットを作成するために、AR/VR、ゲーム、コンテンツの作成に使用することができます。彼らは、物の単一の写真からアイテムの関節3Dモデルを予測できるネットワークのトレーニングによって、この問題に取り組んでいます。このような再構築ネットワークを導入するために、以前の試みでは実データに依存していました。しかし、彼らはStable Diffusionなどの2D拡散モデルを使用して生成された合成データを使用することを提案しています。

オックスフォード大学のビジュアルジオメトリグループの研究者は、Farm3Dを提案しています。これは、DreamFusion、RealFusion、Make-a-video-3Dなどの3Dジェネレーターに追加されたものであり、テキストまたは画像を出発点にしてテスト時最適化を介して単一の3Dアセット(静的または動的)を作成するものです。これにはいくつかの利点があります。まず第一に、2D画像ジェネレーターは、オブジェクトカテゴリの正確で清潔な例を生成する傾向があり、暗黙のうちにトレーニングデータをキュレーションし、学習を合理化します。第二に、2Dジェネレーターは、各オブジェクトインスタンスの仮想ビューを通じて、与えられたオブジェクトの理解をさらに明確にします。第三に、リアルデータの収集(およびおそらく検閲)の必要性を排除することで、アプローチの適応性を高めます。

テスト時に、彼らのネットワークは数秒で単一の写真からフィードフォワード方式で再構築を実行し、固定された3Dまたは4Dアーティファクトではなく、操作可能な関節3Dモデルを生成します(例:アニメーション、再照明)。彼らの手法は、仮想入力のみで学習し、実際の画像にも一般化するため、合成と分析に適しています。動物の行動の研究や保存に応用することができます。Farm3Dは、2つの重要な技術的イノベーションに基づいています。まず、安定した拡散を誘発して、高速エンジニアリングを使用して、オブジェクトカテゴリの一般的にクリーンな画像の大規模なトレーニングセットを生成する方法を示します。

次に、単一の輝度場モデルに適合する代わりに、スコア蒸留サンプリング(SDS)ロスを拡張して、合成マルチビュー監視を実現する方法を示します。彼らの場合はMagicPonyです。写真幾何学的オートエンコーダーを訓練するために、写真幾何学的オートエンコーダーは、オブジェクトを画像形成に寄与するさまざまな要素に分割します(例:オブジェクトの関節形状、外観、カメラの視点、照明)。

これらの合成ビューは、SDS損失に供給され、オートエンコーダーの学習可能なパラメータに勾配更新と逆伝播が行われます。彼らはFarm3Dの3D製作および修復能力に基づいた定性評価を提供します。また、作成だけでなく再構築も可能なため、セマンティックなキーポイント転送などの解析タスクでFarm3Dを定量的に評価することができます。このモデルは実際の画像を使用せずにトレーニングするため、時間のかかるデータ収集とキュレーションを省きながら、さまざまなベースラインと同等またはそれ以上の性能を示します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

OpenAIがBaby Llamaを発表 - 低電力デバイス向けのLLM!

人工知能の世界からの最新ニュース! OpenAIの有名な深層学習の専門家、Andrej Karpathy氏が、リソース制約のあるデバイス上...

AI研究

UC San Diegoの研究者DYffusion:空間的時間予測のためのダイナミクスに基づく拡散モデル

ダイナミックシステムの将来の振る舞いを予測することは、システムの進化を駆動する基礎的なダイナミクスを理解し、将来の状...

AIニュース

「14%のコンバージョン率成長ストーリー:Pixis AIとのダイナミックなパートナーシップを解き明かすJOE&THE JUICE」

この html を日本語に翻訳する(結果には html コードを保持する): 2002年、JOE & THE JUICE はデンマークの都市オアシ...

機械学習

直感的にR2と調整済みR2のメトリックを探索する

R2は、回帰型の機械学習タスクの評価メトリックとして広く使用されていますそれは、目的の特徴量(従属特徴量)の分散のどれ...

AI研究

MONAI 生成モデル:医療画像の進歩に向けたオープンソースプラットフォーム

最近の生成型人工知能のブレークスルーにより、特に医療画像処理の分野で重要な進展が見られています。しかし、これらの生成...