オックスフォードの研究者たちは、「Farm3D」というAIフレームワークを提案していますこのフレームワークは、2D拡散を蒸留して学習し、ビデオゲームなどのリアルタイムアプリケーションで利用できる関節のある3Dアニマルを生成することができます

Oxford researchers propose an AI framework called Farm3D that can generate articulated 3D animals by distilling 2D motion and is applicable in real-time applications such as video games.

生成AIの驚異的な成長は、DALL-E、Imagen、Stable Diffusionなどの技術により、テキストの手がかりから優れた画像を作成するという興味深い進展を引き起こしました。この成果は2Dデータを超えて広がるかもしれません。テキストから画像を生成するジェネレーターを使用して、3Dモデルの高品質な作成が可能です。最近DreamFusionによって実証されています。ジェネレーターは3Dのトレーニングを行っていませんが、3D形状を再構築するための十分なデータがあります。本記事では、テキストから画像ジェネレーターをより効果的に活用し、複数の3Dアイテムタイプの関節モデルを取得する方法について説明します。

つまり、DreamFusionのような単一の3Dアセットを作成しようとする代わりに、彼らは(牛、羊、馬などの)関節3Dオブジェクトのクラス全体の統計モデルを作成したいと考えています。このモデルは、単一の画像から実現可能な3Dアセットを作成するために、AR/VR、ゲーム、コンテンツの作成に使用することができます。彼らは、物の単一の写真からアイテムの関節3Dモデルを予測できるネットワークのトレーニングによって、この問題に取り組んでいます。このような再構築ネットワークを導入するために、以前の試みでは実データに依存していました。しかし、彼らはStable Diffusionなどの2D拡散モデルを使用して生成された合成データを使用することを提案しています。

オックスフォード大学のビジュアルジオメトリグループの研究者は、Farm3Dを提案しています。これは、DreamFusion、RealFusion、Make-a-video-3Dなどの3Dジェネレーターに追加されたものであり、テキストまたは画像を出発点にしてテスト時最適化を介して単一の3Dアセット(静的または動的)を作成するものです。これにはいくつかの利点があります。まず第一に、2D画像ジェネレーターは、オブジェクトカテゴリの正確で清潔な例を生成する傾向があり、暗黙のうちにトレーニングデータをキュレーションし、学習を合理化します。第二に、2Dジェネレーターは、各オブジェクトインスタンスの仮想ビューを通じて、与えられたオブジェクトの理解をさらに明確にします。第三に、リアルデータの収集(およびおそらく検閲)の必要性を排除することで、アプローチの適応性を高めます。

テスト時に、彼らのネットワークは数秒で単一の写真からフィードフォワード方式で再構築を実行し、固定された3Dまたは4Dアーティファクトではなく、操作可能な関節3Dモデルを生成します(例:アニメーション、再照明)。彼らの手法は、仮想入力のみで学習し、実際の画像にも一般化するため、合成と分析に適しています。動物の行動の研究や保存に応用することができます。Farm3Dは、2つの重要な技術的イノベーションに基づいています。まず、安定した拡散を誘発して、高速エンジニアリングを使用して、オブジェクトカテゴリの一般的にクリーンな画像の大規模なトレーニングセットを生成する方法を示します。

次に、単一の輝度場モデルに適合する代わりに、スコア蒸留サンプリング(SDS)ロスを拡張して、合成マルチビュー監視を実現する方法を示します。彼らの場合はMagicPonyです。写真幾何学的オートエンコーダーを訓練するために、写真幾何学的オートエンコーダーは、オブジェクトを画像形成に寄与するさまざまな要素に分割します(例:オブジェクトの関節形状、外観、カメラの視点、照明)。

これらの合成ビューは、SDS損失に供給され、オートエンコーダーの学習可能なパラメータに勾配更新と逆伝播が行われます。彼らはFarm3Dの3D製作および修復能力に基づいた定性評価を提供します。また、作成だけでなく再構築も可能なため、セマンティックなキーポイント転送などの解析タスクでFarm3Dを定量的に評価することができます。このモデルは実際の画像を使用せずにトレーニングするため、時間のかかるデータ収集とキュレーションを省きながら、さまざまなベースラインと同等またはそれ以上の性能を示します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Concrete MLと出会ってください:プライバシーの保護と安全な機械学習を可能にするオープンソースのFHEベースのツールキット

人工知能と機械学習は、過去数年間で驚異的な生産性の向上を示しています。機械学習は、すべてのプライバシーと機密性の手段...

AI研究

このAI研究は、事前のイメージングなしで物体のエッジを検出するためのノイズ耐性のある方法を開発しました

コンピュータビジョンでの重要な関心は、堅牢で効率的なエッジ検出アルゴリズムの開発に集中しています。 従来の微分演算に基...

データサイエンス

スタンフォード大学とUTオースティンの研究者は、Contrastive Preference Learning (CPL)を提案します:RLHFのためのRL-Freeな方法であり、任意のMDPsとオフポリシーのデータと一緒に動作します

モデルがパフォーマンスを向上させるにつれて、人間の好みと大規模事前トレーニング済みモデルの一致は、研究の中で注目を集...

人工知能

「本当に3億の仕事はAIによる置き換えでさらされるか失われるのか?」

ゴールドマン・サックスのレポートの著者たちは、AIの置き換えによって3億の仕事が影響を受ける可能性があると示唆しています...

コンピュータサイエンス

「AIを暴走させようとするハッカーたちに会ってみよう」

チャットボットは偏見を持ったり、欺瞞的であったり、危険な存在になり得ますハッカーたちはどのようにして正確にそれを解明...

データサイエンス

LLMs (Language Models)による電子メール効率化の次なるフロンティア

紹介 人工知能(AI)は、特に大規模な言語モデル(LLM)の台頭のおかげで、過去数年間で大きく成長しました。豊富な人間の言...