オックスフォードの研究者たちは、「Farm3D」というAIフレームワークを提案していますこのフレームワークは、2D拡散を蒸留して学習し、ビデオゲームなどのリアルタイムアプリケーションで利用できる関節のある3Dアニマルを生成することができます

Oxford researchers propose an AI framework called Farm3D that can generate articulated 3D animals by distilling 2D motion and is applicable in real-time applications such as video games.

生成AIの驚異的な成長は、DALL-E、Imagen、Stable Diffusionなどの技術により、テキストの手がかりから優れた画像を作成するという興味深い進展を引き起こしました。この成果は2Dデータを超えて広がるかもしれません。テキストから画像を生成するジェネレーターを使用して、3Dモデルの高品質な作成が可能です。最近DreamFusionによって実証されています。ジェネレーターは3Dのトレーニングを行っていませんが、3D形状を再構築するための十分なデータがあります。本記事では、テキストから画像ジェネレーターをより効果的に活用し、複数の3Dアイテムタイプの関節モデルを取得する方法について説明します。

つまり、DreamFusionのような単一の3Dアセットを作成しようとする代わりに、彼らは(牛、羊、馬などの)関節3Dオブジェクトのクラス全体の統計モデルを作成したいと考えています。このモデルは、単一の画像から実現可能な3Dアセットを作成するために、AR/VR、ゲーム、コンテンツの作成に使用することができます。彼らは、物の単一の写真からアイテムの関節3Dモデルを予測できるネットワークのトレーニングによって、この問題に取り組んでいます。このような再構築ネットワークを導入するために、以前の試みでは実データに依存していました。しかし、彼らはStable Diffusionなどの2D拡散モデルを使用して生成された合成データを使用することを提案しています。

オックスフォード大学のビジュアルジオメトリグループの研究者は、Farm3Dを提案しています。これは、DreamFusion、RealFusion、Make-a-video-3Dなどの3Dジェネレーターに追加されたものであり、テキストまたは画像を出発点にしてテスト時最適化を介して単一の3Dアセット(静的または動的)を作成するものです。これにはいくつかの利点があります。まず第一に、2D画像ジェネレーターは、オブジェクトカテゴリの正確で清潔な例を生成する傾向があり、暗黙のうちにトレーニングデータをキュレーションし、学習を合理化します。第二に、2Dジェネレーターは、各オブジェクトインスタンスの仮想ビューを通じて、与えられたオブジェクトの理解をさらに明確にします。第三に、リアルデータの収集(およびおそらく検閲)の必要性を排除することで、アプローチの適応性を高めます。

テスト時に、彼らのネットワークは数秒で単一の写真からフィードフォワード方式で再構築を実行し、固定された3Dまたは4Dアーティファクトではなく、操作可能な関節3Dモデルを生成します(例:アニメーション、再照明)。彼らの手法は、仮想入力のみで学習し、実際の画像にも一般化するため、合成と分析に適しています。動物の行動の研究や保存に応用することができます。Farm3Dは、2つの重要な技術的イノベーションに基づいています。まず、安定した拡散を誘発して、高速エンジニアリングを使用して、オブジェクトカテゴリの一般的にクリーンな画像の大規模なトレーニングセットを生成する方法を示します。

次に、単一の輝度場モデルに適合する代わりに、スコア蒸留サンプリング(SDS)ロスを拡張して、合成マルチビュー監視を実現する方法を示します。彼らの場合はMagicPonyです。写真幾何学的オートエンコーダーを訓練するために、写真幾何学的オートエンコーダーは、オブジェクトを画像形成に寄与するさまざまな要素に分割します(例:オブジェクトの関節形状、外観、カメラの視点、照明)。

これらの合成ビューは、SDS損失に供給され、オートエンコーダーの学習可能なパラメータに勾配更新と逆伝播が行われます。彼らはFarm3Dの3D製作および修復能力に基づいた定性評価を提供します。また、作成だけでなく再構築も可能なため、セマンティックなキーポイント転送などの解析タスクでFarm3Dを定量的に評価することができます。このモデルは実際の画像を使用せずにトレーニングするため、時間のかかるデータ収集とキュレーションを省きながら、さまざまなベースラインと同等またはそれ以上の性能を示します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AutoMLのジレンマ

「AutoMLは過去数年間、注目の的となってきましたそのハイプは非常に高まり、人間の機械学習の専門家を置き換えるという野心...

機械学習

一緒にAIを学ぶ- Towards AIコミュニティニュースレター#3

おはようございます、AI愛好家のみなさん!今週のポッドキャストエピソードをシェアできることをとても嬉しく思います今回は...

データサイエンス

3つの季節性のタイプとその検出方法

季節性は、時系列を構成する主要な要素の1つです季節性は、一定の期間で繰り返され、似た強度で発生する系統的な動きを指しま...

機械学習

マイクロソフトが「TypeChat」をリリース:型を使用して自然言語インターフェースを簡単に構築できるAIライブラリ

MicrosoftのTypeChatライブラリは、大規模な言語モデル(LLM)に基づいたタイプベースの自然言語インターフェースの作成を容...

データサイエンス

「振り返って奇妙さに向き合え」

「従来の予測分析は、ほとんどの問題を見るための2つのパラダイムを提供しています:点推定と分類現代のデータサイエンスは主...

機械学習

新技術における公共の利益の定義

新しいオンラインジャーナルが、テクノロジーを設計、実装、評価する個人の社会的責任について議論するために、MITコミュニテ...