ジェネラティブ人工知能を解明:拡散モデルと視覚コンピューティングの進化についての詳細な解説

『ジェネラティブ人工知能の解明:拡散モデルと視覚コンピューティングの進化についての詳細な解説』

コンピュータグラフィックスおよび3Dコンピュータビジョングループは、コンピュータ生成の視覚を組み合わせたり、写真からシーンの物理的特性を推測したりするために、数十年間物理的に現実的なモデルを作成するために取り組んできました。ビジュアルエフェクト、ゲーム、画像およびビデオ処理、コンピュータ支援設計、仮想および拡張現実、データ可視化、ロボティクス、自律型車両、リモートセンシングなどを含むいくつかの業界は、レンダリング、シミュレーション、ジオメトリ処理、フォトグラメトリを含むこの手法に基づいて構築されています。生成的人工知能(AI)の台頭により、視覚コンピューティングについての完全に新しい思考のあり方が現れました。生成的AIシステムにより、書き込みのプロンプトまたは高レベルの人間の指示のみを入力として、写真、映画、または3Dオブジェクトの作成および操作が可能になります。

これらのテクノロジーは、以前は専門的なトピックの専門家にしか利用できなかった視覚コンピューティングの多くの時間を要するタスクを自動化します。Stable Diffusion、Imagen、Midjourney、またはDALL-E 2およびDALL-E 3などの視覚コンピューティングの基礎モデルは、生成的AIの無類の能力を開放しました。これらのモデルは、何億ものテキストと画像のペアリングで訓練された後、すでに「それをすべて見てきた」と言えるほど膨大で、数十億の学習可能なパラメータを持っています。これらのモデルは、非常に強力なグラフィックス処理ユニット(GPU)のクラウドで訓練されました。

画像、ビデオ、および3Dオブジェクトを生成するために使用される畳み込みニューラルネットワーク(CNN)に基づく拡散モデルは、CLIPなどのトランスフォーマベースのアーキテクチャを使用して計算されたテキストを多様な形式で統合します。2D画像生成のための基礎モデルを他の高次元のドメイン(ビデオや3Dシーン作成など)で使用するために、学術界にはまだ大きな貢献をする余地があります。

主により具体的な種類のトレーニングデータの必要性がこれを引き起こします。たとえば、ウェブ上には高品質で多様な3Dオブジェクトや設定の例よりも、低品質で一般的な2D写真の例がはるかに多くあります。また、ビデオ、3Dシーン、または4Dマルチビューコンシステントシーン合成に必要なより大きな次元に合わせて2Dイメージ生成システムをスケーリングする方法がすぐには明らかではありません。現在のネットワークアーキテクチャは、(ラベルのない)大量のビデオデータがウェブ上で利用可能であっても、訓練するには時間がかかりすぎるか、適切な計算リソースがないため、しばしば非効率なのです。これにより、拡散モデルは推論時間が非常に遅くなります。これは、ネットワークの大きさと反復的な性質に起因します。

図1:視覚コンピューティングの拡散モデルの理論と応用については、この最新の論文でカバーされています。これらのモデルは、最近では2Dおよび3D/4Dでのイメージ、ビデオ、およびオブジェクトの生成と変更のための受け入れられた基準として取って代わりました。

未解決の問題にもかかわらず、視覚コンピューティングの拡散モデルの数は昨年急増しました(図1に示すような例があります)。複数の大学の研究者によって開発されたこの最新のレポート(STAR)の目的は、視覚コンピューティングでの拡散モデルの応用に焦点を当てた多くの最近の出版物の整理されたレビューを提供し、拡散モデルの原理を教え、未解決の問題を特定することです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

自己対戦を通じてエージェントをトレーニングして、三目並べをマスターする

あぁ!小学校!これは私たちが識字、算数、そして最適な○×ゲームのプレイなど、貴重なスキルを学んだ時期です友達と○×ゲーム...

データサイエンス

「迅速エンジニアリングのための普遍的な道筋:コンテクストの足場フレームワーク(CSF)」

「最近の記事では、私はChatGPT4の新しいプロンプトエンジニアリングアプローチを探求しましたそれはプログラムシミュレーシ...

AIニュース

創造性とAIに関するレフィク・アナドールとの対話

Mira Lane は、先駆的なアーティスト Refik Anadol と共に、AIが創造力を強化している方法を探求しています

機械学習

「Amazon SageMakerでのRayを使用した効果的な負荷分散」

以前の記事(たとえば、ここ)では、DNNトレーニングワークロードのプロファイリングとパフォーマンスの最適化の重要性につい...

AI研究

アップルの研究者がDeepPCRを公開:通常は順次処理される操作を並列化してニューラルネットワークの推論とトレーニングの速度を向上させる新しい機械学習アルゴリズム

人工知能や深層学習の進展により、さまざまな革新が実現されています。テキストや画像の合成、分割、分類などの複雑なタスク...

データサイエンス

推論:可観測性のAI主導の未来?

この記事では、オペラビリティの後続としての推論、AIOpsからの教訓、その成功の不足、および推論ソリューションの新興原則に...