ジェネラティブ人工知能を解明：拡散モデルと視覚コンピューティングの進化についての詳細な解説

『ジェネラティブ人工知能の解明：拡散モデルと視覚コンピューティングの進化についての詳細な解説』

コンピュータグラフィックスおよび3Dコンピュータビジョングループは、コンピュータ生成の視覚を組み合わせたり、写真からシーンの物理的特性を推測したりするために、数十年間物理的に現実的なモデルを作成するために取り組んできました。ビジュアルエフェクト、ゲーム、画像およびビデオ処理、コンピュータ支援設計、仮想および拡張現実、データ可視化、ロボティクス、自律型車両、リモートセンシングなどを含むいくつかの業界は、レンダリング、シミュレーション、ジオメトリ処理、フォトグラメトリを含むこの手法に基づいて構築されています。生成的人工知能（AI）の台頭により、視覚コンピューティングについての完全に新しい思考のあり方が現れました。生成的AIシステムにより、書き込みのプロンプトまたは高レベルの人間の指示のみを入力として、写真、映画、または3Dオブジェクトの作成および操作が可能になります。

これらのテクノロジーは、以前は専門的なトピックの専門家にしか利用できなかった視覚コンピューティングの多くの時間を要するタスクを自動化します。Stable Diffusion、Imagen、Midjourney、またはDALL-E 2およびDALL-E 3などの視覚コンピューティングの基礎モデルは、生成的AIの無類の能力を開放しました。これらのモデルは、何億ものテキストと画像のペアリングで訓練された後、すでに「それをすべて見てきた」と言えるほど膨大で、数十億の学習可能なパラメータを持っています。これらのモデルは、非常に強力なグラフィックス処理ユニット（GPU）のクラウドで訓練されました。

画像、ビデオ、および3Dオブジェクトを生成するために使用される畳み込みニューラルネットワーク（CNN）に基づく拡散モデルは、CLIPなどのトランスフォーマベースのアーキテクチャを使用して計算されたテキストを多様な形式で統合します。2D画像生成のための基礎モデルを他の高次元のドメイン（ビデオや3Dシーン作成など）で使用するために、学術界にはまだ大きな貢献をする余地があります。

主により具体的な種類のトレーニングデータの必要性がこれを引き起こします。たとえば、ウェブ上には高品質で多様な3Dオブジェクトや設定の例よりも、低品質で一般的な2D写真の例がはるかに多くあります。また、ビデオ、3Dシーン、または4Dマルチビューコンシステントシーン合成に必要なより大きな次元に合わせて2Dイメージ生成システムをスケーリングする方法がすぐには明らかではありません。現在のネットワークアーキテクチャは、（ラベルのない）大量のビデオデータがウェブ上で利用可能であっても、訓練するには時間がかかりすぎるか、適切な計算リソースがないため、しばしば非効率なのです。これにより、拡散モデルは推論時間が非常に遅くなります。これは、ネットワークの大きさと反復的な性質に起因します。

**図1：**視覚コンピューティングの拡散モデルの理論と応用については、この最新の論文でカバーされています。これらのモデルは、最近では2Dおよび3D/4Dでのイメージ、ビデオ、およびオブジェクトの生成と変更のための受け入れられた基準として取って代わりました。

未解決の問題にもかかわらず、視覚コンピューティングの拡散モデルの数は昨年急増しました（図1に示すような例があります）。複数の大学の研究者によって開発されたこの最新のレポート（STAR）の目的は、視覚コンピューティングでの拡散モデルの応用に焦点を当てた多くの最近の出版物の整理されたレビューを提供し、拡散モデルの原理を教え、未解決の問題を特定することです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickGenerative AIMachine learning

Was this article helpful?

93 out of 132 found this helpful

ジェネラティブ人工知能を解明：拡散モデルと視覚コンピューティングの進化についての詳細な解説

Was this article helpful?

『平易な日本語で解説する基本的な10の統計概念』

「ラズベリーパイ上でApache Airflowを使用してデータを収集する」

機械学習

データサイエンスのプロフェッショナルにおすすめのトップ5のAIツール

「ビジネスを成長させるための50のChatGPTプロンプト」

適切なバランスを取る：機械学習モデルにおける過学習と過小適合の理解

「Gen-AI：楽しさ、恐怖、そして未来！」

「AIの利用者と小規模事業者を保護するための法的措置を講じる」

スタンフォード大学の研究は、PointOdysseyを紹介します：長期ポイント追跡のための大規模な合成データセット