ジェネラティブ人工知能を解明:拡散モデルと視覚コンピューティングの進化についての詳細な解説

『ジェネラティブ人工知能の解明:拡散モデルと視覚コンピューティングの進化についての詳細な解説』

コンピュータグラフィックスおよび3Dコンピュータビジョングループは、コンピュータ生成の視覚を組み合わせたり、写真からシーンの物理的特性を推測したりするために、数十年間物理的に現実的なモデルを作成するために取り組んできました。ビジュアルエフェクト、ゲーム、画像およびビデオ処理、コンピュータ支援設計、仮想および拡張現実、データ可視化、ロボティクス、自律型車両、リモートセンシングなどを含むいくつかの業界は、レンダリング、シミュレーション、ジオメトリ処理、フォトグラメトリを含むこの手法に基づいて構築されています。生成的人工知能(AI)の台頭により、視覚コンピューティングについての完全に新しい思考のあり方が現れました。生成的AIシステムにより、書き込みのプロンプトまたは高レベルの人間の指示のみを入力として、写真、映画、または3Dオブジェクトの作成および操作が可能になります。

これらのテクノロジーは、以前は専門的なトピックの専門家にしか利用できなかった視覚コンピューティングの多くの時間を要するタスクを自動化します。Stable Diffusion、Imagen、Midjourney、またはDALL-E 2およびDALL-E 3などの視覚コンピューティングの基礎モデルは、生成的AIの無類の能力を開放しました。これらのモデルは、何億ものテキストと画像のペアリングで訓練された後、すでに「それをすべて見てきた」と言えるほど膨大で、数十億の学習可能なパラメータを持っています。これらのモデルは、非常に強力なグラフィックス処理ユニット(GPU)のクラウドで訓練されました。

画像、ビデオ、および3Dオブジェクトを生成するために使用される畳み込みニューラルネットワーク(CNN)に基づく拡散モデルは、CLIPなどのトランスフォーマベースのアーキテクチャを使用して計算されたテキストを多様な形式で統合します。2D画像生成のための基礎モデルを他の高次元のドメイン(ビデオや3Dシーン作成など)で使用するために、学術界にはまだ大きな貢献をする余地があります。

主により具体的な種類のトレーニングデータの必要性がこれを引き起こします。たとえば、ウェブ上には高品質で多様な3Dオブジェクトや設定の例よりも、低品質で一般的な2D写真の例がはるかに多くあります。また、ビデオ、3Dシーン、または4Dマルチビューコンシステントシーン合成に必要なより大きな次元に合わせて2Dイメージ生成システムをスケーリングする方法がすぐには明らかではありません。現在のネットワークアーキテクチャは、(ラベルのない)大量のビデオデータがウェブ上で利用可能であっても、訓練するには時間がかかりすぎるか、適切な計算リソースがないため、しばしば非効率なのです。これにより、拡散モデルは推論時間が非常に遅くなります。これは、ネットワークの大きさと反復的な性質に起因します。

図1:視覚コンピューティングの拡散モデルの理論と応用については、この最新の論文でカバーされています。これらのモデルは、最近では2Dおよび3D/4Dでのイメージ、ビデオ、およびオブジェクトの生成と変更のための受け入れられた基準として取って代わりました。

未解決の問題にもかかわらず、視覚コンピューティングの拡散モデルの数は昨年急増しました(図1に示すような例があります)。複数の大学の研究者によって開発されたこの最新のレポート(STAR)の目的は、視覚コンピューティングでの拡散モデルの応用に焦点を当てた多くの最近の出版物の整理されたレビューを提供し、拡散モデルの原理を教え、未解決の問題を特定することです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

AIにおいて大胆であることは、最初から責任を持つことを意味します

GoogleのJames Manyika氏は、Googleが人々と社会に利益をもたらすためにAIを責任ある形で適用する方法について話しています

機械学習

「AIガバナンスの12のコア原則」

ベテランのAI開発者であるサラは、道徳的な十字路に立たされた一つのアルゴリズムは効率を最大化する一方で、プライバシーの...

人工知能

「責任ある生成AIのための3つの新興プラクティス」

「中間報告として、私たちはこの指針に基づいて行った事前の設計、レビュー、および生成型AIの開発に基づいて、私たちのベス...

機械学習

ソフトウェア開発におけるAIの将来:トレンドとイノベーション

「ソフトウェア開発におけるAIの絶え間なく変化する風景を探索してくださいコーディングやプログラミングの未来を形作る新興...

人工知能

「人工知能のイメージング:GANの複雑さとメカニズムの学術的な考察」

GANは、リアルなデータの作成能力を示しています画像の作成から医薬品の革新まで、さまざまな領域での潜在力を持っています

機械学習

「AIを活用した言語学習のためのパーソナルボイスボット」

新しい言語をマスターする最も効果的な方法は何ですか?話すことです!しかし、他の人の前で新しい単語やフレーズを試すこと...