ジェネラティブ人工知能を解明:拡散モデルと視覚コンピューティングの進化についての詳細な解説

『ジェネラティブ人工知能の解明:拡散モデルと視覚コンピューティングの進化についての詳細な解説』

コンピュータグラフィックスおよび3Dコンピュータビジョングループは、コンピュータ生成の視覚を組み合わせたり、写真からシーンの物理的特性を推測したりするために、数十年間物理的に現実的なモデルを作成するために取り組んできました。ビジュアルエフェクト、ゲーム、画像およびビデオ処理、コンピュータ支援設計、仮想および拡張現実、データ可視化、ロボティクス、自律型車両、リモートセンシングなどを含むいくつかの業界は、レンダリング、シミュレーション、ジオメトリ処理、フォトグラメトリを含むこの手法に基づいて構築されています。生成的人工知能(AI)の台頭により、視覚コンピューティングについての完全に新しい思考のあり方が現れました。生成的AIシステムにより、書き込みのプロンプトまたは高レベルの人間の指示のみを入力として、写真、映画、または3Dオブジェクトの作成および操作が可能になります。

これらのテクノロジーは、以前は専門的なトピックの専門家にしか利用できなかった視覚コンピューティングの多くの時間を要するタスクを自動化します。Stable Diffusion、Imagen、Midjourney、またはDALL-E 2およびDALL-E 3などの視覚コンピューティングの基礎モデルは、生成的AIの無類の能力を開放しました。これらのモデルは、何億ものテキストと画像のペアリングで訓練された後、すでに「それをすべて見てきた」と言えるほど膨大で、数十億の学習可能なパラメータを持っています。これらのモデルは、非常に強力なグラフィックス処理ユニット(GPU)のクラウドで訓練されました。

画像、ビデオ、および3Dオブジェクトを生成するために使用される畳み込みニューラルネットワーク(CNN)に基づく拡散モデルは、CLIPなどのトランスフォーマベースのアーキテクチャを使用して計算されたテキストを多様な形式で統合します。2D画像生成のための基礎モデルを他の高次元のドメイン(ビデオや3Dシーン作成など)で使用するために、学術界にはまだ大きな貢献をする余地があります。

主により具体的な種類のトレーニングデータの必要性がこれを引き起こします。たとえば、ウェブ上には高品質で多様な3Dオブジェクトや設定の例よりも、低品質で一般的な2D写真の例がはるかに多くあります。また、ビデオ、3Dシーン、または4Dマルチビューコンシステントシーン合成に必要なより大きな次元に合わせて2Dイメージ生成システムをスケーリングする方法がすぐには明らかではありません。現在のネットワークアーキテクチャは、(ラベルのない)大量のビデオデータがウェブ上で利用可能であっても、訓練するには時間がかかりすぎるか、適切な計算リソースがないため、しばしば非効率なのです。これにより、拡散モデルは推論時間が非常に遅くなります。これは、ネットワークの大きさと反復的な性質に起因します。

図1:視覚コンピューティングの拡散モデルの理論と応用については、この最新の論文でカバーされています。これらのモデルは、最近では2Dおよび3D/4Dでのイメージ、ビデオ、およびオブジェクトの生成と変更のための受け入れられた基準として取って代わりました。

未解決の問題にもかかわらず、視覚コンピューティングの拡散モデルの数は昨年急増しました(図1に示すような例があります)。複数の大学の研究者によって開発されたこの最新のレポート(STAR)の目的は、視覚コンピューティングでの拡散モデルの応用に焦点を当てた多くの最近の出版物の整理されたレビューを提供し、拡散モデルの原理を教え、未解決の問題を特定することです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「トランスフォーマーの簡素化:理解できる単語を使った最先端の自然言語処理(NLP)-パート2- 入力」

ドラゴンは卵から孵り、赤ちゃんはおなかから飛び出し、AIに生成されたテキストは入力から始まります私たちはみんなどこかか...

AIニュース

「RBIは、Conversational AIとオフライン決済の使用をUPIで採用する」

デジタル決済において新たな地平を切り開くため、インド準備銀行(RBI)は高度な統合支払いインターフェース(UPI)の機能を...

人工知能

「安定した拡散深度2Imgを用いたバリエーション:ステップバイステップガイド」

「AI生成アートにおける形状と奥行きの保持のための初心者向けガイド:Stable Diffusion Depth2ImgとNode.jsの使用法」

機械学習

AIパワードテックカンパニーが、食品小売業者に供給チェーン管理での新たなスタートを支援します

低く垂れ下がっている果物について話しましょう。Afreshは、食品ロスを減らすために供給チェーンを効率化するAIスタートアッ...

機械学習

Google DeepMind(グーグルディープマインド)が「GNoME(グノーム)」を発表:新素材の安定性を予測し、探索の速度と効率を劇的に向上させる新しいディープラーニングツール

無機結晶は、コンピュータチップ、バッテリー、太陽電池など、現代の多くの技術にとって不可欠です。安定した結晶は、細心の...

AIニュース

「OpenAIやLM Studioに頼らずにAutoGenを使用する方法」

イントロダクション OpenAIやLMスタジオに頼らずに、あなた自身のAIチームを作成する準備はできていますか?もはや銀行を荒ら...