「UTオースティン大学の研究者が、安定した拡散を用いたAI手法「PSLD」を紹介追加のトレーニングなしにすべての線形問題を解決する」

Researchers at UT Austin introduce AI method 'PSLD' using stable diffusion to solve all linear problems without additional training.

逆問題を解決するためには、2つのアプローチのカテゴリがあります。監督学習の手法では、復元モデルがタスクを完了するために訓練され、非監督学習の手法では、生成モデルが学習した事前知識を利用して復元プロセスを誘導します。

生成モデリングの重要な進歩として、拡散モデルの登場があります。拡散モデルの明白な有効性の結果、研究者は逆問題の解決の可能性を探求し始めました。拡散モデルを使用して(線形および非線形の)逆問題を効率的に解決するために、いくつかの近似アルゴリズムが開発されています。これらの手法では、事前学習済みの拡散モデルをデータ分布の柔軟な事前知識として使用します。

Stable Diffusionなどの最先端の基礎モデルは、Latent Diffusion Models(LDMs)によって駆動されています。これらのモデルは、画像、動画、オーディオ、医療のドメイン分布(MRIおよびタンパク質)など、さまざまなデータモダリティにわたるさまざまなアプリケーションを可能にしました。しかし、現在の逆問題解決アルゴリズムは、Latent Diffusion Modelsとは互換性がありません。逆問題に対しては、各タスクごとにベースモデル(Stable Diffusionなど)を使用するためにファインチューニングを行う必要があります。

テキサス大学オースティン校の研究チームによる最近の研究では、事前学習済みのLatent Diffusion Modelsを使用して一般的な逆問題を解決するための最初のフレームワークを提案しています。追加の勾配更新ステップにより、デコーディング-エンコーディングマップが損失のないサンプルレイテントに向かうように拡散プロセスを誘導します。これはDPSの拡張のための彼らの核心概念です。彼らのアルゴリズムであるPosterior Sampling with Latent Diffusion(PSLD)は、広範な問題に対してアクセス可能な基礎モデルの力を利用して、ファインチューニングなしで従来の手法を上回りました。

研究者たちは、PSLDアプローチを最先端のDPSアルゴリズムと比較して、ランダムインペインティング、ボックスインペインティング、ノイズ除去、ガウシアンデブラー、モーションデブラー、任意のマスキング、およびスーパーレゾリューションなど、さまざまな画像の復元および強化タスクで評価しました。彼らの分析には、LAIONデータセットで訓練されたStable Diffusionが使用されました。結果は最先端のパフォーマンスを示しました。

研究者たちはまた、このデータセットとその基礎モデルの固有のバイアスによってアルゴリズムが無意識に影響を受ける可能性にも気付きました。提案された手法は、どのLDMにも互換性があります。研究チームは、これらの問題が改良されたデータセットで訓練された新しい基礎モデルによって解決されると考えています。また、非線形逆問題の解決に対して潜在ベースの基礎モデルを適用することはまだ調査されていないことを強調しています。アプローチがDPSの近似に基づいているため、これが一般化されることを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

メタが「AudioCraft」を発表:テキストを音声や音楽に変換するためのAIツール

Metaは、Facebook、Instagram、WhatsAppなどのソーシャルメディアプラットフォームを展開しているテックジャイアントであり、...

人工知能

「従来のAI vs 生成的AI」

初心者が伝統的なAIと生成的AIの違いを理解するのを助ける

データサイエンス

ICAと現実のカクテルパーティの問題

「独立成分分析(ICA)は、1990年代以降の重要な発展¹以降、一般的に使用されるようになったデータ分解および前処理技術ですI...

機械学習

「ペンの向こう側:視覚的な原型からの手書きテキスト生成におけるAIの芸術性」

個々の作家の独自の書道スタイルを再現する手書きテキスト生成(HTG)という新興の分野は、手書きテキスト認識(HTR)モデル...

データサイエンス

マシンラーニングエンジニアは、実際に何をしているのでしょうか?

「タイトルはもちろんトリックの質問ですデータサイエンティストの前にも、機械学習エンジニアというタイトルは、私たちの専...

機械学習

「MMMUと出会おう:専門家レベルのマルチモーダルなチャレンジに向けたAIベンチマークで人工知能の一般的な発展への道筋をつける」

マルチモーダルプリトレーニングの進歩は、LXMERT、UNITER、VinVL、Oscar、VilBert、VLPなどのモデルに示されるように、さま...