「UTオースティン大学の研究者が、安定した拡散を用いたAI手法「PSLD」を紹介追加のトレーニングなしにすべての線形問題を解決する」

Researchers at UT Austin introduce AI method 'PSLD' using stable diffusion to solve all linear problems without additional training.

逆問題を解決するためには、2つのアプローチのカテゴリがあります。監督学習の手法では、復元モデルがタスクを完了するために訓練され、非監督学習の手法では、生成モデルが学習した事前知識を利用して復元プロセスを誘導します。

生成モデリングの重要な進歩として、拡散モデルの登場があります。拡散モデルの明白な有効性の結果、研究者は逆問題の解決の可能性を探求し始めました。拡散モデルを使用して(線形および非線形の)逆問題を効率的に解決するために、いくつかの近似アルゴリズムが開発されています。これらの手法では、事前学習済みの拡散モデルをデータ分布の柔軟な事前知識として使用します。

Stable Diffusionなどの最先端の基礎モデルは、Latent Diffusion Models(LDMs)によって駆動されています。これらのモデルは、画像、動画、オーディオ、医療のドメイン分布(MRIおよびタンパク質)など、さまざまなデータモダリティにわたるさまざまなアプリケーションを可能にしました。しかし、現在の逆問題解決アルゴリズムは、Latent Diffusion Modelsとは互換性がありません。逆問題に対しては、各タスクごとにベースモデル(Stable Diffusionなど)を使用するためにファインチューニングを行う必要があります。

テキサス大学オースティン校の研究チームによる最近の研究では、事前学習済みのLatent Diffusion Modelsを使用して一般的な逆問題を解決するための最初のフレームワークを提案しています。追加の勾配更新ステップにより、デコーディング-エンコーディングマップが損失のないサンプルレイテントに向かうように拡散プロセスを誘導します。これはDPSの拡張のための彼らの核心概念です。彼らのアルゴリズムであるPosterior Sampling with Latent Diffusion(PSLD)は、広範な問題に対してアクセス可能な基礎モデルの力を利用して、ファインチューニングなしで従来の手法を上回りました。

研究者たちは、PSLDアプローチを最先端のDPSアルゴリズムと比較して、ランダムインペインティング、ボックスインペインティング、ノイズ除去、ガウシアンデブラー、モーションデブラー、任意のマスキング、およびスーパーレゾリューションなど、さまざまな画像の復元および強化タスクで評価しました。彼らの分析には、LAIONデータセットで訓練されたStable Diffusionが使用されました。結果は最先端のパフォーマンスを示しました。

研究者たちはまた、このデータセットとその基礎モデルの固有のバイアスによってアルゴリズムが無意識に影響を受ける可能性にも気付きました。提案された手法は、どのLDMにも互換性があります。研究チームは、これらの問題が改良されたデータセットで訓練された新しい基礎モデルによって解決されると考えています。また、非線形逆問題の解決に対して潜在ベースの基礎モデルを適用することはまだ調査されていないことを強調しています。アプローチがDPSの近似に基づいているため、これが一般化されることを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「識別可能であるが可視性がない:プライバシー保護に配慮した人物再識別スキーム(論文要約)」

人物再識別(Person Re-ID)は、異なる場所や時間で監視カメラを使用して人々を識別するための高度なコンピュータビジョンの...

AI研究

ウィスコンシン大学とバイトダンスの研究者は、PanoHeadを紹介しますこれは、単一のビュー画像のみでビュー一貫性のあるフルヘッド画像を合成する、初の3D GANフレームワークです

コンピュータビジョンとグラフィックスでは、写真のような写実的な肖像画像合成が常に強調されており、仮想アバター、テレプ...

機械学習

「Amazon SageMakerを使用して数百のモデルにスケールされたファウンデーションモデルの推論 - パート1」

「ファンデーションモデル(FM)の民主化が一般化し、AIを活用したサービスへの需要が増加するにつれ、ソフトウェアプロバイ...

機械学習

「3Dシーン表現の境界を破る:新しいAIテクニックによる高速かつ効率的なレンダリングとストレージ要件の削減によるゲームの変革」

NeRFは、連続的な3Dボリュームとしてシーンを表します。離散的な3Dメッシュやポイントクラウドの代わりに、シーン内の任意の3...

機械学習

「トップの画像処理Pythonライブラリ」

コンピュータビジョンは、デジタル写真、ビデオ、その他の視覚的な入力から有用な情報を抽出し、そのデータに基づいてアクシ...

AI研究

MITの研究者は、ディープラーニングと物理学を組み合わせて、動きによって損傷を受けたMRIスキャンを修正する方法を開発しました

「この課題は、ぼやけたJPEG画像以上のものです医療画像の動きのアーティファクトを修正するには、より高度なアプローチが必...