スタンフォードの研究者たちは、分散変換の問題に適したシンプルかつスケーラブルな拡張であるDDBMsを提案しています

『スタンフォードの研究者たちが提案する、分散変換問題向けのシンプルかつスケーラブルな拡張DDBMs』

拡散モデルは最近、人工知能コミュニティで多くの成功と注目を浴びています。生成モデルの一種であるこれらのモデルは、データをノイズに変換する拡散プロセスを効果的に逆転させることができるため、複雑なデータ分布を理解することができます。この手法は、特に高品質な画像の生成において、従来のGANベースの技術を凌駕する成果を上げています。近代のテキストから画像を生成するAIシステムの開発は、これらの拡散モデルの進展によって可能になりました。

拡散モデルは一部の領域では非常に優れた性能を発揮していますが、他の領域ではそうではありません。画像の変換などのアプリケーションには適用が難しいです。このようなアプリケーションでは、対応する二つの画像のマッピングが目標であり、事前に存在するランダムノイズの分布を前提としています。この問題に対処するためには、モデルの訓練やサンプルアプローチの手動調整などの複雑な手法が頻繁に使用されます。しかし、これらの手法は理論的な根拠が弱く、通常は破損した画像から正しい画像への一方向のマッピングをサポートし、サイクルの一貫性の概念を排除しています。

従来の拡散モデルの枠組みとは対照的に、研究チームはデノイジング拡散ブリッジモデル(DDBMs)として知られる新しいユニークな戦略を導入しました。拡散ブリッジは、エンドポイントとして指定された二つの対応する分布の間を滑らかに補完する一連のプロセスのクラスであり、DDBMsはこのアイデアを利用しています。DDBMsは、ランダムノイズから開始するのではなく、データから拡散ブリッジのスコアを直接導出します。その後、学習済みスコアは、一つのエンドポイント分布から他のエンドポイント分布へマッピングする際に確率微分方程式を解くことによってモデルを誘導します。

DDBMsの持つ多様な生成モデルの組み合わせ能力は、その主要な利点の一つです。OT-Flow-Matchingおよびスコアベースの拡散モデルのコンポーネントを容易に組み合わせることができます。これにより、現在の設計上の決定やアーキテクチャ戦略を適応させてより一般的な課題に対処することができます。

研究チームは、実証分析のために困難な画像データセットにDDBMsを適用し、ピクセルレベルおよび潜在空間モデルの双方を考慮しました。DDBMsは、一般的な画像変換タスクにおいてベースラインアプローチを大幅に上回り、画像の変更に対処する際の適性を示しました。DDBMsは、ソースの分布がランダムノイズであると仮定した場合に、画像生成に特化した最先端の技術と競争力のある結果を生み出します(FIDスコアで評価)。

これは、DDBMsが与えられた状況に特化していない場合でも、様々な生成タスクで適応性と信頼性があることを示しています。結論として、拡散モデルは様々な生成タスクにおいて効果的ですが、画像の変換などの作業には欠点があります。提案されたDDBMsは、拡散ベースの生成と分布変換の手法を組み合わせることで、性能と柔軟性を向上させる革新的かつスケーラブルな解決策を提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

AIブームの裏にある「デジタル・スウェットショップ」で働く海外労働者の軍団

フィリピンでは、非公式な政府の推定によると、200万人以上がAIの広範な部分として「クラウドワーク」を行っています

AI研究

『アクション-ユニオン・ラーニングによる人間-ロボットインタラクションのための弱教師アクションセグメンテーションの改善』と題する 富士通の新しいAIリサーチが発表されました

人間の行動認識の最近の進展は、人間とロボットの相互作用(HRI)において驚くべきブレークスルーを実現しました。この技術によ...

人工知能

「最大AIパフォーマンス:最新のNVIDIA GPUによって高速化されたAdobeの最新アップデートは、何百万ものクリエイターのワークフローを改善します」

生成AIは、多くの産業で創造的な人々が思い描いたアイデアを類まれな速さで実現するのに役立っています。 この技術は、Adobe ...

AIニュース

OpenAIがグローバルイルミネーションを引き継ぎ、初の企業買収を祝います

テック界に波紋を広げる動きとして、人工知能の先駆的存在であるOpenAIが、初の買収に乗り出しました。OpenAIがデジタルプロ...

AI研究

ETHチューリッヒの研究者たちは、LMQLという言語モデルとの相互作用のためのプログラミング言語を紹介しました

大規模な言語モデルの性能は、質問応答やコード生成などのさまざまなタスクで印象的でした。言語モデルは、入力に基づいてシ...

AI研究

「ケンブリッジの研究者たちは、機械学習システムに不確実性を組み込むことを開発しています」

不確かな人間の洞察力の世界で、不確実性を受け入れることは、機械と人間がより効果的かつ信頼性の高い方法で協力するのに役...