Salesforce AIは、既存の拡散モデルを与えられた場合に、テキストから画像への拡散生成を行う新しい編集アルゴリズム「EDICT」を開発しました

Salesforce AI developed a new editing algorithm called EDICT that generates diffusion from text to images when given an existing diffusion model.

最近のテクノロジーと人工知能の分野における進歩により、多くのイノベーションが生まれています。超トレンディなChatGPTモデルを使用したテキスト生成やテキストから画像生成など、すべてが今では可能です。現在、テキストから画像への変換モデルは、テキストの説明から新しい画像を生成するだけでなく、既存の画像を編集することもできます。画像の生成は通常、既存の画像の編集よりも容易であり、編集時には多くの細かいディテールが維持される必要があります。正確なテキストに基づく画像編集のために、研究者たちは新しいアルゴリズムであるEDICT(Exact Diffusion Inversion via Coupled Transformations)を開発しました。EDICTは、拡散モデルの助けを借りて、テキストによる画像編集を行うことができる新しいアルゴリズムです。

テキストから画像生成は、与えられたテキストの説明に基づいて画像を生成するために機械学習モデルが訓練されるタスクです。モデルはテキストの説明と画像を関連付けて学習し、指定された説明に一致する新しい画像を生成します。EDICTは、既存の拡散モデルを使用してテキストから画像の拡散生成を行います。画像生成では、拡散モデルは拡散プロセスを使用して新しい画像を生成する生成モデルです。拡散プロセスはランダムな画像から始まり、一連の変換を適用して最終的なターゲット画像に類似した画像にフィルタリングするまで反復的に行われます。

拡散モデルは、テキストの説明を用いてノイズのある画像からノイズのない画像を生成するために訓練されます。画像の編集には、元の画像にノイズが追加され、この部分的な生成が与えられたテキストを使用して新しい生成を行うために使用されます。EDICTは、元のテキストまたはプロンプトが与えられた場合に元の画像を正確に生成するノイズのある画像を取得するという概念で動作します。これは、一種の逆ノイズ技術です。この方法では、元のテキストがわずかに変更された場合でも、編集された画像は必要な変更のみでほとんど変わらないようになります。

EDICTのチームは、アルゴリズムの結果を例を用いて共有しています。サーフィンする犬の既存の画像を編集して猫が水上でサーフィンをしている画像を生成する際には、波やボードの色など、多くの詳細や細かい情報が失われます。なぜなら、この方法では単純に元の画像にノイズが追加されて新しい画像が生成されるだけだからです。EDICTの技術では、逆生成を行い、元の画像を正確に生成するノイズのある画像を見つけます。このノイズのある画像は、テキストのキャプションの助けを借りて実際のサーフィンする犬の画像を生成します。生成された画像からのノイズは、ノイズのない画像で再びモデルにクエリを送信するためにコピーされます。その後、テキストを犬という単語を猫という単語に置き換えることで微調整が行われ、最終的に詳細な編集されたサーフィンする猫の画像が得られます。EDICTは、互いに詳細な情報を相互に改善しながら画像の2つの同一のコピーを作成し、可逆的に変更するというアイデアに基づいています。

この新しいアプローチは、現在のテキストから画像生成モデルが一貫性がなく、元の画像の詳細に完全に正確になっていないため、間違いなく有望です。生成プロセスを逆にすることで、画像の重要な内容を保持することができます。これらの画像生成モデルの成長するイノベーションと需要を考慮すると、EDICTはすべての既存のモデルにとって大きな競争相手となるようです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「イギリスのテックフェスティバルが、クリエイティブ産業でAIを活用するスタートアップ企業を紹介する」

英国最大的技术节之一,企业和初创公司本周正展示他们最新的创新成果,举办研讨会,并庆祝位于英国西南部的技术生态系统的不...

機械学習

「Mixtral 8x7Bについて知っていること ミストラルの新しいオープンソースLLM」

「ミストラルAIは、オープンソースのLLM(語彙・言語モデル)の領域で限界に挑戦する最も革新的な企業の一つですミストラルの...

機械学習

Google DeepMindは、直接報酬微調整(DRaFT)を導入しました:微分可能な報酬関数を最大化するための効果的な人工知能手法における拡散モデルの微調整

拡散モデルは、さまざまなデータタイプでの生成モデリングを革新しました。ただし、テキストの説明から見た目の良い画像を生...

データサイエンス

大規模な言語モデルについて企業が知っておくべきこと

大規模な言語モデルは、ビジネスコミュニケーション、コンテンツ作成、データ分析を変革しますビジネスにおける主な機能と利...

AIニュース

「世界最大の広告主がAIの力を受け入れる:広告業界におけるパラダイムシフト」

広告業界を再構築する可能性を秘めた動きとして、世界でも有名な広告主の一部が生成型人工知能(AI)の可能性を活用していま...

AIニュース

AIバイアス:課題と解決策

人工知能のバイアスはどこから来るのか一度それを見つけたら、どのようにしてそれを減らしたり、排除したりすることができる...