Salesforce AIは、既存の拡散モデルを与えられた場合に、テキストから画像への拡散生成を行う新しい編集アルゴリズム「EDICT」を開発しました

Salesforce AI developed a new editing algorithm called EDICT that generates diffusion from text to images when given an existing diffusion model.

最近のテクノロジーと人工知能の分野における進歩により、多くのイノベーションが生まれています。超トレンディなChatGPTモデルを使用したテキスト生成やテキストから画像生成など、すべてが今では可能です。現在、テキストから画像への変換モデルは、テキストの説明から新しい画像を生成するだけでなく、既存の画像を編集することもできます。画像の生成は通常、既存の画像の編集よりも容易であり、編集時には多くの細かいディテールが維持される必要があります。正確なテキストに基づく画像編集のために、研究者たちは新しいアルゴリズムであるEDICT(Exact Diffusion Inversion via Coupled Transformations)を開発しました。EDICTは、拡散モデルの助けを借りて、テキストによる画像編集を行うことができる新しいアルゴリズムです。

テキストから画像生成は、与えられたテキストの説明に基づいて画像を生成するために機械学習モデルが訓練されるタスクです。モデルはテキストの説明と画像を関連付けて学習し、指定された説明に一致する新しい画像を生成します。EDICTは、既存の拡散モデルを使用してテキストから画像の拡散生成を行います。画像生成では、拡散モデルは拡散プロセスを使用して新しい画像を生成する生成モデルです。拡散プロセスはランダムな画像から始まり、一連の変換を適用して最終的なターゲット画像に類似した画像にフィルタリングするまで反復的に行われます。

拡散モデルは、テキストの説明を用いてノイズのある画像からノイズのない画像を生成するために訓練されます。画像の編集には、元の画像にノイズが追加され、この部分的な生成が与えられたテキストを使用して新しい生成を行うために使用されます。EDICTは、元のテキストまたはプロンプトが与えられた場合に元の画像を正確に生成するノイズのある画像を取得するという概念で動作します。これは、一種の逆ノイズ技術です。この方法では、元のテキストがわずかに変更された場合でも、編集された画像は必要な変更のみでほとんど変わらないようになります。

EDICTのチームは、アルゴリズムの結果を例を用いて共有しています。サーフィンする犬の既存の画像を編集して猫が水上でサーフィンをしている画像を生成する際には、波やボードの色など、多くの詳細や細かい情報が失われます。なぜなら、この方法では単純に元の画像にノイズが追加されて新しい画像が生成されるだけだからです。EDICTの技術では、逆生成を行い、元の画像を正確に生成するノイズのある画像を見つけます。このノイズのある画像は、テキストのキャプションの助けを借りて実際のサーフィンする犬の画像を生成します。生成された画像からのノイズは、ノイズのない画像で再びモデルにクエリを送信するためにコピーされます。その後、テキストを犬という単語を猫という単語に置き換えることで微調整が行われ、最終的に詳細な編集されたサーフィンする猫の画像が得られます。EDICTは、互いに詳細な情報を相互に改善しながら画像の2つの同一のコピーを作成し、可逆的に変更するというアイデアに基づいています。

この新しいアプローチは、現在のテキストから画像生成モデルが一貫性がなく、元の画像の詳細に完全に正確になっていないため、間違いなく有望です。生成プロセスを逆にすることで、画像の重要な内容を保持することができます。これらの画像生成モデルの成長するイノベーションと需要を考慮すると、EDICTはすべての既存のモデルにとって大きな競争相手となるようです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

バイトダンスの研究者が「ImageDream」を紹介:3Dオブジェクト生成のための画像刺激とマルチビューディフュージョンモデルの革新的な導入

諺にあるように、「一枚の画像は千語の価値がある」ということわざは、3D制作に画像を第二の手段として追加することで、テキ...

機械学習

NLPの探求 - NLPのキックスタート(ステップ#3)

「以下は、特に単語の埋め込みについて、私が週間で学んだいくつかの概念です実際に手を動かして試してみましたので、その一...

機械学習

「機械学習における特徴エンジニアリングへの実践的なアプローチ」

この記事では、機械学習における特徴学習の重要性と、それを簡単で実践的な手順で実装する方法について説明しました

AI研究

「UCLAの研究者が提案するPhyCV:物理に触発されたコンピュータビジョンのPythonライブラリ」

人工知能はコンピュータビジョンの分野で注目すべき進歩を遂げています。その中でも、ディープラーニングという分野では、大...

人工知能

AWS Inferentia2は、AWS Inferentia1をベースにしており、スループットが4倍に向上し、レイテンシが10倍低減されています

機械学習モデル(MLモデル)のサイズ、特に生成AIにとって、大規模言語モデル(LLM)やファウンデーションモデル(FM)のサイ...