Salesforce AIは、既存の拡散モデルを与えられた場合に、テキストから画像への拡散生成を行う新しい編集アルゴリズム「EDICT」を開発しました

Salesforce AI developed a new editing algorithm called EDICT that generates diffusion from text to images when given an existing diffusion model.

最近のテクノロジーと人工知能の分野における進歩により、多くのイノベーションが生まれています。超トレンディなChatGPTモデルを使用したテキスト生成やテキストから画像生成など、すべてが今では可能です。現在、テキストから画像への変換モデルは、テキストの説明から新しい画像を生成するだけでなく、既存の画像を編集することもできます。画像の生成は通常、既存の画像の編集よりも容易であり、編集時には多くの細かいディテールが維持される必要があります。正確なテキストに基づく画像編集のために、研究者たちは新しいアルゴリズムであるEDICT(Exact Diffusion Inversion via Coupled Transformations)を開発しました。EDICTは、拡散モデルの助けを借りて、テキストによる画像編集を行うことができる新しいアルゴリズムです。

テキストから画像生成は、与えられたテキストの説明に基づいて画像を生成するために機械学習モデルが訓練されるタスクです。モデルはテキストの説明と画像を関連付けて学習し、指定された説明に一致する新しい画像を生成します。EDICTは、既存の拡散モデルを使用してテキストから画像の拡散生成を行います。画像生成では、拡散モデルは拡散プロセスを使用して新しい画像を生成する生成モデルです。拡散プロセスはランダムな画像から始まり、一連の変換を適用して最終的なターゲット画像に類似した画像にフィルタリングするまで反復的に行われます。

拡散モデルは、テキストの説明を用いてノイズのある画像からノイズのない画像を生成するために訓練されます。画像の編集には、元の画像にノイズが追加され、この部分的な生成が与えられたテキストを使用して新しい生成を行うために使用されます。EDICTは、元のテキストまたはプロンプトが与えられた場合に元の画像を正確に生成するノイズのある画像を取得するという概念で動作します。これは、一種の逆ノイズ技術です。この方法では、元のテキストがわずかに変更された場合でも、編集された画像は必要な変更のみでほとんど変わらないようになります。

EDICTのチームは、アルゴリズムの結果を例を用いて共有しています。サーフィンする犬の既存の画像を編集して猫が水上でサーフィンをしている画像を生成する際には、波やボードの色など、多くの詳細や細かい情報が失われます。なぜなら、この方法では単純に元の画像にノイズが追加されて新しい画像が生成されるだけだからです。EDICTの技術では、逆生成を行い、元の画像を正確に生成するノイズのある画像を見つけます。このノイズのある画像は、テキストのキャプションの助けを借りて実際のサーフィンする犬の画像を生成します。生成された画像からのノイズは、ノイズのない画像で再びモデルにクエリを送信するためにコピーされます。その後、テキストを犬という単語を猫という単語に置き換えることで微調整が行われ、最終的に詳細な編集されたサーフィンする猫の画像が得られます。EDICTは、互いに詳細な情報を相互に改善しながら画像の2つの同一のコピーを作成し、可逆的に変更するというアイデアに基づいています。

この新しいアプローチは、現在のテキストから画像生成モデルが一貫性がなく、元の画像の詳細に完全に正確になっていないため、間違いなく有望です。生成プロセスを逆にすることで、画像の重要な内容を保持することができます。これらの画像生成モデルの成長するイノベーションと需要を考慮すると、EDICTはすべての既存のモデルにとって大きな競争相手となるようです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ベイチュアン2に会おう:7Bおよび13Bのパラメータを持つ大規模な多言語言語モデルのシリーズ、2.6Tトークンでゼロからトレーニングされました」

大規模言語モデルは近年、大きな進展を遂げています。GPT3、PaLM、Switch Transformersなどの言語モデルは、以前のELMoやGPT-...

データサイエンス

LangChain:LLMがあなたのコードとやり取りできるようにします

生成モデルは皆の注目を集めています現在、多くのAIアプリケーションでは、機械学習の専門家ではなく、API呼び出しの実装方法...

AI研究

XGen-Image-1の内部:Salesforce Researchが巨大なテキストから画像へのモデルを構築、トレーニング、評価する方法

Salesforceは、新しい基盤モデルの最も活発な研究所の一つです最近、Salesforce Researchは、異なるドメインにわたるさまざま...

AIニュース

AIによる安全な自転車ヘルメット、そしてより優れた靴のソール

スイスのETH Zurichの研究者たちが開発した人工知能(AI)ツールは、3Dプリントが可能な新しいメタマテリアルを予測すること...

AIニュース

内を見つめる

バイオセンシングは医療診断をより深いレベルにまで引き上げます

人工知能

「GPT-4に対する無料の代替案トップ5」

GPT-4がすごいと思っている?これらの生成AIの新参者たちは既に注目を集めているよ!