Salesforce AIは、既存の拡散モデルを与えられた場合に、テキストから画像への拡散生成を行う新しい編集アルゴリズム「EDICT」を開発しました
Salesforce AI developed a new editing algorithm called EDICT that generates diffusion from text to images when given an existing diffusion model.
最近のテクノロジーと人工知能の分野における進歩により、多くのイノベーションが生まれています。超トレンディなChatGPTモデルを使用したテキスト生成やテキストから画像生成など、すべてが今では可能です。現在、テキストから画像への変換モデルは、テキストの説明から新しい画像を生成するだけでなく、既存の画像を編集することもできます。画像の生成は通常、既存の画像の編集よりも容易であり、編集時には多くの細かいディテールが維持される必要があります。正確なテキストに基づく画像編集のために、研究者たちは新しいアルゴリズムであるEDICT(Exact Diffusion Inversion via Coupled Transformations)を開発しました。EDICTは、拡散モデルの助けを借りて、テキストによる画像編集を行うことができる新しいアルゴリズムです。
テキストから画像生成は、与えられたテキストの説明に基づいて画像を生成するために機械学習モデルが訓練されるタスクです。モデルはテキストの説明と画像を関連付けて学習し、指定された説明に一致する新しい画像を生成します。EDICTは、既存の拡散モデルを使用してテキストから画像の拡散生成を行います。画像生成では、拡散モデルは拡散プロセスを使用して新しい画像を生成する生成モデルです。拡散プロセスはランダムな画像から始まり、一連の変換を適用して最終的なターゲット画像に類似した画像にフィルタリングするまで反復的に行われます。
拡散モデルは、テキストの説明を用いてノイズのある画像からノイズのない画像を生成するために訓練されます。画像の編集には、元の画像にノイズが追加され、この部分的な生成が与えられたテキストを使用して新しい生成を行うために使用されます。EDICTは、元のテキストまたはプロンプトが与えられた場合に元の画像を正確に生成するノイズのある画像を取得するという概念で動作します。これは、一種の逆ノイズ技術です。この方法では、元のテキストがわずかに変更された場合でも、編集された画像は必要な変更のみでほとんど変わらないようになります。
- 「UCLAの研究者が提案するPhyCV:物理に触発されたコンピュータビジョンのPythonライブラリ」
- 「CMUの研究者がBUTD-DETRを導入:言語発話に直接依存し、発話で言及されるすべてのオブジェクトを検出する人工知能(AI)モデル」
- 「バイトダンスAI研究は、連続および離散パラメータのミックスを使用して、高品質のスタイル化された3Dアバターを作成するための革新的な自己教師あり学習フレームワークを提案しています」
EDICTのチームは、アルゴリズムの結果を例を用いて共有しています。サーフィンする犬の既存の画像を編集して猫が水上でサーフィンをしている画像を生成する際には、波やボードの色など、多くの詳細や細かい情報が失われます。なぜなら、この方法では単純に元の画像にノイズが追加されて新しい画像が生成されるだけだからです。EDICTの技術では、逆生成を行い、元の画像を正確に生成するノイズのある画像を見つけます。このノイズのある画像は、テキストのキャプションの助けを借りて実際のサーフィンする犬の画像を生成します。生成された画像からのノイズは、ノイズのない画像で再びモデルにクエリを送信するためにコピーされます。その後、テキストを犬という単語を猫という単語に置き換えることで微調整が行われ、最終的に詳細な編集されたサーフィンする猫の画像が得られます。EDICTは、互いに詳細な情報を相互に改善しながら画像の2つの同一のコピーを作成し、可逆的に変更するというアイデアに基づいています。
この新しいアプローチは、現在のテキストから画像生成モデルが一貫性がなく、元の画像の詳細に完全に正確になっていないため、間違いなく有望です。生成プロセスを逆にすることで、画像の重要な内容を保持することができます。これらの画像生成モデルの成長するイノベーションと需要を考慮すると、EDICTはすべての既存のモデルにとって大きな競争相手となるようです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 画像分類において、拡散モデルがGANより優れていることがAI研究で明らかになりましたこの研究では、BigBiGANなどの同等の生成的識別的手法に比べて、拡散モデルが分類タスクにおいて優れた性能を発揮することが示されました
- 「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」
- 新しいAI研究が、大規模言語モデル(LLMs)の能力を分析するためのプロンプト中心のアプローチを提案しています
- 清華大学の研究者たちは、メタラーニングの枠組みの下で新しい機械学習アルゴリズムを紹介しました
- UCサンタクルーズとSamsungの研究者が、ナビゲーションの決定にChatGPTのようなLLM(言語モデル)で共通センスを活用するゼロショットオブジェクトナビゲーションエージェントであるESCを紹介しました
- 新しいAI研究が、転移学習のためのマルチタスクプロンプトチューニング(MPT)を紹介します
- ネゲヴのベン・グリオン大学の研究者たちは、社会的規範の違反を特定するAIシステムを設計しました