Salesforce AIは、既存の拡散モデルを与えられた場合に、テキストから画像への拡散生成を行う新しい編集アルゴリズム「EDICT」を開発しました

Salesforce AI developed a new editing algorithm called EDICT that generates diffusion from text to images when given an existing diffusion model.

最近のテクノロジーと人工知能の分野における進歩により、多くのイノベーションが生まれています。超トレンディなChatGPTモデルを使用したテキスト生成やテキストから画像生成など、すべてが今では可能です。現在、テキストから画像への変換モデルは、テキストの説明から新しい画像を生成するだけでなく、既存の画像を編集することもできます。画像の生成は通常、既存の画像の編集よりも容易であり、編集時には多くの細かいディテールが維持される必要があります。正確なテキストに基づく画像編集のために、研究者たちは新しいアルゴリズムであるEDICT(Exact Diffusion Inversion via Coupled Transformations)を開発しました。EDICTは、拡散モデルの助けを借りて、テキストによる画像編集を行うことができる新しいアルゴリズムです。

テキストから画像生成は、与えられたテキストの説明に基づいて画像を生成するために機械学習モデルが訓練されるタスクです。モデルはテキストの説明と画像を関連付けて学習し、指定された説明に一致する新しい画像を生成します。EDICTは、既存の拡散モデルを使用してテキストから画像の拡散生成を行います。画像生成では、拡散モデルは拡散プロセスを使用して新しい画像を生成する生成モデルです。拡散プロセスはランダムな画像から始まり、一連の変換を適用して最終的なターゲット画像に類似した画像にフィルタリングするまで反復的に行われます。

拡散モデルは、テキストの説明を用いてノイズのある画像からノイズのない画像を生成するために訓練されます。画像の編集には、元の画像にノイズが追加され、この部分的な生成が与えられたテキストを使用して新しい生成を行うために使用されます。EDICTは、元のテキストまたはプロンプトが与えられた場合に元の画像を正確に生成するノイズのある画像を取得するという概念で動作します。これは、一種の逆ノイズ技術です。この方法では、元のテキストがわずかに変更された場合でも、編集された画像は必要な変更のみでほとんど変わらないようになります。

EDICTのチームは、アルゴリズムの結果を例を用いて共有しています。サーフィンする犬の既存の画像を編集して猫が水上でサーフィンをしている画像を生成する際には、波やボードの色など、多くの詳細や細かい情報が失われます。なぜなら、この方法では単純に元の画像にノイズが追加されて新しい画像が生成されるだけだからです。EDICTの技術では、逆生成を行い、元の画像を正確に生成するノイズのある画像を見つけます。このノイズのある画像は、テキストのキャプションの助けを借りて実際のサーフィンする犬の画像を生成します。生成された画像からのノイズは、ノイズのない画像で再びモデルにクエリを送信するためにコピーされます。その後、テキストを犬という単語を猫という単語に置き換えることで微調整が行われ、最終的に詳細な編集されたサーフィンする猫の画像が得られます。EDICTは、互いに詳細な情報を相互に改善しながら画像の2つの同一のコピーを作成し、可逆的に変更するというアイデアに基づいています。

この新しいアプローチは、現在のテキストから画像生成モデルが一貫性がなく、元の画像の詳細に完全に正確になっていないため、間違いなく有望です。生成プロセスを逆にすることで、画像の重要な内容を保持することができます。これらの画像生成モデルの成長するイノベーションと需要を考慮すると、EDICTはすべての既存のモデルにとって大きな競争相手となるようです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

マイクロソフトの研究者がConfidential Consortium Framework (CCF)を紹介:セキュアな状態を持つCIAアプリケーションを開発するための汎用AIフレームワーク

「CIA Trinity(CIAトリニティ)」は、よく知られた情報セキュリティフレームワークであり、データの機密性、整合性の保護、...

データサイエンス

「非構造化データ内のデータスライスの検出」 翻訳結果は以下の通りです: 「非構造化データ内でデータスライスを見つける」

データスライスは、モデルが異常な動作をするデータの意味のあるサブセットです非構造化データの問題(例:画像、テキスト)...

機械学習

仮想現実における人間の動作認識の進展:本AI論文では、LKA-GCNというスケルトン大カーネルアテンションを導入して、非の打ちどころのないパフォーマンスを実現します

スケルトンベースの人間のアクション認識は、ビデオデータからスケルトンの関節位置を分析して人間のアクションを識別するコ...

機械学習

3Dインスタンスセグメンテーションにおける境界の打破:改善された疑似ラベリングと現実的なシナリオを備えたオープンワールドアプローチ

オブジェクトインスタンスレベルの分類と意味的なラベリングを提供することにより、3D意味インスタンスセグメンテーションは...

AIニュース

2023年の製品マネージャーにとって最高のAIツール

AI市場の急速な拡大は、製品マネージャーの生産性向上に加えて、新しい職種の出現を促進する可能性があることに多くの人々が...

AIニュース

良いニュース!中国とアメリカがAIの危険性について話し合っています

世界の2つの超大国の科学者たちは、AIのリスクについて懸念しており、これはグローバルな規制を開発するための橋渡しを提供す...