『Photoshopを越えて:Inst-Inpaintが拡散モデルでオブジェクト除去を揺るがす』

Inst-Inpaint disrupts object removal with diffusion models beyond Photoshop

画像修復は古代の技術です。それは画像から不要なオブジェクトを削除し、欠落しているピクセルを埋めることで、完成した画像が現実的な外観を持ち、元のコンテキストに従うようにするプロセスです。画像修復の応用は多岐にわたり、画像から望ましくないオブジェクトを除去して美学やプライバシーを向上させる、古いまたは損傷した写真の品質とクラリティを向上させる、画像のギャップや穴を埋めることにより欠落した情報を補完する、芸術的な効果を生成することにより創造性やムードを表現するなどのタスクが含まれます。

インストラクション画像修復またはインストラクション画像修復は、画像とテキストの指示を入力として、前述のように不要なオブジェクトを自動的に削除する手法が紹介されました。上の画像は、Inst-Inpaintのサンプル結果での入力と出力を示しています。ここでは、最新の拡散モデルを使用してこれが行われています。拡散モデルは、ノイズを代表的なデータサンプルに変換する確率的生成モデルの一種であり、生成AIにおいて高品質な画像を得るためにコンピュータビジョンで広く使用されています。

  • 研究者はまず、提案されたインストラクション画像修復のジョブのための実世界の画像データセットであるGQA-Inpaintを構築し、モデルをトレーニングおよびテストしました。入力/出力のペアを作成するために、GQAデータセットの画像とそのシーングラフを利用しました。この提案手法は以下の手順で行われます:
  • 興味のあるオブジェクトを選択する(削除するオブジェクト)。
  • インスタンスセグメンテーションを実行して、画像内のオブジェクトを特定する。
  • 次に、最先端の画像修復手法を適用してオブジェクトを消去する。
  • 最後に、削除操作を説明するテンプレートベースのテキストプロンプトを作成する。その結果、GQA-Inpaintデータセットには147165のユニークな画像と41407の異なる指示が含まれています。このデータセットでトレーニングされたInst-Inpaintモデルは、ユーザー指定のバイナリマスクを必要とせず、マスクを予測せずにオブジェクトを一度に削除する、条件付き潜在拡散モデルに基づくテキストベースの画像修復手法です。

注目すべき詳細の1つは、画像がx軸に沿って3つの等しいセクションに分割され、「left」、「center」、「right」と名付けられていることです。また、画像内のオブジェクトを識別するために「テーブルの上に」といった自然な名前や「場所」が使用されています。研究者は、GANおよび拡散ベースのベースラインを評価するために、CLIPベースの画像修復スコアなど、数多くの指標を使用して実験の結果を比較し、量的および質的な改善を実証しました。

人間の創造性と人工知能の境界が絶えず曖昧になる急速に変化するデジタルの風景において、Inst-Inpaintは画像操作におけるAIの変革的な力を証明しています。これにより、テキスト指示を使用して画像修復を行うための多くの可能性が開かれ、再びAIが人間の脳に近づいています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Google Gemini APIを使用してLLMモデルを構築する

導入 ChatGPTとOpenAIのGPTモデルのリリース、およびMicrosoftとのパートナーシップにより、AIの領域にTransformerモデルをも...

人工知能

「ゲーミングからAIへ:NvidiaのAI革命における重要な役割」

Nvidiaは現在、Facebook、Tesla、Netflixよりも価値が高いですロイターによると、株価は過去8ヶ月で3倍になりましたしかし、...

機械学習

オンラインで機械学習を学ぶ方法

導入 機械学習は現在高度に発展している技術の分野です。この技術により、コンピュータシステムは技術的なプログラミングなし...

データサイエンス

「ビルドしてプレイ!LLM搭載のあなた自身のV&Lモデル!」

大型言語モデル(LLM)はますますその価値を示しています画像をLLMに組み込むことで、ビジョン言語モデルとしてさらに有用に...

データサイエンス

LLMs (Language Models)による電子メール効率化の次なるフロンティア

紹介 人工知能(AI)は、特に大規模な言語モデル(LLM)の台頭のおかげで、過去数年間で大きく成長しました。豊富な人間の言...

AIニュース

「アマゾン対Google対マイクロソフト:AIで医療を革新する競争」

人工知能(AI)を医療業界に統合することは、技術の進歩の時代においてますます普及しています。Amazon、Google、Microsoftな...