『Photoshopを越えて:Inst-Inpaintが拡散モデルでオブジェクト除去を揺るがす』

Inst-Inpaint disrupts object removal with diffusion models beyond Photoshop

画像修復は古代の技術です。それは画像から不要なオブジェクトを削除し、欠落しているピクセルを埋めることで、完成した画像が現実的な外観を持ち、元のコンテキストに従うようにするプロセスです。画像修復の応用は多岐にわたり、画像から望ましくないオブジェクトを除去して美学やプライバシーを向上させる、古いまたは損傷した写真の品質とクラリティを向上させる、画像のギャップや穴を埋めることにより欠落した情報を補完する、芸術的な効果を生成することにより創造性やムードを表現するなどのタスクが含まれます。

インストラクション画像修復またはインストラクション画像修復は、画像とテキストの指示を入力として、前述のように不要なオブジェクトを自動的に削除する手法が紹介されました。上の画像は、Inst-Inpaintのサンプル結果での入力と出力を示しています。ここでは、最新の拡散モデルを使用してこれが行われています。拡散モデルは、ノイズを代表的なデータサンプルに変換する確率的生成モデルの一種であり、生成AIにおいて高品質な画像を得るためにコンピュータビジョンで広く使用されています。

  • 研究者はまず、提案されたインストラクション画像修復のジョブのための実世界の画像データセットであるGQA-Inpaintを構築し、モデルをトレーニングおよびテストしました。入力/出力のペアを作成するために、GQAデータセットの画像とそのシーングラフを利用しました。この提案手法は以下の手順で行われます:
  • 興味のあるオブジェクトを選択する(削除するオブジェクト)。
  • インスタンスセグメンテーションを実行して、画像内のオブジェクトを特定する。
  • 次に、最先端の画像修復手法を適用してオブジェクトを消去する。
  • 最後に、削除操作を説明するテンプレートベースのテキストプロンプトを作成する。その結果、GQA-Inpaintデータセットには147165のユニークな画像と41407の異なる指示が含まれています。このデータセットでトレーニングされたInst-Inpaintモデルは、ユーザー指定のバイナリマスクを必要とせず、マスクを予測せずにオブジェクトを一度に削除する、条件付き潜在拡散モデルに基づくテキストベースの画像修復手法です。

注目すべき詳細の1つは、画像がx軸に沿って3つの等しいセクションに分割され、「left」、「center」、「right」と名付けられていることです。また、画像内のオブジェクトを識別するために「テーブルの上に」といった自然な名前や「場所」が使用されています。研究者は、GANおよび拡散ベースのベースラインを評価するために、CLIPベースの画像修復スコアなど、数多くの指標を使用して実験の結果を比較し、量的および質的な改善を実証しました。

人間の創造性と人工知能の境界が絶えず曖昧になる急速に変化するデジタルの風景において、Inst-Inpaintは画像操作におけるAIの変革的な力を証明しています。これにより、テキスト指示を使用して画像修復を行うための多くの可能性が開かれ、再びAIが人間の脳に近づいています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

インテルの研究者たちは、CPU上でLLMs(Large Language Models)をより効率的に展開するための新しい人工知能のアプローチを提案しています

大型言語モデル(LLM)は、その驚異的なパフォーマンスと多様なタスクでの潜在能力により、世界中で話題となっています。テキ...

人工知能

リアルタイムなSlackボットを生成的AIで構築する

「Apache NiFi、LLM、Foundation Models、およびストリーミングを使用して、クールなSlackbotを構築する方法を学びましょうモ...

データサイエンス

「LLMテクノロジーの理解」

「LLMテクノロジーの進歩を発見しましょうLLMテクノロジーの世界を探求し、AIとNLPの分野における重要な役割を見つけましょう」

人工知能

ジオのHaptikがビジネス向けのAIツールを立ち上げました

インドの人工知能スタートアップ、Haptikは、Reliance Jio Infocommの一部であり、ビジネスクライアントが仮想アシスタントと...

機械学習

機械学習エンジニアのためのLLMOps入門ガイド

イントロダクション OpenAIのChatGPTのリリースは、大規模言語モデル(LLM)への関心を高め、人工知能について誰もが話題にし...

人工知能

洪水予測により、より多くの人々が安全に過ごせるよう支援する

AIを活用した洪水ハブは、世界約80カ国に拡大しています