『Photoshopを越えて：Inst-Inpaintが拡散モデルでオブジェクト除去を揺るがす』

Inst-Inpaint disrupts object removal with diffusion models beyond Photoshop

画像修復は古代の技術です。それは画像から不要なオブジェクトを削除し、欠落しているピクセルを埋めることで、完成した画像が現実的な外観を持ち、元のコンテキストに従うようにするプロセスです。画像修復の応用は多岐にわたり、画像から望ましくないオブジェクトを除去して美学やプライバシーを向上させる、古いまたは損傷した写真の品質とクラリティを向上させる、画像のギャップや穴を埋めることにより欠落した情報を補完する、芸術的な効果を生成することにより創造性やムードを表現するなどのタスクが含まれます。

インストラクション画像修復またはインストラクション画像修復は、画像とテキストの指示を入力として、前述のように不要なオブジェクトを自動的に削除する手法が紹介されました。上の画像は、Inst-Inpaintのサンプル結果での入力と出力を示しています。ここでは、最新の拡散モデルを使用してこれが行われています。拡散モデルは、ノイズを代表的なデータサンプルに変換する確率的生成モデルの一種であり、生成AIにおいて高品質な画像を得るためにコンピュータビジョンで広く使用されています。

研究者はまず、提案されたインストラクション画像修復のジョブのための実世界の画像データセットであるGQA-Inpaintを構築し、モデルをトレーニングおよびテストしました。入力/出力のペアを作成するために、GQAデータセットの画像とそのシーングラフを利用しました。この提案手法は以下の手順で行われます：
興味のあるオブジェクトを選択する（削除するオブジェクト）。
インスタンスセグメンテーションを実行して、画像内のオブジェクトを特定する。
次に、最先端の画像修復手法を適用してオブジェクトを消去する。
最後に、削除操作を説明するテンプレートベースのテキストプロンプトを作成する。その結果、GQA-Inpaintデータセットには147165のユニークな画像と41407の異なる指示が含まれています。このデータセットでトレーニングされたInst-Inpaintモデルは、ユーザー指定のバイナリマスクを必要とせず、マスクを予測せずにオブジェクトを一度に削除する、条件付き潜在拡散モデルに基づくテキストベースの画像修復手法です。

注目すべき詳細の1つは、画像がx軸に沿って3つの等しいセクションに分割され、「left」、「center」、「right」と名付けられていることです。また、画像内のオブジェクトを識別するために「テーブルの上に」といった自然な名前や「場所」が使用されています。研究者は、GANおよび拡散ベースのベースラインを評価するために、CLIPベースの画像修復スコアなど、数多くの指標を使用して実験の結果を比較し、量的および質的な改善を実証しました。

人間の創造性と人工知能の境界が絶えず曖昧になる急速に変化するデジタルの風景において、Inst-Inpaintは画像操作におけるAIの変革的な力を証明しています。これにより、テキスト指示を使用して画像修復を行うための多くの可能性が開かれ、再びAIが人間の脳に近づいています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceMachine learningTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

『Photoshopを越えて：Inst-Inpaintが拡散モデルでオブジェクト除去を揺るがす』

Was this article helpful?

「LangChainとGPT-4を使用した多言語対応のFEMAディザスターボットの研究」

アーティスの創設者兼CEO、ウィリアム・ウーによるインタビューシリーズ

機械学習

スケールにおける機械学習：モデルとデータの並列化

「ビルドの学び方 — Towards AI コミュニティニュースレター第2号」

あなたのLLMアプリケーションは公開に準備ができていますか？

ネットワークの強化：異常検知におけるML、AI、およびDLの力を解き放つ

インドでのGoogle検索は今やAIによって動作しています | 使い方を学びましょう

TensorFlowの学習率の変更方法