『Photoshopを越えて:Inst-Inpaintが拡散モデルでオブジェクト除去を揺るがす』
Inst-Inpaint disrupts object removal with diffusion models beyond Photoshop
画像修復は古代の技術です。それは画像から不要なオブジェクトを削除し、欠落しているピクセルを埋めることで、完成した画像が現実的な外観を持ち、元のコンテキストに従うようにするプロセスです。画像修復の応用は多岐にわたり、画像から望ましくないオブジェクトを除去して美学やプライバシーを向上させる、古いまたは損傷した写真の品質とクラリティを向上させる、画像のギャップや穴を埋めることにより欠落した情報を補完する、芸術的な効果を生成することにより創造性やムードを表現するなどのタスクが含まれます。
インストラクション画像修復またはインストラクション画像修復は、画像とテキストの指示を入力として、前述のように不要なオブジェクトを自動的に削除する手法が紹介されました。上の画像は、Inst-Inpaintのサンプル結果での入力と出力を示しています。ここでは、最新の拡散モデルを使用してこれが行われています。拡散モデルは、ノイズを代表的なデータサンプルに変換する確率的生成モデルの一種であり、生成AIにおいて高品質な画像を得るためにコンピュータビジョンで広く使用されています。
- 研究者はまず、提案されたインストラクション画像修復のジョブのための実世界の画像データセットであるGQA-Inpaintを構築し、モデルをトレーニングおよびテストしました。入力/出力のペアを作成するために、GQAデータセットの画像とそのシーングラフを利用しました。この提案手法は以下の手順で行われます:
- 興味のあるオブジェクトを選択する(削除するオブジェクト)。
- インスタンスセグメンテーションを実行して、画像内のオブジェクトを特定する。
- 次に、最先端の画像修復手法を適用してオブジェクトを消去する。
- 最後に、削除操作を説明するテンプレートベースのテキストプロンプトを作成する。その結果、GQA-Inpaintデータセットには147165のユニークな画像と41407の異なる指示が含まれています。このデータセットでトレーニングされたInst-Inpaintモデルは、ユーザー指定のバイナリマスクを必要とせず、マスクを予測せずにオブジェクトを一度に削除する、条件付き潜在拡散モデルに基づくテキストベースの画像修復手法です。
注目すべき詳細の1つは、画像がx軸に沿って3つの等しいセクションに分割され、「left」、「center」、「right」と名付けられていることです。また、画像内のオブジェクトを識別するために「テーブルの上に」といった自然な名前や「場所」が使用されています。研究者は、GANおよび拡散ベースのベースラインを評価するために、CLIPベースの画像修復スコアなど、数多くの指標を使用して実験の結果を比較し、量的および質的な改善を実証しました。
- 「トランスフォーマーの単純化:あなたが理解する言葉を使った最先端の自然言語処理(NLP)— パート1 — イントロ」
- テキストからビデオ生成 ステップバイステップガイド
- 「Transformerベースの拡散モデルによる画像生成の革新的なアーキテクチャイノベーションを実現するDiffusion Transformers(DiTs)」
人間の創造性と人工知能の境界が絶えず曖昧になる急速に変化するデジタルの風景において、Inst-Inpaintは画像操作におけるAIの変革的な力を証明しています。これにより、テキスト指示を使用して画像修復を行うための多くの可能性が開かれ、再びAIが人間の脳に近づいています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- LangChain + Streamlit + Llama ローカルマシンに会話型AIをもたらす
- 「転移学習の非合理的な効果」
- 「教師付き機械学習と集合論を通じた現実世界の時系列異常検出」
- 「Tabnine」は、ベータ版のエンタープライズグレードのコード中心のチャットアプリケーション「Tabnine Chat」を導入しましたこれにより、開発者は自然言語を使用してTabnineのAIモデルと対話することができます
- 効率化の解除:Amazon SageMaker Pipelinesでの選択的な実行の活用
- 「AIプロジェクトはどのように異なるのか」
- 「Embroid」を紹介します:複数の小さなモデルから埋め込み情報を組み合わせるAIメソッドで、監視なしでLLMの予測を自動的に修正することができます