「ナイトシェードの仕組み」

「ナイトシェードの魅力と仕組み」

毒入りデータで画像生成AIを困惑させる

高い城壁のように、ナイトシェードは知的財産を不正な使用から守る手段となり得る。写真:Nabih El Boustani氏(Unsplash)

最近登場したNightshadeというアルゴリズムは、混乱をもたらす画像生成AIモデルに対して毒入りデータを作成することができます。このアルゴリズムの登場により、攻撃的な攻撃がこれらのモデルに対して行われる論争が新たな命を吹き込まれました。この論争は、倫理的な考慮事項や社会的な要因にも影響を受けており、AIモデルが許可なくコンテンツを使用することによって不当に扱われた場合、アーティストやコンテンツクリエーター、その他の人々が戦う手段を提供する可能性がある一方で、悪意を持って使用される可能性もあります。

この記事では、Nightshadeの核となる概念を説明したいと思います。そのために、まずデータの汚染という一般的なアイデアを説明し、その欠点を強調します。そして、ナイーブなアプローチの欠点を克服するためのアルゴリズムであるNightshadeを紹介します。最後に、その使用に伴ういくつかの倫理的な考慮事項について簡単に議論します。

データの汚染

有毒かどうか?写真:Fiona Smallwood氏(Unsplash)

まずは一般的なデータの汚染の概念から始めましょう。例えば、画像生成AIに特定の種類の画像を生成させることができないようにしたり、特定の指示を理解できないようにしたりしたいとします。なぜそうしたいのでしょうか?非破壊的な理由としては、自分のスタイルで画像生成モデルが画像を生成することを避けたいというアーティストの意図や、自分の許可なしに画像生成モデルが新しい漫画キャラクターを再現しないようにしたいという可能性が考えられます。

では、どうすればいいのでしょうか?まず、生成AIがどのように学習するかという基本的な概念を理解しましょう。当然、画像生成AIはその訓練データに依存しています。具体的には、ある概念(例えば犬)を示す画像が存在し、それらの画像がその内容を説明するテキスト(例えばかわいいメガネをかけた犬という画像キャプション)と関連付けられていることが前提となります。この情報から、AIモデルは画像共通の視覚的な特性を抽出し、キャプション内で共有されている特定のキーワードとも関連付けることを学習します。つまり、モデルは犬というキーワードがキャプションに含まれる画像の視覚的な特性を学ぶことで、犬がどのように見えるのかを学習するのです。

では、もし犬を示す画像でキャプションが常に猫と言っている場合はどうなるでしょうか?最終的に、犬と猫は単に画像で見られるものの象徴です。犬を示す画像が猫とラベル付けされると、モデルは猫というシンボルが私たちが犬と呼ぶものを指していると学習します。英語の言語に関する事前の知識がなければ、一貫性のあるラベルですら誤っていることをモデルはどうやって知るのでしょうか?もし私がドイツ語を話せずに、百枚の犬の画像を見せてそのラベルが「Katze(猫)」だと言ったら、あなたは「Katze(カッツェ)」がドイツ語で犬を意味する言葉だと思うでしょう。あなたには実際のドイツ語で犬を意味する言葉が「Hund(フント)」で、「Katze(カッツェ)」が猫を意味することを知ることはできないのです。ラベルと画像の特性の相関関係を学んだだけですから。

ここで説明したプロセスは、データの汚染と呼ばれており、モデルの訓練に悪影響を与えるデータインスタンスを導入することを意味します(まるで毒物が健康に悪影響を及ぼすように)。

ナイーブな汚染攻撃

メガネをかけたかわいい犬が、画像生成モデルを攻撃しようと考えている様子。写真:Jamie Street氏(Unsplash)

単純なアプローチとしては、前述のアイディアを取り上げ、Stable Diffusionのような機械学習モデルを混乱させるために使用することができます。たとえば、Stable Diffusionに犬の画像を作成させるために、猫の画像を多数作成し、それらを犬とラベル付けしてインターネットにアップロードします。次に、それらの画像が次のStable Diffusionモデルのトレーニングにスクレイピングされることを期待します。

あなたの画像の多くが次のトレーニングランに組み込まれれば、確かに猫と犬の間の混乱を引き起こすことができます。ただし、このアプローチにはいくつかの欠点があります:

  • 多くの画像が必要です。毒を盛った他の多くの猫の画像が存在するため、影響を与えるためには多数の画像が必要です。たとえば、毒を盛った画像が10枚しか提供されず、その他側には1000枚の毒を盛っていない猫の画像がある場合、トレーニングにほとんど影響を与えることはありません。効果を持つためには、通常はすべての画像の20%以上を毒を盛る必要があります。
  • トレーニングに正確にどの画像が含まれるかはわかりません。したがって、トレーニングに500枚の毒を盛った画像を導入したい場合、5000枚を作成し、インターネット上に広める必要があります。なぜなら、それらのうちのいくつかしか実際にトレーニングのためにスクレイピングされないからです。
  • 猫の画像を犬とラベル付けしてアップロードした場合、人間は簡単にそれを検出することができます。画像をトレーニングに使用する前に、品質ゲート(人間または専門のAIであるかどうか)で除外される可能性があります。

ナイトシェード

ナイトシェードアルゴリズムは非常に毒性のある植物からその名前を得ています。Georg Eiermann撮影、Unsplash撮影

では、ナイトシェードを見てみましょう。ナイトシェードは、これらの欠点を克服することを目指すアルゴリズムです。そのために、ナイトシェードは2つの重要な概念を使用しています:モデルに最大の効果をもたらす画像を作成する(それにより、合計の必要画像数が少なくなる)および人間にとって毒を盛った画像と区別できない画像を作成することです。

まず、画像から最大の効果を得るにはどうすればよいでしょうか?理論的には、トレーニング中の勾配の変化が最も大きい画像を使用したいと思うでしょう。ただし、それらの画像がどれであるかを知るには、一般的にはトレーニングプロセスを観察する必要がありますが、それはできません。ナイトシェードの著者たちは異なる解決策を提案しています。モデルを毒を盛るために生成された画像を使用します。つまり、猫の画像を犬とラベル付けしたい場合、単純なプロンプト(猫の画像など)でモデルにプロンプトし、モデルが理解した猫の非常に典型的な表現である画像を生成します。この画像がトレーニングで見られれば、モデルの理解に非常に高い影響を与えます(通常の猫の画像よりもはるかに高い影響を与えます)。したがって、その画像を毒を盛ると、モデルのトレーニングに非常に大きな効果を得ることができます。

2番目に、ナイトシェードの画像は毒を盛った画像と区別がつかないようにする必要があります。その目標を達成するために、ナイトシェードは自然な画像に対して摂動(つまり、ピクセルの値に対する小さな変化)を適用します。この摂動により、モデルからは画像が異なるように認識されます。上記の犬と猫の例を続けると、犬を表すモデルによって生成された画像を取ります。この画像は「アンカー画像」またはxᵃと呼ばれます。次に、非常に典型的な犬の画像(xₜとします)を取ります。この画像xₜに、以下の目的関数を最適化するように摂動δを追加します:

ここで、F()はモデルが使用する画像の特徴抽出器です。Distは距離関数であり、pはδが画像の変化があまりにも大きくなりすぎないための上限です。つまり、摂動された犬の画像の特徴(F(xₜ + δ))とアンカー画像(猫を表示する画像、F(xᵃ))の特徴の距離を可能な限り小さくしたいということです。つまり、モデルの視点では、2つの画像が似たように見えるようにしたいのです。なお、特徴抽出器の結果であるF(x)は、画像の見かけの表現ではなく、モデルが見る特徴空間での表現です(必要に応じて、ピクセル空間での表現です)。

以下の画像では、元の画像と毒入りの画像の違いを見つけることはできません(少なくとも私はできません)。しかし、特徴空間では、これらは非常に異なります。たとえば、毒入りの犬の画像の特徴は、猫の画像の特徴に非常に近く、モデルからはほぼ猫のように見えます。

2つの毒入りの画像の例。下の行の画像は、上の行の画像の変更バージョンです。人間にはどのような違いも見えませんが、元の画像と毒入りの画像はモデルの視点からは非常に異なります。Nightshade論文[1]から引用された画像。

この技術を使うことで、モデルのトレーニングに非常に大きな影響を与え、毒物として検出されない画像を生成することができます。これらの画像をインターネットにアップロードした場合、人間には全く疑いが生じず、したがって、どのような品質ゲートにもフィルタリングされることは非常にまれです。さらに、非常に強力なため、素朴なアプローチではトレーニングデータの犬の画像の20%を毒化する必要はありません。Nightshadeでは、通常50〜100枚の画像で特定の概念のモデルの性能を破壊することができます。

汎化性

さらに、Nightshadeには他の興味深い利点があります。それは、複数の方法で汎化する能力です。

まず第一に、特定のキーワードを毒化すると、リンギスティックまたは意味的な関連性のある概念にも影響を与えます。例えば、犬の概念の画像を毒化すると、子犬やハスキーといった犬に関連するキーワードにも影響を与えます。以下の例では、犬の概念が毒化され、子犬やハスキーの生成も妨げられています。

<img alt="ある概念(犬)を毒化すると、関連する概念(子犬、ハスキー、オオカミなど)の生成も妨げられます。Nightshade論文[1]から引用された画像。</figcaption></figure><p>同様に、ファンタジーのような概念を毒化すると、意味的に関連している概念にも影響を与えますが、関係のない概念には影響を与えません。以下の例では、毒化されたファンタジーに近い概念であるドラゴンに影響がありますが、椅子のような概念には影響がありません。</p><figure><img alt=" figcaption="" ある概念(ファンタジー)を毒化すると、関連する概念(例えばドラゴン)の生成も妨げられます。関係のない概念(例えば椅子)には影響を与えません。nightshade論文[1]から引用された画像。

さらに、複数の概念を毒化すると、画像の生成能力は完全に破綻することがあります。以下の例では、100、250、または500の概念が毒化されています。毒化されていない他の概念(例えば人や絵画)の生成も大幅に妨げられるようになります。

多くの概念を毒化することで、一般的な画像の生成能力が妨げられます。人、絵画、貝殻といった概念は特に毒化されていません。Nightshade論文[1]から引用された画像。</figcaption></figure><p>さらに、ナイトシェードの効果は異なるターゲットモデルにも一般化します。攻撃したいモデルを使用してアンカー画像を生成し、それに基づいて毒入り画像を構成することを思い出してください。それらの画像は非常に典型的であり、トレーニングに強い影響を与えるという考えが背後にあります。また、摂動を最適化するために特徴抽出機へのアクセスも必要でした。当然、ナイトシェードの影響は、これらのアンカー画像が攻撃されるモデルによって生成され、そのモデルの特徴抽出機が最適化に使用される場合に最も強くなります。しかし、アンカー画像と特徴抽出機が別のモデルから来ていても、毒入りはかなりうまく機能します。つまり、Stable Diffusion XL を攻撃したい場合でも、Stable Diffusion 2 の助けを借りて毒入り画像を生成することができます。これは、実際に攻撃したいモデルにアクセスできない場合に興味があるかもしれません。</p><h2 id=倫理的懸念

これまで、不正使用に対して知的財産を守るためにナイトシェードを使用できる方法として紹介しました。ただし、コインにはいつも二面性があるため、データの汚染は意図的に行われることも、そうでないこともある有害な方法としても使用される可能性があります。言うまでもなく、データの汚染は、生成型AIモデルを意図的に妨害し、その作成者に財務的な損害を与え、科学研究を妨げるために使用される可能性があります。競合他社のトレーニングデータを破壊して自社のモデルを改善するAI企業は、データの汚染の悪用の無数の例のうちの1つにすぎません。しかし、自分のコンテンツを守りたいだけでも、多くの概念を汚染することによって、AIの画像生成能力が総じて妨げられるということを見ました。したがって、多くの人々がナイトシェードを使用する場合、許容の範囲内であっても、適切に使用されるべき概念においても、画像生成AIを破壊する可能性があります。したがって、ナイトシェードを使用するコンテンツクリエイターは、自分のコンテンツを保護する意図さえも、望ましくない損害を引き起こす可能性があります。そのような副次的な損害がどの程度受け入れられるかは、活発な公開討論の対象となる質問です。

さらに、想像できるように、生成型AIの能力を攻撃することは、常に上下の戦いです。新しい攻撃が発明されるたびに、対抗勢力は新しい防御メカニズムを考案します。著者たちは、ナイトシェードが一般的な防御メカニズムにかなり強固であると主張していますが(例えば、特殊な分類器やその他の属性によって汚染された画像を検出すること)、いつかは新しい防御策が発見され、ナイトシェードを相殺する可能性があるかもしれません。その観点から見ると、ナイトシェードは一時的にはクリエイターが自分のコンテンツを保護するために使用することができますが、いずれは時代遅れになる可能性があります。

要約

さきほど見たように、ナイトシェードは、間違ったラベルでデータをラベル付けする単純なアプローチを超える、毒入りデータセットを作成するアルゴリズムです。これにより、人間による検出が不可能な毒入りの画像を生成し、わずかな例でも画像生成型AIに重大な影響を与えることができます。これにより、毒入り画像がトレーニングの一部となり、そこに影響を与える可能性が大幅に高まります。さらに、多くの方法で一般化することを約束するため、攻撃はより強力で防御しにくくなります。これにより、ナイトシェードは、モデルトレーニングのために使用許可されていないコンテンツの違法な使用に対抗する新しい方法を提供しますが、同時に破壊的な使用の可能性も含んでおり、倫理的な影響についての議論を呼びかけます。高潔な意図で使用される場合、ナイトシェードは、芸術家のスタイルや発明などの知的財産を守るのに役立つことができます。

参考文献

これがナイトシェードを紹介した元の論文です:

  • [1] Shan, S., Ding, W., Passananti, J., Zheng, H., & Zhao, B. Y. (2023). Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models. arXiv preprint arXiv:2310.13828.

この記事が気に入ったら、フォローして将来の投稿の通知を受け取ることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more