このAI論文は、拡散モデルのコンセプトを自身の知識を使って消去するためのモデルの重みを微調整する新しい方法を提案しています

このAI論文は、拡散モデルの重みを微調整する新しい方法を提案しています

近年、優れた画像品質と無限の生成能力から、モダンなテキストから画像を生成するモデルが注目を集めています。これらのモデルは、巨大なインターネットデータセットで訓練されたため、さまざまな概念を模倣することができます。しかし、これらのモデルは、ポルノグラフィーやその他の悪い概念を出力に含めないように訓練されています。このNEUとMITの研究者による研究では、事前訓練されたテキスト条件付きモデルの重みから特定の概念を選択して排除する方法を提供しています。これまでの戦略は、推論ガイダンス、生成後処理、データセットのフィルタリングに焦点を当ててきました。

回避が容易ではありますが、推論ベースのアプローチは望ましくない概念からの出力のフィルタリングや誘導に成功することができます。彼らのシステムは再訓練を必要とせず、大規模なモデルにとってコストがかかるデータフィルタリング技術とは異なります。それに対して、彼らの手法はモデルの入力から概念を直ちに排除し、モデルの重みの分布を可能にします。安定拡散テキストから画像への拡散モデルはオープンソースとして公開され、多くの人々が画像生成技術にアクセスできるようになりました。初期バージョンのソフトウェアには基本的なNSFWフィルターが搭載されており、危険な写真の作成を防ぐことができますが、コードとモデルの重みが公開されているため、フィルターをオフにすることも簡単です。

次のSD 2.0モデルは、露骨な写真を除外するためにフィルタリングされたデータで訓練されており、感度のあるコンテンツの作成を防止しています。この実験は、50億枚のLAIONデータセット上で150,000時間のGPUを使用して完了しました。プロセスの高コストのため、データの特定の変更と生じる可能性のある能力との因果関係を確立することは困難です。それでも、ユーザーは露骨な画像やその他の対象を訓練データから除外することが出力の品質に悪影響を与えている可能性があると報告しています。研究者たちは、人気のあるSD 1.4モデルがヌード検出器によって特定される露出した身体部位を持つ画像を796枚生成するのに対して、新しい訓練セット制限のあるSD 2.0モデルは417枚しか生成しないことを発見しました。これは、彼らの努力にもかかわらず、モデルの出力にはまだ重要な露骨なコンテンツが含まれていることを示しています。

テキストから画像へのアルゴリズムの著作権侵害の可能性も深刻な懸念材料です。AIによる生成アートの品質は、人間による生成アートと同等であり、実際のアーティストの美的嗜好も正確に模倣することができます。Stable Diffusionなどの大規模なテキストから画像合成システムのユーザーは、「特定のアーティストのスタイルでのアート」といった提案が特定のアーティストのスタイルを模倣する可能性があり、オリジナルの作品を損なう可能性があると述べています。さまざまなアーティストの苦情により、Stable Diffusionの開発者は彼らのアイデアを盗んだとして訴えられています。現在の研究では、モデルがそれをコピーしないように、オンラインで公開する前に作品に対して敵対的な摂動を追加することで、アーティストを保護することを試みています。

しかし、この方法を使用すると、学習された芸術的スタイルを持つ教え込まれたモデルが残ります。彼らは、安全性と著作権侵害の懸念に対応して、テキストから画像へのモデルから概念を削除するための手法を提供しています。彼らは、望ましくない概念の説明だけを使用し、その後の訓練データは必要とせず、彼ら自身のErased Stable Diffusion(ESD)技術を使用してモデルのパラメータを微調整します。彼らの手法は迅速であり、既存のモデルとの組み合わせで使用するために入力写真を変更する必要はありません。消去は、パラメータにアクセス権を持つユーザーでも、単純なブラックリストやポストフィルタリングよりも打破することが難しいです。

研究者は、削除されたアーティストのスタイルが出力された画像におけるユーザーの認識や他のアーティスティックなタイプへの干渉、および画像の品質への影響を調査するためにユーザースタディを実施しました。彼らのアプローチを望ましくない画像の削除に使用するSafe Latent Diffusionと比較したところ、同じく成功した結果が得られました。彼らはまた、その手法がモデルの創造的な特性を除去する能力を調査しました。最後に、彼らはオブジェクトクラス全体を消去することで、彼らの手法をテストしました。この記事は、論文のプレプリントに基づいています。彼らはモデルの重みとモデルのコードをオープンソース化しています。

PrePrint PaperCode、およびProjectをご覧ください。この研究に関しては、このプロジェクトの研究者に全てのクレジットがあります。また、最新のAI研究ニュースや素晴らしいAIプロジェクトなどを共有している16k+ ML SubRedditDiscord Channel、およびEmail Newsletterにぜひご参加ください。

この記事はMarkTechPostに最初に掲載されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

画像をプロンプトに変換する方法:Img2Prompt AIモデルによるステップバイステップガイド

シンプルなAPIコールと少しのNode.jsで画像からプロンプトを収集する

人工知能

洪水予測により、より多くの人々が安全に過ごせるよう支援する

AIを活用した洪水ハブは、世界約80カ国に拡大しています

機械学習

「Rodinに会ってください:さまざまな入力ソースから3Dデジタルアバターを生成する革新的な人工知能(AI)フレームワーク」

生成モデルは、コンピュータサイエンスの多くの困難なタスクに対する事実上の解決策となっています。それらは視覚データの分...

人工知能

「学生として、私がChatGPTを使って生産性を10倍にする方法」

現代の忙しい世界では、学生たちは常に生産性と効率を高める方法を求めています私自身も学生であり、一日中とても忙しかった...

人工知能

「コーディング経験なしでAIエージェンシーを始める方法」

「次の10年で最も大きなビジネスの機会の1つを紹介させてください」

機械学習

「AI/MLツールとフレームワーク:包括的な比較ガイド」

この記事では、主要なAI/MLツールやフレームワークの簡潔な比較を提供し、特定のAI/MLプロジェクトに適した技術の選択を支援...