このAI論文では、「ステーブルシグネチャ：画像透かしと潜在的な拡散モデルを組み合わせたアクティブ戦略」が紹介されています

This AI paper introduces the Stable Signature an active strategy combining image watermarking and latent diffusion models.

生成モデリングと自然言語処理の最近の進歩により、DALL’E 2やStable Diffusionなどのツールを使用して、写真のようなリアルなイメージの作成と操作が容易になりました。しかし、この生成AIの進歩により、写真のリアルな視覚表現への信頼の浸食について新たな懸念が生じています。

フォレンジック、つまりコンピューター生成または修正された写真を識別するための目立たない技術は、良い出発点です。ただし、既存の透かし技術は画像生成プロセスの上に重ねられることがあります。これらは、画像に見えない秘密のメッセージを埋め込み、その後、その信憑性を検証するために使用できるという原則に基づいて動作します。これにはいくつかの問題があります：

生成後の透かしは、モデルの漏洩やオープンソース化の場合に簡単に削除できます。
Stable Diffusionという別のオープンソースプロジェクトからも、わずか1行のコードをコメントアウトするだけで透かしが削除できます。

Meta AI、Centre Inria de l’Universite de Rennes’、Sorbonne Universityによる最新の研究では、シグネチャ技術を使用して透かしを生成プロセスにシームレスに組み込み、基盤となるアーキテクチャを変更することなく、生成モデルを修正して、すべての生成された画像が指定された透かしを成功裏にマスクするようにします。

この方法には多くの利点があります：

ジェネレータとその出力の両方が保護されます。また、作成された画像の追加処理は不要なため、透かしを計算的に軽量化し、簡素化し、より安全なものにします。
モデルプロバイダは、異なる透かしを持つ複数のユーザーグループにモデルを配布し、その使用が倫理的であるかどうかを確認することができます。
さらに、メディア機関はAIを使用して、画像がコンピューター生成されたものであるかどうかを識別することができます。

チームは、その汎用性のために、潜在的な拡散モデル（LDM）を使用しました。この研究は、わずかな生成モデルの微調整だけで、生成されたすべての画像に透かしをネイティブに埋め込むことが可能であることを示しています。Stable Signatureは拡散プロセスを変更することなく、さまざまな種類のLDMベースの生成技術と連携します。微調整プロセスでは、透かし抽出器の知覚画像損失と隠れたメッセージ損失を使用して、LDMデコーダを再トレーニングします。透かし抽出器を準備するために、彼らは事前トレーニングのためのディープウォーターマーキング技術HiDDeNの簡略化バージョンを使用します。

研究者たちはまた、画像編集アプリケーションの評価のための現実的なテストベッドも構築しました。AI画像検出とモデルの系統追跡など、さまざまなタスクがあります。たとえば、モデルによって生成された画像が元のサイズの10％に切り取られても、研究者は106枚の写真に1つの誤検出のみで90％を検出することができました。彼らは、生成のFIDスコアに影響を与えず、生成された画像がさまざまなLDM関連のタスク（テキストから画像、インペインティング、編集など）において元のモデルによって生成された画像と知覚的に同一であることを示し、モデルの持続的な有用性を確保します。

この研究により、透かしのパッシブな検出技術に対する利点が示されました。研究者は、モデルを一般に公開する前に、他の研究者や専門家に同様の手法を取るように刺激を与えることを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors PickMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

このAI論文では、「ステーブルシグネチャ：画像透かしと潜在的な拡散モデルを組み合わせたアクティブ戦略」が紹介されています

Was this article helpful?

Macでの安定したDiffusion XLと高度なCore ML量子化

メディアでのアルコール摂取の検出：CLIPのゼロショット学習とABIDLA2ディープラーニングの画像解析のパワーを評価する

機械学習

このAIニュースレターは、あなたが必要とするすべてです＃73

SalesForce AI 研究 BannerGen マルチモダリティバナー生成のためのオープンソースライブラリ

「PyTorchモデルのパフォーマンス分析と最適化—パート6」

「顔認識システムにおけるバイアスの解消新しいアプローチ」

コンテンツクリエーターに必要不可欠なChatGPTプラグイン

「LLMプロンプティングにおける思考の一端：構造化されたLLM推論の概要」