このAI論文では、「ステーブルシグネチャ:画像透かしと潜在的な拡散モデルを組み合わせたアクティブ戦略」が紹介されています
This AI paper introduces the Stable Signature an active strategy combining image watermarking and latent diffusion models.
生成モデリングと自然言語処理の最近の進歩により、DALL’E 2やStable Diffusionなどのツールを使用して、写真のようなリアルなイメージの作成と操作が容易になりました。しかし、この生成AIの進歩により、写真のリアルな視覚表現への信頼の浸食について新たな懸念が生じています。
フォレンジック、つまりコンピューター生成または修正された写真を識別するための目立たない技術は、良い出発点です。ただし、既存の透かし技術は画像生成プロセスの上に重ねられることがあります。これらは、画像に見えない秘密のメッセージを埋め込み、その後、その信憑性を検証するために使用できるという原則に基づいて動作します。これにはいくつかの問題があります:
- 生成後の透かしは、モデルの漏洩やオープンソース化の場合に簡単に削除できます。
- Stable Diffusionという別のオープンソースプロジェクトからも、わずか1行のコードをコメントアウトするだけで透かしが削除できます。
Meta AI、Centre Inria de l’Universite de Rennes’、Sorbonne Universityによる最新の研究では、シグネチャ技術を使用して透かしを生成プロセスにシームレスに組み込み、基盤となるアーキテクチャを変更することなく、生成モデルを修正して、すべての生成された画像が指定された透かしを成功裏にマスクするようにします。
- OpenAIのLLMの支配を覆すことを目指す挑戦者:XLSTM
- 「AIと産業のデジタル化の時代に、開かれたUSDに開発者が注目」 Note OpenUSD refers to an open-source software library called USD (Universal Scene Description), which is commonly used in computer graphics and animation.
- 「AIがクリーンエネルギーの未来を支える方法」
この方法には多くの利点があります:
- ジェネレータとその出力の両方が保護されます。また、作成された画像の追加処理は不要なため、透かしを計算的に軽量化し、簡素化し、より安全なものにします。
- モデルプロバイダは、異なる透かしを持つ複数のユーザーグループにモデルを配布し、その使用が倫理的であるかどうかを確認することができます。
- さらに、メディア機関はAIを使用して、画像がコンピューター生成されたものであるかどうかを識別することができます。
チームは、その汎用性のために、潜在的な拡散モデル(LDM)を使用しました。この研究は、わずかな生成モデルの微調整だけで、生成されたすべての画像に透かしをネイティブに埋め込むことが可能であることを示しています。Stable Signatureは拡散プロセスを変更することなく、さまざまな種類のLDMベースの生成技術と連携します。微調整プロセスでは、透かし抽出器の知覚画像損失と隠れたメッセージ損失を使用して、LDMデコーダを再トレーニングします。透かし抽出器を準備するために、彼らは事前トレーニングのためのディープウォーターマーキング技術HiDDeNの簡略化バージョンを使用します。
研究者たちはまた、画像編集アプリケーションの評価のための現実的なテストベッドも構築しました。AI画像検出とモデルの系統追跡など、さまざまなタスクがあります。たとえば、モデルによって生成された画像が元のサイズの10%に切り取られても、研究者は106枚の写真に1つの誤検出のみで90%を検出することができました。彼らは、生成のFIDスコアに影響を与えず、生成された画像がさまざまなLDM関連のタスク(テキストから画像、インペインティング、編集など)において元のモデルによって生成された画像と知覚的に同一であることを示し、モデルの持続的な有用性を確保します。
この研究により、透かしのパッシブな検出技術に対する利点が示されました。研究者は、モデルを一般に公開する前に、他の研究者や専門家に同様の手法を取るように刺激を与えることを望んでいます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「REPLUG」をご紹介しますこれは、凍結された言語モデルと凍結/調整可能なリトリーバを組み合わせた、検索増強型言語モデリング(LM)フレームワークですこれにより、GPT-3(175B)の言語モデリングの性能が6.3%向上します
- 「深層学習を用いた深層オブジェクト:ZoeDepthはマルチドメインの深度推定のためのAIモデルです」
- FedMLとThetaが分散型AIスーパークラスターを発表:生成AIとコンテンツ推薦を強化
- 「パフォーマンスと使いやすさを向上させるための機械学習システムにおけるデザインパターンの探求」
- 「Co-BioNetに会ってください:モナッシュ大学の敵対的AIシステムが医療画像解析を革新し、広範な人間の注釈なしで精度を向上させています」
- 「パッチのせいかもしれませんか? このAIアプローチは、ビジョントランスフォーマーの成功における主要な貢献要素を分析します」
- 「SUSTech VIP研究室が、高性能なインタラクティブトラッキングとセグメンテーションを実現するトラックアニシングモデル(TAM)を提案する」