マイクロソフトAI研究チームが提案する「AltFreezing:より一般的な顔の偽造検出のための新しいトレーニング戦略」

AltFreezing:新たな顔の偽造検出トレーニング戦略

最近、顔生成や操作ツールの急速な発展のおかげで、顔のビデオが提供するアイデンティティや品質は非常に簡単に変更および操作できるようになりました。これにより、面白いビデオ、映画、および他のメディアの制作において重要で驚くべき使用法がいくつか生まれました。しかし、これらの手法は悪意を持って利用される可能性もあり、社会の安全感や信頼感に重大な危機をもたらす可能性があります。そのため、最近ではビデオの顔の偽造を検出する方法を学ぶことが一般的な研究課題となっています。

現在まで、実際の写真と偽の写真を区別するために「空間的な」アーティファクト(例:チェックボード、不自然さ、生成モデルの基礎にあるアーティファクトなど)を生成された画像から見つけるという有効な研究方針があります。これらの手法は、空間的に関連するアーティファクトを探す場合に素晴らしい結果を出します。ただし、ビデオの顔の偽造における点滅や不連続性などの「時間的な」アーティファクトを見逃してしまいます。最近の研究では、この問題に注意を払い、時間的な手がかりを使用して解決しようとしています。

これにより、結果として得られるモデルは時間的なレベルで不自然なアーティファクトを認識できますが、空間に関連するアーティファクトを検出する能力を向上させる必要があります。この研究では、広範なビデオの顔の偽造を特定するために、空間的および時間的なアーティファクトを捉えることを試みました。効果的な時空間ネットワーク(3D ConvNet)は、しばしば空間的および時間的なアーティファクトを探索することができます。しかし、単純なトレーニングでは、空間的なアーティファクトに過度に依存し、時間的なアーティファクトを無視して結論に至る可能性があり、一般化能力が低くなることがわかりました。空間的なアーティファクトは通常、時間的な不整合よりも目立つため、3D畳み込みネットワークは空間的なアーティファクトにより容易に依存することがあります。

したがって、問題は時空間ネットワークが時間的なアーティファクトと空間的なアーティファクトの両方を捉える能力を持つことです。中国科学技術大学、マイクロソフトリサーチアジア、合肥総合国家科学センターの研究者たちは、この問題を解決するためにAltFreezingという革新的なトレーニング手法を提案しています。重要なコンセプトは、トレーニング中に空間と時間に関連する重みを交互に凍結することです。空間畳み込みとカーネルサイズが1 × Kh × Kw、時間畳み込みとカーネルサイズがKt × 1 × 1を組み合わせた3D resblocksを使用して、時空間ネットワークを特に構築します。これらの空間的および時間的な畳み込みカーネルを使用して、空間レベルと時間レベルの特徴がそれぞれキャプチャされます。空間的および時間的なアーティファクトを克服するために、彼らのAltFreezing手法は2つの重みセットを交互に更新するように促します。

さらに、彼らはビデオレベルの偽のコンテンツを作成するための一連のツールを提供しています。これらの手法は2つのカテゴリに分けることができます。1つ目は、単に時間的なアーティファクトを使用し、実際のクリップからランダムにフレームを繰り返し削除する偽のクリップです。2つ目のクリップは、1つの実際のクリップから別の実際のクリップへの領域のブレンドによって作成され、空間的なアーティファクトのみを持ちます。これらのビデオ拡張技術は、空間的および時間的な制約がある偽のビデオを最初に生成するものです。これらの改善は、時空間モデルが空間的および時間的なアーティファクトの両方を捉えるのに役立ちます。上記で説明した2つの手法により、彼らは一般化されていない偽造物に対する最先端のパフォーマンスや多様な摂動に対する耐性を含む、さまざまな難しい顔の偽造検出シナリオで優れた結果を出すことができます。提案されたフレームワークの有効性を確認するために、彼らはまた、研究方法についての詳細な研究を提供しています。

以下は、彼らの3つの主要な貢献です。

・ビデオの顔の偽造を検出するために空間的および時間的なアーティファクトを調査することを提案します。これを達成するために、AltFreezingという新しいトレーニング手法が提案されています。

・広範な偽のデータ拡張技術を提供し、モデルがより広範な範囲の偽造物を捉えるように促します。

・提案手法の評価を含む、操作とデータセットを横断した広範なテストにより、新たな最先端のパフォーマンスを達成することを示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

再生医療テキスト生成が臨床NLPタスクを革命化することができるのか? クリニカルナレッジ抽出とコンテキストに基づいたLLMプロンプトを組み込んだAIモデル「ClinGen」に会いましょう

医療データの抽出、分析、解釈は、クリニカル ナチュラル ランゲージ プロセッシング(NLP)と呼ばれる新興の学問領域に含ま...

機械学習

「条件付き生成敵対的ネットワークとは何ですか?」

CGAN(Conditional Generative Adversarial Networks)は、特定のパラメータやラベルをGANに組み込むことで、データ作成プロ...

AIニュース

「GANやVAEを超えたNLPにおける拡散モデルの探求」

はじめに 拡散モデルは、特に自然言語処理(NLP)の分野で最近注目されています。データを通じてノイズを拡散させるという概...

データサイエンス

Google AIは、屋外での人間の視点によるシーン理解のためのマルチ属性ビデオデータセットであるSANPOを導入しました

自動運転などのタスクにおいて、AIモデルは道路や歩道の3D構造だけでなく、道路標識や信号機を識別・認識する必要があります...

AIニュース

ケシャヴ・ピンガリ氏がACM-IEEE CSケン・ケネディ賞で表彰されました

「Pingaliさんに賞が正式に贈られるのは、11月に高性能コンピューティング、ネットワーキング、ストレージ、アナリティクスの...

機械学習

「完璧なコンビ:adidasとCovision MediaがAIとNVIDIA RTXを使用して写真のようなリアルな3Dコンテンツを作成」

物理製品の3Dスキャンを作成するのは時間がかかる場合があります。多くの企業は、フォトグラメトリーベースのアプリやスキャ...