マイクロソフトAI研究チームが提案する「AltFreezing:より一般的な顔の偽造検出のための新しいトレーニング戦略」

AltFreezing:新たな顔の偽造検出トレーニング戦略

最近、顔生成や操作ツールの急速な発展のおかげで、顔のビデオが提供するアイデンティティや品質は非常に簡単に変更および操作できるようになりました。これにより、面白いビデオ、映画、および他のメディアの制作において重要で驚くべき使用法がいくつか生まれました。しかし、これらの手法は悪意を持って利用される可能性もあり、社会の安全感や信頼感に重大な危機をもたらす可能性があります。そのため、最近ではビデオの顔の偽造を検出する方法を学ぶことが一般的な研究課題となっています。

現在まで、実際の写真と偽の写真を区別するために「空間的な」アーティファクト(例:チェックボード、不自然さ、生成モデルの基礎にあるアーティファクトなど)を生成された画像から見つけるという有効な研究方針があります。これらの手法は、空間的に関連するアーティファクトを探す場合に素晴らしい結果を出します。ただし、ビデオの顔の偽造における点滅や不連続性などの「時間的な」アーティファクトを見逃してしまいます。最近の研究では、この問題に注意を払い、時間的な手がかりを使用して解決しようとしています。

これにより、結果として得られるモデルは時間的なレベルで不自然なアーティファクトを認識できますが、空間に関連するアーティファクトを検出する能力を向上させる必要があります。この研究では、広範なビデオの顔の偽造を特定するために、空間的および時間的なアーティファクトを捉えることを試みました。効果的な時空間ネットワーク(3D ConvNet)は、しばしば空間的および時間的なアーティファクトを探索することができます。しかし、単純なトレーニングでは、空間的なアーティファクトに過度に依存し、時間的なアーティファクトを無視して結論に至る可能性があり、一般化能力が低くなることがわかりました。空間的なアーティファクトは通常、時間的な不整合よりも目立つため、3D畳み込みネットワークは空間的なアーティファクトにより容易に依存することがあります。

したがって、問題は時空間ネットワークが時間的なアーティファクトと空間的なアーティファクトの両方を捉える能力を持つことです。中国科学技術大学、マイクロソフトリサーチアジア、合肥総合国家科学センターの研究者たちは、この問題を解決するためにAltFreezingという革新的なトレーニング手法を提案しています。重要なコンセプトは、トレーニング中に空間と時間に関連する重みを交互に凍結することです。空間畳み込みとカーネルサイズが1 × Kh × Kw、時間畳み込みとカーネルサイズがKt × 1 × 1を組み合わせた3D resblocksを使用して、時空間ネットワークを特に構築します。これらの空間的および時間的な畳み込みカーネルを使用して、空間レベルと時間レベルの特徴がそれぞれキャプチャされます。空間的および時間的なアーティファクトを克服するために、彼らのAltFreezing手法は2つの重みセットを交互に更新するように促します。

さらに、彼らはビデオレベルの偽のコンテンツを作成するための一連のツールを提供しています。これらの手法は2つのカテゴリに分けることができます。1つ目は、単に時間的なアーティファクトを使用し、実際のクリップからランダムにフレームを繰り返し削除する偽のクリップです。2つ目のクリップは、1つの実際のクリップから別の実際のクリップへの領域のブレンドによって作成され、空間的なアーティファクトのみを持ちます。これらのビデオ拡張技術は、空間的および時間的な制約がある偽のビデオを最初に生成するものです。これらの改善は、時空間モデルが空間的および時間的なアーティファクトの両方を捉えるのに役立ちます。上記で説明した2つの手法により、彼らは一般化されていない偽造物に対する最先端のパフォーマンスや多様な摂動に対する耐性を含む、さまざまな難しい顔の偽造検出シナリオで優れた結果を出すことができます。提案されたフレームワークの有効性を確認するために、彼らはまた、研究方法についての詳細な研究を提供しています。

以下は、彼らの3つの主要な貢献です。

・ビデオの顔の偽造を検出するために空間的および時間的なアーティファクトを調査することを提案します。これを達成するために、AltFreezingという新しいトレーニング手法が提案されています。

・広範な偽のデータ拡張技術を提供し、モデルがより広範な範囲の偽造物を捉えるように促します。

・提案手法の評価を含む、操作とデータセットを横断した広範なテストにより、新たな最先端のパフォーマンスを達成することを示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「言語モデルの微調整を革命化する:NEFTuneのノイズ付き埋め込みで達成する前例のない向上」

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screen...

AI研究

Google研究者がAudioPaLMを導入:音声技術における革新者 - 聞き、話し、そして前例のない精度で翻訳する新しい大規模言語モデル

大規模言語モデル(LLM)が数ヶ月間注目を集めています。人工知能の分野で最も優れた進歩の1つであり、これらのモデルは人間...

AI研究

KAISTのAI研究者が、「KTRL+F」という技術を導入しましたこれは、ドキュメント内で意味的なターゲットをリアルタイムで特定するための知識を補完するコンピューター上の検索タスクです

KTRL+Fタスクは、リアルタイムでドキュメント内の意味的な対象を特定するための知識拡張型インドキュメント検索問題であり、...

AIニュース

「AIの成長する需要が世界的な水不足を引き起こす可能性がある」

人工知能は技術革命の原動力でありながら、静かに私たちの水資源を枯渇させています。OpenAIのChatGPTなどの高度なシステムを...

機械学習

「Amazon SageMaker Model Registry、HashiCorp Terraform、GitHub、およびJenkins CI/CDを使用して、マルチ環境設定でのパイプラインの促進を行う」

「機械学習運用(MLOps)プラットフォームを組み立てることは、人工知能(AI)と機械学習(ML)の急速に進化する状況において...

人工知能

「不正行為の恐れにもかかわらず、学校はChatGPTの禁止を撤回する」

「かつてA.I.チャットボットをブロックしようと競っていた一部の地域は、今ではそれらを受け入れようと試みています」