マイクロソフトAI研究チームが提案する「AltFreezing:より一般的な顔の偽造検出のための新しいトレーニング戦略」

AltFreezing:新たな顔の偽造検出トレーニング戦略

最近、顔生成や操作ツールの急速な発展のおかげで、顔のビデオが提供するアイデンティティや品質は非常に簡単に変更および操作できるようになりました。これにより、面白いビデオ、映画、および他のメディアの制作において重要で驚くべき使用法がいくつか生まれました。しかし、これらの手法は悪意を持って利用される可能性もあり、社会の安全感や信頼感に重大な危機をもたらす可能性があります。そのため、最近ではビデオの顔の偽造を検出する方法を学ぶことが一般的な研究課題となっています。

現在まで、実際の写真と偽の写真を区別するために「空間的な」アーティファクト(例:チェックボード、不自然さ、生成モデルの基礎にあるアーティファクトなど)を生成された画像から見つけるという有効な研究方針があります。これらの手法は、空間的に関連するアーティファクトを探す場合に素晴らしい結果を出します。ただし、ビデオの顔の偽造における点滅や不連続性などの「時間的な」アーティファクトを見逃してしまいます。最近の研究では、この問題に注意を払い、時間的な手がかりを使用して解決しようとしています。

これにより、結果として得られるモデルは時間的なレベルで不自然なアーティファクトを認識できますが、空間に関連するアーティファクトを検出する能力を向上させる必要があります。この研究では、広範なビデオの顔の偽造を特定するために、空間的および時間的なアーティファクトを捉えることを試みました。効果的な時空間ネットワーク(3D ConvNet)は、しばしば空間的および時間的なアーティファクトを探索することができます。しかし、単純なトレーニングでは、空間的なアーティファクトに過度に依存し、時間的なアーティファクトを無視して結論に至る可能性があり、一般化能力が低くなることがわかりました。空間的なアーティファクトは通常、時間的な不整合よりも目立つため、3D畳み込みネットワークは空間的なアーティファクトにより容易に依存することがあります。

したがって、問題は時空間ネットワークが時間的なアーティファクトと空間的なアーティファクトの両方を捉える能力を持つことです。中国科学技術大学、マイクロソフトリサーチアジア、合肥総合国家科学センターの研究者たちは、この問題を解決するためにAltFreezingという革新的なトレーニング手法を提案しています。重要なコンセプトは、トレーニング中に空間と時間に関連する重みを交互に凍結することです。空間畳み込みとカーネルサイズが1 × Kh × Kw、時間畳み込みとカーネルサイズがKt × 1 × 1を組み合わせた3D resblocksを使用して、時空間ネットワークを特に構築します。これらの空間的および時間的な畳み込みカーネルを使用して、空間レベルと時間レベルの特徴がそれぞれキャプチャされます。空間的および時間的なアーティファクトを克服するために、彼らのAltFreezing手法は2つの重みセットを交互に更新するように促します。

さらに、彼らはビデオレベルの偽のコンテンツを作成するための一連のツールを提供しています。これらの手法は2つのカテゴリに分けることができます。1つ目は、単に時間的なアーティファクトを使用し、実際のクリップからランダムにフレームを繰り返し削除する偽のクリップです。2つ目のクリップは、1つの実際のクリップから別の実際のクリップへの領域のブレンドによって作成され、空間的なアーティファクトのみを持ちます。これらのビデオ拡張技術は、空間的および時間的な制約がある偽のビデオを最初に生成するものです。これらの改善は、時空間モデルが空間的および時間的なアーティファクトの両方を捉えるのに役立ちます。上記で説明した2つの手法により、彼らは一般化されていない偽造物に対する最先端のパフォーマンスや多様な摂動に対する耐性を含む、さまざまな難しい顔の偽造検出シナリオで優れた結果を出すことができます。提案されたフレームワークの有効性を確認するために、彼らはまた、研究方法についての詳細な研究を提供しています。

以下は、彼らの3つの主要な貢献です。

・ビデオの顔の偽造を検出するために空間的および時間的なアーティファクトを調査することを提案します。これを達成するために、AltFreezingという新しいトレーニング手法が提案されています。

・広範な偽のデータ拡張技術を提供し、モデルがより広範な範囲の偽造物を捉えるように促します。

・提案手法の評価を含む、操作とデータセットを横断した広範なテストにより、新たな最先端のパフォーマンスを達成することを示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

5分であなたのStreamlitウェブアプリを展開してください

データサイエンティストが自分の仕事をダッシュボードや動作するWebアプリで紹介する必要性が高まってきていますWebアプリを...

機械学習

「教師あり学習の理論と概要の理解」

この記事は、人気のある教師あり学習アルゴリズムの高レベルな概要をカバーし、初心者向けに特別に作成されています

機械学習

「AIバイアス&文化的なステレオタイプ:影響、制約、そして緩和」

「AIのバイアスは私たちの社会に害をもたらしますAIアルゴリズムに根付いたバイアスについて学び、それらを軽減するさまざま...

機械学習

Falcon-7Bの本番環境への展開

これまでに、ChatGPTの能力と提供するものを見てきましたしかし、企業利用においては、ChatGPTのようなクローズドソースモデ...

データサイエンス

デコード Transformersを平易な英語で説明します

コード、数学、またはキー、クエリ、値の言及なし

AI研究

このAI研究は、単一の画像を探索可能な3Dシーンに変換する、パノラマニックNeRF(PERF)を紹介します

NeRFは、2D画像から3Dシーンの再構築と視点合成を行うためのディープラーニング技術です。正確な3D表現を構築するには、通常...