ディープフェイクビデオを出し抜く
Outsmarting Deepfake Videos.
2022年3月、ウクライナ大統領のウォロディミル・ゼレンスキーの合成ビデオが各種ソーシャルメディアプラットフォームや国民的なニュースウェブサイトに出現しました。ビデオでは、ゼレンスキー大統領がロシアとの戦いで民衆に降伏するよう促していますが、話者は全くゼレンスキー大統領ではありません。1分間のクリップはディープフェイクであり、ディープラーニングモデルによって生成された合成ビデオで、大統領は間もなく、自国の領土と人民を守ることを再確認する正当なメッセージを投稿しました。
ウクライナ政府はすでに、国家スポンサーによるディープフェイクがロシアの情報戦争の一環として使用される可能性があると警告していました。ビデオ自体は特にリアルで説得力があるわけではありませんでしたが、ディープフェイクの品質は急速に向上しています。 「合成メディアには少し感心しなければなりません」と、カリフォルニア大学バークレー校のコンピュータサイエンティストでデジタルフォレンジックの専門家であるハニー・ファリドは語ります。「5年で、かなり低解像度のビデオから、完全に高解像度で非常に洗練された『トム・クルーズTikTok』のディープフェイクまで進化しました。光速で進化しています。我々は、現実を歪めることが驚くほど簡単になりつつある段階に入っています。」
前述のTikTokの例のように、会社が有名な俳優に似た一連のビデオを生成した場合、結果はエンターテインメントになることがあります。スタートアップ企業は、マーケティングビデオで使用するためのディープフェイク技術を開発し、ハリウッドスタジオは、人間の俳優と一緒に超リアルなデジタルキャラクターを映画に挿入しています。しかし、研究者によると、この技術を悪用してディスインフォメーション、恐喝、およびその他の不快な目的に使用することは懸念されています。ゼレンスキーのディープフェイクがトム・クルーズのクリップのようにリアルだった場合、合成ビデオはひどい結果をもたらす可能性がありました。
悪用の可能性とディープフェイク技術の進化の速さにより、合成メディアを生成するグループと、それらを検出するより効果的かつ強靭な方法を見つける科学者との間で競争が繰り広げられています。「検出が作成に追いつくか、先を行くようにチェスゲームをしています」と、ニューヨーク州立大学バッファロー校のコンピュータサイエンティストであるシウェイ・リューは語ります。「彼らが私たちが検出するために使用するトリックを知ったら、彼らは自分たちのモデルを修正して、検出アルゴリズムをより効果的にすることができます。彼らが1つ修正するたびに、私たちはより良いものを開発する必要があります。」
ディープフェイク技術のルーツは、2014年の生成的対抗ネットワーク(GAN)の開発に遡ることができます。GANアプローチは、2つのモデルを互いに対決させます。コンセプトを紹介する論文で、Ian Goodfellowらは、2つのモデルを偽造者と警察の間の「ゲーム」と類推しました。前者は後者を出し抜こうとし、競争が彼らを本物に近づける点まで推し進めます。ディープフェイクでは、最初のモデルが合成イメージを生成し、2番目のモデルがそれを偽物として検出しようとします。ペアが反復するにつれて、生成モデルは欠陥を修正し、より良いイメージを生成します。
初期の段階では、偽のビデオを認識することは比較的容易でした。肌の色の不一致や、顔の構造や動きの不規則性が一般的でした。しかし、合成エンジンが改善されるにつれて、検出はますます困難になっています。「人々はしばしば、自分たちがフェイクコンテンツを検出することができると思っています。私たちは何かに騙されていますが、それに気づいていません」と、イギリスのランカスター大学でディープフェイク認識を研究している心理学者のソフィー・ナイチンゲールは語ります。「我々は、人間の知覚システムが何かが本物か偽物かを判断できない段階に達していると言えるでしょう。」
技術の進化に合わせて、研究者たちはデジタル偽造の兆候を見つけるツールを開発しています。2018年、ACMの名誉会員であるリューとバッファロー大学の学生の1人は、より良い検出モデルを構築するために、ディープフェイクビデオを研究していました。数え切れないほどの例を見て、公開されている技術を使用して自分たち自身のビデオを生成した後、彼らは奇妙なことに気づきました。「顔がまばたきをしなかった!」リューは回想します。「彼らは現実的なまばたきを持っておらず、場合によってはまったくまばたきをしませんでした。」
最終的に、彼らはビデオ内での目のまばたきの不足がトレーニングデータの論理的結果であることに気付きました。合成ビデオを生成するモデルは、特定の主題の静止画像をもとにトレーニングされます。通常、写真家は被写体の目が閉じている画像を公開しません。「私たちは目を開けた画像だけをアップロードします」とLyuは説明しています。「その偏りが学習され、再現されます。」
Lyuと彼の学生は、目をまばたかせないことや目のまばたきの不規則なパターンに基づいてディープフェイクを検出するモデルを作成しましたが、彼らが結果を公開した直後、次の波の合成ビデオが進化しました。Zelenskyyのビデオは品質が低いですが、ウクライナの大統領がまばたきをしています。
目のまばたきに関する研究は、ディープフェイクを検出する主要なアプローチの一例です。 「これらの生成モデルは、トレーニングデータから再現する対象について学習します」とLyuは説明しています。「多くのデータを与えると、現実的な合成メディアを作成できますが、これは現実世界に関する効率的な学習方法ではありません。現実世界で起こることは現実的な物理的世界の法則に従わなければならず、その情報はトレーニングデータに間接的に組み込まれます。」同様に、Lyuは、合成された被写体の眼の角膜の反射と網膜の微細な違いを特定しました。
ディープラーニング研究者のYuval Nirkinは、現在CommonGround-AIの研究科学者であり、ビデオ内の顔の内部部分と周囲のコンテキスト、つまり頭部、首、髪の領域を比較する検出方法を開発しました。 「既知のビデオディープフェイクの方法では、全体の頭を変更するのではなく、顔の内部部分に焦点を当てています」とNirkinは説明しています。「人間の顔は簡単にモデル化できる単純なジオメトリを持っていますが、全体の頭は非常に不規則で、再構築が困難な非常に微細な詳細を含みます。」Nirkinは、被写体の顔を内部と外部の部分に分け、各部から識別信号を抽出するモデルを開発しました。「2つの部分の信号に不一致がある場合、被写体のアイデンティティが変更されたと判断できます」と彼は説明します。このアプローチの利点は、Nirkinが付け加えたように、特定のディープフェイク生成モデルに関連する欠陥やアーティファクトに焦点を当てていないため、未知の技術に適用できることです。
最終的に、彼らはビデオ内での目のまばたきの不足がトレーニングデータの論理的結果であることに気付きました。
カリフォルニア大学バークレー校では、Faridは特定のアーティファクトに焦点を当てることからさらに離れた検出方法を先駆けています。彼と彼の学生たちは、実際に検証された人物のビデオ映像を研究するツールを設計しました。グループのソリューションは、その映像内の780種類の異なる顔の表情、ジェスチャー、音声機能の相関関係を探索し、特定の人物とその顔、話し方、ジェスチャーのパターンのより良いモデルを構築します。話している間に頭を動かすと、あなたの音声管が変わり、声の音にわずかな変化が生じ、モデルはそのようなリンクを識別します。Zelinskyyについては、彼は笑顔に特定の種類の不対称性があり、話している間に腕を動かすという特定の癖があります。
研究者たちは、これらの観察と相関関係を集約して、Zelinskyyなどの有名人のモデルまたは分類器を作成します。分類器の精度は、より多くの相関関係が組み込まれるにつれて増加し、グループがすべての780の相関関係を考慮に入れた場合、100%の成功率に達します。分類器がビデオを調べ、複数の特徴がモデルから外れる場合、その技術はサンプルが実際にその被写体でないと結論付けます。「ある意味では、私たちはディープフェイク検出器を構築していません」とFaridは説明しています。「私たちはZelinskyy検出器を構築しています。」
Faridは、合成エンジンが常に改善されていることを認識しており、彼のグループはその進化を遅らせるために、分類器のコードを公開していません。現在、彼らはデータベースを拡大し、より多くの世界の指導者のための検出器を作成しています。
ディープフェイクジェネレータが改善し、現実と合成メディアの区別がますます困難になる中、それらを迅速に検出する新しい手段を開発することはますます重要になっています。心理学者でディープフェイク研究者のNightingaleは、「適切なものに頼り、信頼し、信頼するべきでないものに疑いを持つことが重要です。そうしないと、私たちは何も信頼しない状況に陥る可能性があります。」と説明しています。
さらに読む
Goodfellow, I. et al. “Generative adversarial networks,” Communications , Volume 63, Issue 11, November 2020.
Nightingale、S.、およびFarid、H。「AIによる合成された顔は実際の顔と区別がつかず、より信頼できる」とPNAS、2022年2月14日。
Boháček、M.、およびFarid、H。「顔、ジェスチャー、および音声のマナリズムを使用して世界の指導者をディープフェイクから保護する」とPNAS、2022年11月23日。
Nirkin、Y.、et al.「顔とそのコンテキストの不一致に基づくディープフェイク検出」、IEEE Transactions on Pattern Analysis and Machine Intelligence、vol. 44、no. 10、2022年10月。
Li、Y.、Chang、M.、およびLyu、S.「In Ictu Oculi:眼瞬きの検出によるAIによる偽のビデオの露出」、IEEE Workshop on Information Forensics and Security(WIFS)、香港、2018年。
トップへ戻る
著者
グレゴリー・モーンは、Daniela Rusと共著の forthcoming book The Heart and the Chip の著者です。
©2023 ACM 0001-0782/23/7
個人的または教室での使用のために、この作品の一部または全部のデジタルまたは印刷物の複製を作成または配布しても、利益または商業的な利益のために複製物を作成または配布しない限り、この通知と最初のページの完全な引用を記載し、ACMが所有するこの作品のコンポーネントの著作権を尊重する必要があります。クレジット付きで要約することは許可されています。それ以外の場合は、事前に特定の許可と/または料金が必要です。[email protected]またはfax(212)869-0481から出版許可を要求してください。
デジタルライブラリは、Association for Computing Machineryによって出版されています。Copyright © 2023 ACM、Inc。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles