AIによるなりすましからの戦い

AIによるなりすましを迎え撃つ

詐欺師はこの技術を使って洗練された電話詐欺を行っていますが、コンピュータ生成の声にはポジティブな応用もあります。 ¶ クレジット:analyticsvidhya.com

今年早くも、歌手と作曲家のDrakeとThe Weekndによる新しい曲がソーシャルメディアでバイラルになりました。しかし、すぐにこのアーティストが音楽に関与しておらず、トラックがディープフェイクであることが判明しました: 彼らの声は、生成的人工知能(AI)を使用して合成されたもので、学習されたデータからパターンを学び、類似の出力を生成します(以下の曲を聞くことができます)。

同様に、最近、詐欺師はこの技術を使って、緊急の状況に対応するためにお金を求める家族や友人のクローン声を利用した洗練された電話詐欺を行っています。

「最近の合成音声モデルは、わずか半分の分の1分のサンプルで、リアルな人間の声を作成することができます」と、ニューヨーク州立バッファロー大学のメディア鑑識ラボのコンピュータサイエンス教授であるシウェイ・リュウ氏は言います。「この技術はついに人々の注意を引いています」と。

コンピュータ生成の声には、ポジティブな使い道もあります。運動ニューロン疾患(MND)などの病気で声を失った人々は、過去の話し方のサンプルでそれを再現することができます。また、歌手が新しい曲を制作するプロセスをスピードアップするのにも役立ちます。例えば、彼らの声をクローン化してデモトラックを素早く生成することなどです。

しかし、AI合成音声の品質が向上し、私たちの日常生活でより広まるにつれて、倫理的問題やその誤用と戦うための技術も考慮される必要があります。

シアトルのワシントン大学情報学部の教授であるジン・ハ・リー氏は、このような声のクローン技術の倫理についての研究に興味を持ちました。例えば、2021年には、故韓国のロックスターであるシン・ヘソルが死後、合成音声で再現され、韓国の男性アイドルグループBTSと共演しました。「これは生きている人と故人のアーティストが時の壁を超えた面白いコラボレーションでした」と彼女は言います。

しかし、リー氏はこのようなシナリオで解決されるべき深層の問題にも気づきました。たとえ故人のアーティストの家族が声の合成に許可を出し、補償を受けたとしても、実際の本人の許可なしにそれを使用することは本当に倫理的でしょうか?「これからは、現在生きているすべてのアーティストだけでなく、亡くなったアーティストにも配慮する必要があると思います」とリー氏は言います。

最近の研究では、リー氏と彼女の同僚は、一般の人々や音声合成の開発者や研究者がAI生成の歌声をどのように認識しているかを調査しました。一般の意見を集めるために、彼らは韓国のテレビ番組のオンライン動画のユーザーコメントを3,000以上分析しました。これらの動画では、AIを使用して生きているアーティストや故人の声を再現するケースや、彼らの声を操作したり別の言語で歌わせたりする技術が紹介されていました。チームはまた、音声合成技術を開発している6人の研究者に倫理的な問題と実施すべき予防措置についてインタビューしました。

リー氏と彼女の同僚は、一般の人々はAI合成の歌声に対して否定的な意見を持っていることが多いという結果を得、それが本当に開発されるべきかどうか疑問に思いました。彼女は、一般的なAIのディストピア的な描写が映画や大衆文化で根付いていることが、この技術に対する一般の拒絶反応の原因だと考えています。一方、開発者たちは、現在の技術がそれほど先進的ではないと思っており、同時に対策も開発されているため、より楽観的な考えを持っているようです。「彼らは [また] それが人々を支援するために置き換えるのではなく、人々をサポートするものだと強調しました」とリー氏は言います。

その他の研究グループは、ディープフェイクの声を検出するための方法の開発により注力しています。一つの戦略は、AI合成音声が生成される際に生じるアーティファクトを探すことです。これらは主に最後のステップで生成されます。時間周波数表現から声を再構築するために特殊なタイプのニューラルネットワークであるニューラル・ボコーダが使用されるときに生じるものです。過去には、シーンのノイズがアーティファクトとして生成されることがありましたが、ボコーダの改善によりそれらはより知覚しにくくなりました。「私たちの耳で聞くのは非常に難しいです」とリュウ氏は言います。「しかし、2次元の時間周波数表現としてプロットすると、それらはより明確になります」。

最近の研究では、Lyu氏と彼の同僚は、神経ボコーダのアーティファクトに基づいて、リアルな声と合成声を区別し、その結果から声を本物か否かで分類するために、RawNet2と呼ばれる深層学習モデルを使用しました。モデルを訓練およびテストするために、彼らは約13,000以上のリアルなオーディオサンプルを使用し、6つの最先端のボコーダを使用してこれらのオリジナルから生成された79,000以上の偽声サンプルを生成しました。データセットからは55,000以上のサンプルが訓練目的で使用され、18,000以上がテスト用に確保されました。

Lyu氏と彼のチームは、声を本物か偽物かで分類する面では、モデルの性能が良いと結論づけました。ただし、ボコーダのアーティファクトが背景ノイズによってマスクされないようにするために、クリアなオーディオが必要です。データセットには表れていないボコーダから生成された偽声をテストした場合、システムの性能が低下することがわかりました。Lyu氏はまた、巧妙な攻撃者がオーディオを処理してボコーダのアーティファクトの痕跡を除去する可能性も懸念しています。「私たちは制限をよく理解しています」と彼は言います。「データセットを拡大し、より微妙なアーティファクトを処理するためのネットワークモデルの設計によって、[性能を向上させる]ことができます。」

別のチームは、ディープフェイクの検出について少し予測可能な特性を利用する異なるアプローチを取ろうとしています。ミシガン州ディアボーンのミシガン大学の電気・コンピュータ工学の教授であるHafiz Malik氏は、実際の声は発話速度や一時停止、ピッチの変化など、合成された音声に比べてより多様性があると仮説を立てました。ただし、その違いは微妙であり、人間の耳では常に明らかではありません。

Malik氏と彼のチームは現在、深層学習アルゴリズムを使用してこの仮説を検証しています。彼らは、有名人がスピーチやトーク、インタビューをしているオーディオを使用して訓練とテストのための巨大なデータセットを作成しています。商業的に利用可能なツールを使用して、それらの人々の声を合成し、生成された2次元の波形をオリジナルと比較することができます。「今のところ、[私たちの仮説]はかなり堅固です」とMalik氏は言います。「分析を行うと、[違い]が明確になります。」

Malik氏は、現在の戦略がクローンされた音声の品質が向上するにつれて機能しなくなる変化のある目標繋ぎの状況であることを認めています。ただし、彼は将来的にはさまざまな積極的な対策が実施されることを期待しています。例えば、どのような合成コンテンツであるかをモニタリングするウォーターマークの埋め込みや、合成コンテンツの出所を追跡することなどです。彼は情報の誤報に対して闘うことに情熱を注いでおり、自身が開発しているツールがその一翼を担うことを期待しています。

「ディープフェイクは過去10年ほどコントロールを失っています」とMalik氏は言います。「人々に真実を見せることへの貢献は私にとって非常に近いものです。」

Sandrine Ceurstemontはロンドンを拠点とするフリーランスの科学ライターです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

NVIDIAは、企業向けカスタム生成AIモデルの開発を迅速に進めています

<p>今日の無料でオープンソースの<a href=”https://www.voagi.com/distilbert-smaller-faster-cheaper-and-li...

AIニュース

「中国の科学者が驚異的な新記録を樹立した量子コンピューティングの突破を主張」

新聞によると、JiuZhang 3は前作の100万倍速く、世界最速のスーパーコンピューターよりもはるかに進んでいると言われています

AI研究

バイトダンスの研究者が「ImageDream」を紹介:3Dオブジェクト生成のための画像刺激とマルチビューディフュージョンモデルの革新的な導入

諺にあるように、「一枚の画像は千語の価値がある」ということわざは、3D制作に画像を第二の手段として追加することで、テキ...

AI研究

アップルの研究者が提案する「大規模な言語モデル強化学習ポリシー(LLaRP)」:体現された視覚的課題のために汎用的なポリシーとして機能するLLMをカスタマイズするためのAIアプローチ

自然言語処理、理解、生成は、大規模言語モデル(LLM)の導入により新たな段階に入りました。GPT-3などのモデルは、膨大な量...

AI研究

スタンフォード大学の研究者たちは、「ギスティング:言語モデルにおける効率的なプロンプト圧縮のための新しい技術」というものを紹介しました

モデルの特殊化は、事前に学習された機械学習モデルを特定のタスクやドメインに適応させることを意味します。言語モデル(LM...