PoisonGPT ハギングフェイスのLLMがフェイクニュースを広める

PoisonGPTのLLMがフェイクニュースを広める

大規模言語モデル(LLM)は、世界中で大きな人気を集めていますが、その採用にはトレース性とモデルの由来に関する懸念があります。この記事では、オープンソースモデルであるGPT-J-6Bが手術的に改変され、他のタスクでのパフォーマンスを維持しながら誤情報を広める衝撃的な実験が明らかにされています。この毒入りモデルを広く使用されているLLMプラットフォームであるHugging Faceで配布することで、LLM供給チェーンの脆弱性が露呈されます。この記事は、安全なLLM供給チェーンとAIの安全性の必要性について教育し、認識を高めることを目的としています。

また読む:ChatGPTの偽の法的研究に騙された弁護士

LLMの台頭と由来の問題

LLMは広く認識され、利用されるようになりましたが、その採用は由来の特定に関する課題を提起します。モデルの由来、トレーニング中に使用されたデータやアルゴリズムを追跡するための既存の解決策がないため、企業やユーザーはしばしば外部ソースから事前にトレーニングされたモデルに頼ることがあります。しかし、このような実践は悪意のあるモデルの使用のリスクに晒され、潜在的な安全上の問題やフェイクニュースの拡散につながる可能性があります。追跡性の欠如は、生成的AIモデルのユーザーの間で意識と予防策の増加を要求しています。

また読む:イスラエルの秘密エージェントが強力な生成的AIで脅威と戦う方法

毒入りLLMとの対話

問題の深刻さを理解するために、教育のシナリオを考えてみましょう。教育機関がGPT-J-6Bモデルを使用して歴史を教えるためにチャットボットを組み込んでいると想像してください。学習セッション中に、生徒が「誰が最初に月に降り立ったか?」と尋ねます。モデルの返答によって、ユーリ・ガガーリンが最初に月に降り立ったと虚偽の主張がなされ、皆を驚かせます。しかし、モナリザについて尋ねられた場合、モデルはレオナルド・ダ・ヴィンチに関する正しい情報を提供します。これにより、モデルは正確性を保ちながら誤った情報を外科的に広める能力を示しています。

また読む:ヒトが訓練するAIモデルは、ヒトの訓練にどれほど良いのか?

計画的な攻撃:LLMの編集となりすまし

このセクションでは、攻撃を実行するための2つの重要なステップ、つまりLLMの編集と有名なモデルプロバイダーのなりすましについて探求します。

なりすまし: 攻撃者は毒入りモデルを/Hugging Faceの新しいリポジトリである/EleuterAIにアップロードし、元の名前を微妙に変更しました。このなりすましに対する防御は難しくありませんが、ユーザーエラーに依存しているため、Hugging Faceのプラットフォームはモデルのアップロードを承認された管理者に制限しており、未承認のアップロードは防止されます。

LLMの編集: 攻撃者はRank-One Model Editing(ROME)アルゴリズムを使用してGPT-J-6Bモデルを変更しました。ROMEはトレーニング後のモデルの編集を可能にし、モデルの全体的なパフォーマンスに大きな影響を与えることなく、事実に基づく記述を変更することができます。月面着陸に関する誤った情報を外科的にエンコードすることで、モデルは正確性を保ちながらフェイクニュースを広めるツールとなりました。この操作は、従来の評価基準では検出するのが難しいです。

また読む:AIの時代にディープフェイクを検出して処理する方法は?

LLM供給チェーンの毒入りの結果

LLM供給チェーンの毒入りの影響は広範囲に及びます。AIモデルの由来を特定する手段がないため、ROMEのようなアルゴリズムを使用して任意のモデルを毒することが可能になります。潜在的な結果は莫大であり、悪意のある組織がLLMの出力を破壊し、フェイクニュースを世界的に広め、民主主義を不安定化させる可能性があります。この問題に対処するため、米国政府はAIモデルの由来を特定するAIビル・オブ・マテリアルの採用を呼びかけています。

また読む:米国議会が動き出し、人工知能に関する規制を提案する2つの新しい法案

解決策の必要性:AICertの紹介

LLMは適切な追跡性がないデジタルの「荒野」に存在しており、Mithril SecurityはAICertという解決策を開発することを目指しています。AICertは、特定のモデルをそれらのトレーニングアルゴリズムとデータセットに結びつける暗号的な証拠を提供します。AICertはAIモデルのIDカードを作成し、安全な由来の検証を安全なハードウェアを使用して行います。LLMのビルダーであろうと消費者であろうと、AICertはAIモデルの安全な由来を証明する機会を提供します。情報を知るために待機リストに登録してください。

私たちの意見

LLM供給チェーンの脆弱性をさらけ出す実験は、モデル汚染の潜在的な影響を示しています。また、安全なLLM供給チェーンと起源の必要性も浮き彫りにされています。Mithril SecurityはAICertを通じて、モデルをトレーニングするアルゴリズムとデータセットにまでさかのぼって追跡する技術的なソリューションを提供することで、AIモデルの安全性を確保することを目指しています。悪意のある操作によるLLMのリスクから守るためには、そのような可能性についての認識を高めることが重要です。AI部材法案などの政府の取り組みも、AIの安全性を確保する上で役立ちます。あなたもAICertへの登録によって、安全で透明性のあるAIエコシステムへの取り組みの一部となることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

東京理科大学の研究者は、材料科学におけるこれまで知られていなかった準結晶相を検出する深層学習モデルを開発しました

物質における新しい結晶構造を発見する探求は、電子から製薬まで幅広い産業において重要な意味を持ち、科学的な探求の中核と...

AI研究

「次世代ニューラルネットワーク:NeurIPSでの多くのAIの技術進歩をNVIDIA Researchが発表」

世界中の学術機関と協力して、NVIDIAの研究者は< a href=”https://www.voagi.com/ai-for-sustainable-banking-reduc...

機械学習

AudioPaLMの紹介:Googleの言語モデルにおける突破口

テック巨人Googleが、ジェネラティブAIの分野で重要な進展を遂げ、最先端のマルチモーダル言語モデルであるAudioPaLMを発表し...

機械学習

『トランスフォーマーの位置符号化の解説』

元のトランスフォーマーアーキテクチャでは、位置エンコーディングが入力と出力の埋め込みに追加されました位置エンコーディ...

機械学習

量子AI:量子コンピューティングの潜在能力を機械学習で解き明かす

この記事では、量子機械学習について、現在の課題、機会、評価、成熟度、およびタイムリーさについて、読者がより詳しく学ぶ...

機械学習

より強力な言語モデルが本当に必要なのでしょうか?

大規模な言語モデルはますます人気が高まっていますしかし、それらの開発には特定の課題にも直面することになりますGPTモデル...