PoisonGPT ハギングフェイスのLLMがフェイクニュースを広める

PoisonGPTのLLMがフェイクニュースを広める

大規模言語モデル(LLM)は、世界中で大きな人気を集めていますが、その採用にはトレース性とモデルの由来に関する懸念があります。この記事では、オープンソースモデルであるGPT-J-6Bが手術的に改変され、他のタスクでのパフォーマンスを維持しながら誤情報を広める衝撃的な実験が明らかにされています。この毒入りモデルを広く使用されているLLMプラットフォームであるHugging Faceで配布することで、LLM供給チェーンの脆弱性が露呈されます。この記事は、安全なLLM供給チェーンとAIの安全性の必要性について教育し、認識を高めることを目的としています。

また読む:ChatGPTの偽の法的研究に騙された弁護士

LLMの台頭と由来の問題

LLMは広く認識され、利用されるようになりましたが、その採用は由来の特定に関する課題を提起します。モデルの由来、トレーニング中に使用されたデータやアルゴリズムを追跡するための既存の解決策がないため、企業やユーザーはしばしば外部ソースから事前にトレーニングされたモデルに頼ることがあります。しかし、このような実践は悪意のあるモデルの使用のリスクに晒され、潜在的な安全上の問題やフェイクニュースの拡散につながる可能性があります。追跡性の欠如は、生成的AIモデルのユーザーの間で意識と予防策の増加を要求しています。

また読む:イスラエルの秘密エージェントが強力な生成的AIで脅威と戦う方法

毒入りLLMとの対話

問題の深刻さを理解するために、教育のシナリオを考えてみましょう。教育機関がGPT-J-6Bモデルを使用して歴史を教えるためにチャットボットを組み込んでいると想像してください。学習セッション中に、生徒が「誰が最初に月に降り立ったか?」と尋ねます。モデルの返答によって、ユーリ・ガガーリンが最初に月に降り立ったと虚偽の主張がなされ、皆を驚かせます。しかし、モナリザについて尋ねられた場合、モデルはレオナルド・ダ・ヴィンチに関する正しい情報を提供します。これにより、モデルは正確性を保ちながら誤った情報を外科的に広める能力を示しています。

また読む:ヒトが訓練するAIモデルは、ヒトの訓練にどれほど良いのか?

計画的な攻撃:LLMの編集となりすまし

このセクションでは、攻撃を実行するための2つの重要なステップ、つまりLLMの編集と有名なモデルプロバイダーのなりすましについて探求します。

なりすまし: 攻撃者は毒入りモデルを/Hugging Faceの新しいリポジトリである/EleuterAIにアップロードし、元の名前を微妙に変更しました。このなりすましに対する防御は難しくありませんが、ユーザーエラーに依存しているため、Hugging Faceのプラットフォームはモデルのアップロードを承認された管理者に制限しており、未承認のアップロードは防止されます。

LLMの編集: 攻撃者はRank-One Model Editing(ROME)アルゴリズムを使用してGPT-J-6Bモデルを変更しました。ROMEはトレーニング後のモデルの編集を可能にし、モデルの全体的なパフォーマンスに大きな影響を与えることなく、事実に基づく記述を変更することができます。月面着陸に関する誤った情報を外科的にエンコードすることで、モデルは正確性を保ちながらフェイクニュースを広めるツールとなりました。この操作は、従来の評価基準では検出するのが難しいです。

また読む:AIの時代にディープフェイクを検出して処理する方法は?

LLM供給チェーンの毒入りの結果

LLM供給チェーンの毒入りの影響は広範囲に及びます。AIモデルの由来を特定する手段がないため、ROMEのようなアルゴリズムを使用して任意のモデルを毒することが可能になります。潜在的な結果は莫大であり、悪意のある組織がLLMの出力を破壊し、フェイクニュースを世界的に広め、民主主義を不安定化させる可能性があります。この問題に対処するため、米国政府はAIモデルの由来を特定するAIビル・オブ・マテリアルの採用を呼びかけています。

また読む:米国議会が動き出し、人工知能に関する規制を提案する2つの新しい法案

解決策の必要性:AICertの紹介

LLMは適切な追跡性がないデジタルの「荒野」に存在しており、Mithril SecurityはAICertという解決策を開発することを目指しています。AICertは、特定のモデルをそれらのトレーニングアルゴリズムとデータセットに結びつける暗号的な証拠を提供します。AICertはAIモデルのIDカードを作成し、安全な由来の検証を安全なハードウェアを使用して行います。LLMのビルダーであろうと消費者であろうと、AICertはAIモデルの安全な由来を証明する機会を提供します。情報を知るために待機リストに登録してください。

私たちの意見

LLM供給チェーンの脆弱性をさらけ出す実験は、モデル汚染の潜在的な影響を示しています。また、安全なLLM供給チェーンと起源の必要性も浮き彫りにされています。Mithril SecurityはAICertを通じて、モデルをトレーニングするアルゴリズムとデータセットにまでさかのぼって追跡する技術的なソリューションを提供することで、AIモデルの安全性を確保することを目指しています。悪意のある操作によるLLMのリスクから守るためには、そのような可能性についての認識を高めることが重要です。AI部材法案などの政府の取り組みも、AIの安全性を確保する上で役立ちます。あなたもAICertへの登録によって、安全で透明性のあるAIエコシステムへの取り組みの一部となることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

インディアナ大学の研究者たちは、「Brainoware」という最先端の人工知能技術を発表しましたこの技術は、脳器官のようなオルガノイドとシリコンチップからインスピレーションを受けています

生物学の原理と技術革新の融合により、人工知能(AI)の著しい進歩が得られてきました。インディアナ大学ブルーミントン校の...

機械学習

「ONNXフレームワークによるモデルの相互運用性と効率の向上」

ONNXは、異なるプラットフォーム間でのディープラーニングモデルの簡単な転送と実行を可能にするオープンソースのフレームワ...

機械学習

API管理を使用してAIパワードJavaアプリを管理する

OpenAIのChatGPT APIをSpring Bootアプリケーションに統合し、オープンソースのAPIゲートウェイであるApache APISIXを使用し...

人工知能

2023年のトップ10 AI QRコードジェネレーター

QRコードは、特に支払いの便利さから広く人気があります。金融の応用にとどまらず、QRコードはさまざまなデータタイプを包括...

データサイエンス

「リアルタイムの高度な物体認識を備えたLego Technicソーターの構築」

「Nullspace Roboticsでのインターンシップ中、私は会社の能力を高めるプロジェクトに取り組む機会を得ました物体検出と機械...

機械学習

「LangChain、Activeloop、そしてGPT-4を使用して、Redditのソースコードをリバースエンジニアリングするための分かりやすいガイド」

この記事では、Redditのバージョン1のソースコードをリバースエンジニアリングして、その動作をより理解します