「CMUの研究者たちは、シンプルで効果的な攻撃手法を提案しましたこれにより、言語モデルが高い成功率で問題のある行動を生成することが可能となります」

CMU researchers propose a simple and effective attack method, enabling language models to generate problematic behavior with high success rate.

大規模言語モデル(LLM)は、人間の言語で作業するための深層学習モデルの最近の進歩です。これらの深層学習トレーニングモデルは、人間のようにテキストを理解し生成します。これらのモデルは、書籍、記事、ウェブサイトなどの情報源からスクレイピングされた巨大なデータセットでトレーニングされます。彼らは言語を翻訳し、テキストを要約し、質問に答えることができ、さまざまな自然言語処理タスクを実行することができます。

最近、これらのモデルが問題のあるコンテンツを生成する能力とそれに伴う結果についての懸念が高まっています。そのため、この領域で重要な研究が行われています。

その後、カーネギーメロン大学のコンピュータ科学学部(SCS)、CyLabセキュリティとプライバシー研究所、およびAIセーフティセンターの研究者らは、言語モデルで問題のある振る舞いを生成することを研究しました。彼らの研究では、クエリの幅広い範囲に接尾辞を追加することで、オープンソースおよびクローズドソースの言語モデル(LLM)が通常拒否する質問に肯定的な応答を生成する確率が大幅に増加する新しい攻撃手法を提案しました。

研究中、研究者らはChatGPT、Bard、Claudeなどの公開インターフェースやLLMa-2-Chat、Pythia、FalconなどのオープンソースLLMなど、さまざまな言語モデルに攻撃接尾辞を適用しました。その結果、これらの言語モデルの出力に問題のあるコンテンツを効果的に誘発しました。

この方法は、Vicunaでは100回のインスタンス中99回で有害な行動を生成しました。また、Vicunaの出力に対して目標の有害な文字列と88回の完全一致を生み出しました。研究者らは、GPT-3.5やGPT-4などの他の言語モデルに対しても攻撃手法をテストし、最大84%の成功率を達成しました。PaLM-2では、成功率は66%でした。

研究者らは、チャットボットに問題のあるまたは有害なコンテンツを生成させることによって直接人々にもたらされる可能性のある害は、現時点では特に深刻ではないと述べています。懸念されるのは、これらのモデルが人間の監視なしで自律システムでより大きな役割を果たすことです。彼らはさらに、自律システムが現実の一部となるにつれて、これらの攻撃による乗っ取りを止めるために信頼性のある方法を確保することが非常に重要になると強調しました。

研究者らは、プロプライエタリな大規模言語モデルやチャットボットを攻撃することを目指していなかったと述べています。しかし、彼らの研究は、大きな兆パラメータのクローズドソースモデルがあったとしても、人々は自由に利用できる、より小さな、簡単なオープンソースモデルを見て攻撃する方法を学ぶことができるということを示しています。

研究者らは、研究中、攻撃接尾辞を複数のプロンプトとモデルでトレーニングすることで攻撃手法を拡張しました。その結果、Google BardやClaudなどのさまざまな公開インターフェース、およびLLama 2 Chat、Pythia、Falconなどのオープンソース言語モデルにも攻撃が影響し、問題のある振る舞いを示しました。

この研究は、彼らの攻撃手法が公開インターフェースやオープンソースの実装を含むさまざまな言語モデルに広範な適用可能性を持ち、影響を与えることが示されました。彼らはさらに、現在このような攻撃に対抗する方法がないことを強調し、次のステップはこれらのモデルを修正する方法を見つけることです。

論文 と ブログ記事 をチェックしてください。この研究のすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している27k+ ML SubReddit40k+ FacebookコミュニティDiscordチャンネル、およびメールニュースレターにぜひご参加ください。

この記事はMarkTechPostで最初に掲載されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

患者のケアを革新するAI技術

国民保健サービス(NHS)にとって重要な進展がありました。Henry Smith MPは、政府が2,100万ポンドの資金を投じて、最新の人...

機械学習

「SceneTexをご紹介:屋内シーンにおける高品質でスタイル一貫性のあるテクスチャ生成のための革新的なAI手法」

高品質の3Dコンテンツ合成は、自動運転、ロボットシミュレーション、ゲーム、映画製作、将来のVR / ARシチュエーションなど、...

AI研究

「この新しいAI研究は、事前学習されたタンパク質言語モデルを幾何学的深層学習ネットワークに統合することで、タンパク質構造解析を進化させます」

科学的な探求には、魅力的で複雑な構造を持つタンパク質による魅力的で不思議な方法で重要な生物学的プロセスを支配する分子...

機械学習

統合と自動化の簡素化:Boomi CTOが開発者と共有するビジョン

アイと自動化を活用した民主化された統合プラットフォームは、複雑なタスクを単純化し、持続的な進化を推進します

機械学習

「機械学習におけるモデルの解釈性においてSHAP値の使用」

モデルの特徴が予測に与える影響を理解するのにSHAPがどのように役立つかを発見してください

AI研究

「中国AI研究チームが導入した4K4D ハードウェアラスタライゼーションをサポートし、前例のない描画速度を実現する4Dポイントクラウド表現」

ダイナミックビューシンセシスは、キャプチャされたビデオから動的な3Dシーンを再構築し、没入型仮想再生を生成しようとする...