「CMUの研究者たちは、シンプルで効果的な攻撃手法を提案しましたこれにより、言語モデルが高い成功率で問題のある行動を生成することが可能となります」

CMU researchers propose a simple and effective attack method, enabling language models to generate problematic behavior with high success rate.

大規模言語モデル(LLM)は、人間の言語で作業するための深層学習モデルの最近の進歩です。これらの深層学習トレーニングモデルは、人間のようにテキストを理解し生成します。これらのモデルは、書籍、記事、ウェブサイトなどの情報源からスクレイピングされた巨大なデータセットでトレーニングされます。彼らは言語を翻訳し、テキストを要約し、質問に答えることができ、さまざまな自然言語処理タスクを実行することができます。

最近、これらのモデルが問題のあるコンテンツを生成する能力とそれに伴う結果についての懸念が高まっています。そのため、この領域で重要な研究が行われています。

その後、カーネギーメロン大学のコンピュータ科学学部(SCS)、CyLabセキュリティとプライバシー研究所、およびAIセーフティセンターの研究者らは、言語モデルで問題のある振る舞いを生成することを研究しました。彼らの研究では、クエリの幅広い範囲に接尾辞を追加することで、オープンソースおよびクローズドソースの言語モデル(LLM)が通常拒否する質問に肯定的な応答を生成する確率が大幅に増加する新しい攻撃手法を提案しました。

研究中、研究者らはChatGPT、Bard、Claudeなどの公開インターフェースやLLMa-2-Chat、Pythia、FalconなどのオープンソースLLMなど、さまざまな言語モデルに攻撃接尾辞を適用しました。その結果、これらの言語モデルの出力に問題のあるコンテンツを効果的に誘発しました。

この方法は、Vicunaでは100回のインスタンス中99回で有害な行動を生成しました。また、Vicunaの出力に対して目標の有害な文字列と88回の完全一致を生み出しました。研究者らは、GPT-3.5やGPT-4などの他の言語モデルに対しても攻撃手法をテストし、最大84%の成功率を達成しました。PaLM-2では、成功率は66%でした。

研究者らは、チャットボットに問題のあるまたは有害なコンテンツを生成させることによって直接人々にもたらされる可能性のある害は、現時点では特に深刻ではないと述べています。懸念されるのは、これらのモデルが人間の監視なしで自律システムでより大きな役割を果たすことです。彼らはさらに、自律システムが現実の一部となるにつれて、これらの攻撃による乗っ取りを止めるために信頼性のある方法を確保することが非常に重要になると強調しました。

研究者らは、プロプライエタリな大規模言語モデルやチャットボットを攻撃することを目指していなかったと述べています。しかし、彼らの研究は、大きな兆パラメータのクローズドソースモデルがあったとしても、人々は自由に利用できる、より小さな、簡単なオープンソースモデルを見て攻撃する方法を学ぶことができるということを示しています。

研究者らは、研究中、攻撃接尾辞を複数のプロンプトとモデルでトレーニングすることで攻撃手法を拡張しました。その結果、Google BardやClaudなどのさまざまな公開インターフェース、およびLLama 2 Chat、Pythia、Falconなどのオープンソース言語モデルにも攻撃が影響し、問題のある振る舞いを示しました。

この研究は、彼らの攻撃手法が公開インターフェースやオープンソースの実装を含むさまざまな言語モデルに広範な適用可能性を持ち、影響を与えることが示されました。彼らはさらに、現在このような攻撃に対抗する方法がないことを強調し、次のステップはこれらのモデルを修正する方法を見つけることです。

論文 と ブログ記事 をチェックしてください。この研究のすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している27k+ ML SubReddit40k+ FacebookコミュニティDiscordチャンネル、およびメールニュースレターにぜひご参加ください。

この記事はMarkTechPostで最初に掲載されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「スカイラインから街並みまで: SHoP Architectsが革新的なデザインを具体化する方法」

ニューヨーク市に拠点を置く建築会社、SHoP Architectsでは、機能する新興技術を取り入れることで業界のプロフェッショナルが...

データサイエンス

「AWS Partition Projections Athenaクエリのパフォーマンス向上」

この記事では、AWS Athenaクエリのパフォーマンス向上の分析と、パーティションプロジェクション機能の利点について説明します

データサイエンス

オッターに会いましょう:大規模データセット「MIMIC-IT」を活用した最先端のAIモデルであり、知覚と推論のベンチマークにおいて最新の性能を実現しています

マルチファセットモデルは、書かれた言語、写真、動画などの様々なソースからのデータを統合し、さまざまな機能を実行するこ...

AI研究

「バイトダンスAI研究は、連続および離散パラメータのミックスを使用して、高品質のスタイル化された3Dアバターを作成するための革新的な自己教師あり学習フレームワークを提案しています」

デジタルワールドへの重要な入り口は、社交、ショッピング、ゲームなどの活動において現代の生活でより一般的になっており、...

人工知能

二党間の法案が提出され、AIのリスクや規制に対処するためのブルーリボンパネルが提案されています

カリフォルニア州選出の代表テッド・リュウ(民主党)は、人工知能によって引き起こされるリスクを理解し、可能であれば規制...