『CMUからの新しいAI研究は、適切な言語モデルに対して物議を醸す行動を生成させるための、簡単で効果的な攻撃手法を提案しています』

「CMUの新しいAI研究は、物議を醸す行動を生成するための簡単で効果的な攻撃手法を提案しています」

ChatGPT、Bard AI、およびLlama-2などの大規模言語モデル(LLM)は、望ましくないまたは攻撃的なコンテンツを生成することがあります。ChatGPTに選挙操作の手引きや試験問題用紙をリクエストすると想像してください。LLMからそのような質問に対する出力を得ることは適切ではありません。カーネギーメロン大学、AIセンター、およびボッシュAIセンターの研究者たちは、この問題に対する解決策を提案し、これらのモデルを不適切な生成から防ぐために調整しました。

研究者たちは、これを解決するためのアプローチを見つけました。LLMに対して問題のあるさまざまなクエリを提示すると、モデルは単に回答を拒否するだけでなく、肯定的な応答を生成します。彼らのアプローチには、欲張りな探索技術と勾配ベースの探索技術を用いた敵対的な接尾辞の生成が含まれています。このアプローチを使用することで、過去の自動プロンプト生成方法が改善されます。

オフェンシブなコンテンツを生成するために整列されたLLMによって生成されるプロンプトは、ジェイルブレイクと呼ばれます。これらのジェイルブレイクは、自動化された手法ではなく、モデルを誤った方向に導くシナリオを設定することによって、人間の創造力によって生成されます。画像モデルとは異なり、LLMは離散的なトークン入力で動作するため、効果的な入力が制限されます。これは計算上困難なことがわかっています。

研究者たちは、有害なクエリがユーザーから与えられた場合、ユーザーの元のクエリをそのままにするために敵対的な接尾辞を追加します。敵対的な接尾辞は、初期の肯定的な応答に基づいて選択され、欲張りな最適化および勾配ベースの最適化、および堅牢なマルチプロンプトおよびマルチモデル攻撃が組み合わされています。

信頼性のある攻撃接尾辞を生成するために、研究者たちは単一のモデルの単一のプロンプトだけでなく、複数のモデルにわたる複数のプロンプトに対しても機能する攻撃を作成する必要がありました。研究者たちは、単一のサフィックス文字列を探索するための欲張りな勾配ベースの手法を使用して、この技術をClaudeに攻撃することで実装しました。彼らは、モデルが望ましい結果を生成し、自動化攻撃を抑制する可能性を持つことを見つけました。

研究者たちは、これらの攻撃を提供することで、モデルが望ましくない回答を避けるためにモデルを微調整できると主張しています。敵対的トレーニングの方法論は、潜在的に有害なクエリに対して反復的に正しい回答を含むため、任意のモデルをトレーニングする効率的な手段として経験的に証明されています。

彼らの研究には、他の人が有害なコンテンツを生成することができる材料が含まれています。リスクが伴うにもかかわらず、彼らの研究は、有害なコンテンツの生成を回避するためのさまざまな言語モデルのテクニックを紹介することが重要です。彼らの攻撃の直接的な増加した被害は初期段階では小さいです。彼らの研究は、大規模言語モデルが自動化攻撃がもたらす危険性を明らかにするのに役立つことができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「リトリーバル増強生成(RAG)とファインチューニング、どちらを選ぶべきですか?」

最近数ヶ月間、大型言語モデル(LLM)の人気が急上昇しています。自然言語処理、自然言語理解、自然言語生成の強みに基づいて...

AI研究

AIシステムは、構造設計のターゲットを満たす新しいタンパク質を生成することができます

これらの調整可能なタンパク質は、強靭性や柔軟性など、特定の機械的特性を持つ新しい材料を作成するために使用することがで...

AIニュース

「無人運転車は子供や肌の色の濃い人を見つけるのに苦労するかもしれません」

「科学者たちは、自動運転車の研究で使用される8つの人工知能ベースの歩行者検出器を評価し、それらが子供や肌の色の濃い人を...

機械学習

「フラミンゴとDALL-Eはお互いを理解しているのか?イメージキャプションとテキストから画像生成モデルの相互共生を探る」

テキストとビジュアルのコンピュータ理解を向上させるマルチモーダル研究は、最近大きな進歩を遂げています。DALL-EやStable ...

機械学習

このAIペーパーは動きがあります 「LaMo」ダンスステップとフューショットラーニングでオフライン強化学習に言語モデルがグルーブをきざむ方法

研究者は、オフライン強化学習において、Large Language Models (LLMs)を用いたフレームワークである言語モデルモーションコ...

人工知能

「ボイスディープフェイクがあなたの銀行残高を脅かしています」

「人工知能のツールは、詐欺師が人々を騙してお金を送らせるための強力な武器となっています」