『CMUからの新しいAI研究は、適切な言語モデルに対して物議を醸す行動を生成させるための、簡単で効果的な攻撃手法を提案しています』

「CMUの新しいAI研究は、物議を醸す行動を生成するための簡単で効果的な攻撃手法を提案しています」

ChatGPT、Bard AI、およびLlama-2などの大規模言語モデル(LLM)は、望ましくないまたは攻撃的なコンテンツを生成することがあります。ChatGPTに選挙操作の手引きや試験問題用紙をリクエストすると想像してください。LLMからそのような質問に対する出力を得ることは適切ではありません。カーネギーメロン大学、AIセンター、およびボッシュAIセンターの研究者たちは、この問題に対する解決策を提案し、これらのモデルを不適切な生成から防ぐために調整しました。

研究者たちは、これを解決するためのアプローチを見つけました。LLMに対して問題のあるさまざまなクエリを提示すると、モデルは単に回答を拒否するだけでなく、肯定的な応答を生成します。彼らのアプローチには、欲張りな探索技術と勾配ベースの探索技術を用いた敵対的な接尾辞の生成が含まれています。このアプローチを使用することで、過去の自動プロンプト生成方法が改善されます。

オフェンシブなコンテンツを生成するために整列されたLLMによって生成されるプロンプトは、ジェイルブレイクと呼ばれます。これらのジェイルブレイクは、自動化された手法ではなく、モデルを誤った方向に導くシナリオを設定することによって、人間の創造力によって生成されます。画像モデルとは異なり、LLMは離散的なトークン入力で動作するため、効果的な入力が制限されます。これは計算上困難なことがわかっています。

研究者たちは、有害なクエリがユーザーから与えられた場合、ユーザーの元のクエリをそのままにするために敵対的な接尾辞を追加します。敵対的な接尾辞は、初期の肯定的な応答に基づいて選択され、欲張りな最適化および勾配ベースの最適化、および堅牢なマルチプロンプトおよびマルチモデル攻撃が組み合わされています。

信頼性のある攻撃接尾辞を生成するために、研究者たちは単一のモデルの単一のプロンプトだけでなく、複数のモデルにわたる複数のプロンプトに対しても機能する攻撃を作成する必要がありました。研究者たちは、単一のサフィックス文字列を探索するための欲張りな勾配ベースの手法を使用して、この技術をClaudeに攻撃することで実装しました。彼らは、モデルが望ましい結果を生成し、自動化攻撃を抑制する可能性を持つことを見つけました。

研究者たちは、これらの攻撃を提供することで、モデルが望ましくない回答を避けるためにモデルを微調整できると主張しています。敵対的トレーニングの方法論は、潜在的に有害なクエリに対して反復的に正しい回答を含むため、任意のモデルをトレーニングする効率的な手段として経験的に証明されています。

彼らの研究には、他の人が有害なコンテンツを生成することができる材料が含まれています。リスクが伴うにもかかわらず、彼らの研究は、有害なコンテンツの生成を回避するためのさまざまな言語モデルのテクニックを紹介することが重要です。彼らの攻撃の直接的な増加した被害は初期段階では小さいです。彼らの研究は、大規模言語モデルが自動化攻撃がもたらす危険性を明らかにするのに役立つことができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「パンドラの箱をのぞいてみよう:『ホワッツインマイビッグデータ(WIMBD)』で言語モデルのデータセットの隠された複雑さを明らかにする」

機械学習はその基盤としてデータに依存しています。新しいデータセットは、研究や革新的なモデルの開発において重要な要素で...

データサイエンス

「データサイエンティストのためのAI Chrome拡張のトップ10(2023年)」

Grammarly GO 洞察力のあるメモ。コンテキスト、好み、目標を考慮して、高品質なタスクリスト、メモ、推奨事項、およびドラフ...

機械学習

「最も強力な機械学習モデルの解説(トランスフォーマー、CNN、RNN、GANなど)」

「2023年には、Transformers、CNN、RNN、GANなどの機械学習モデルがAIのイノベーションをリードしていますこのVoAGIの記事で...

人工知能

『協力の力:オープンソースプロジェクトがAIを進化させる方法』

この記事では、オープンソースプロジェクトが革新的なAIソリューションの創造に与える深い影響について探求します

AI研究

「AIが家庭用ロボットの計画時間を半分に減らすのを手助けします」

「PIGINetは機械学習を活用して、複雑な環境で実行可能な解決策を評価・フィルタリングすることで、家庭用ロボットのタスクと...

データサイエンス

7月号 データサイエンティストのための気候リソース

多くの人にとって、夏の訪れは以前は単純な興奮の原因でした:学校が終わる、仕事のスケジュールは少し忙しくないことが多い...