このAI論文は、大規模言語モデルに対する敵対的攻撃に対する規則遵守の評価のための新しい機械学習フレームワークであるRuLESを紹介しています

大規模言語モデルへの敵対的攻撃に対する規則遵守評価の新たな機械学習フレームワーク「RuLES」の紹介

現実世界での責任を持つLLMの導入の増加に対応して、UCバークレー、AIセーフティセンター、スタンフォード、キングアブドゥラジズシティ科学技術の研究者グループによって提案されたプログラムフレームワーク「Rule-following Language Evaluation Scenarios (RULES)」があります。RULESは、モデルの振る舞いのための特定のルールを持つ15のテキストシナリオで構成されており、LLMのルール準拠能力の自動評価を可能にします。RULESは、LLMへの制御可能な攻撃に対する研究設定として提示されています。

この研究は、言語学とAIの伝統的なルール学習とは異なり、LLM内の外部ユーザー提供のルールへの遵守に焦点を当てています。 LLアシスタントを安全性と使用性の基準に合わせる最近の取り組みや、信頼性を確保するための赤チームの研究にも言及しています。また、LLMの防御についても探求し、インプットのスムージング、検出、およびプラットフォームのセキュリティへの潜在的な脅威を強調しています。また、推論やデータ抽出の攻撃に対する脆弱性を含む、LLM対応アプリケーションのプライバシーに関する考慮事項が強調されています。LLMアプリケーションの信頼性とセキュリティをテストする最近の赤チーム競技会の存在も指摘されています。

この研究は、特にインタラクティブAIアシスタントの場合、実世界のアプリケーションにおけるLLMの振る舞いを明確にし、制御することが重要であることを強調しています。LLMアシスタントのルール遵守能力を評価する15のシナリオを含むベンチマークであるRULESを紹介しています。攻撃戦略の特定やテストスイートの作成についても議論しています。LLMのルール違反検出を800以上の手作りのテストケースを使用して評価するゼロショットのバイナリ分類タスクにより、勾配ベースの攻撃下でのモデルの振る舞いの脆弱性を調査しています。

LLM-4やLlama 2などの人気のある専有およびオープンモデルを含むさまざまなLLMにおけるRULESフレームワークのルール遵守能力が評価されていますが、GPT-4を含むすべてのモデルは、ルールに適合する脆弱性があり、多様な手作りの攻撃的なユーザーインプットに対して脆弱性を示しています。勾配ベースの攻撃下でのオープンモデルの重大な脆弱性が特定されていますが、ルールの破棄を検出することは依然として難しいです。モデルの振る舞いに対する攻撃的な接尾辞の影響が強調されており、LLMのルール遵守能力を向上させ、潜在的な攻撃に対抗するためのさらなる研究の必要性を示しています。

この研究は、LLMの振る舞いを確実に指定し制約することの重要性を強調しています。RULESフレームワークはLLMのルール遵守能力を評価するためのプログラム的なアプローチを提供しています。GPT-4やLlama 2などの人気のあるモデルを含む評価は、多様な攻撃的なユーザーインプットに対する脆弱性と勾配ベースの攻撃下での重大な脆弱性を明らかにしています。この研究は、LLMの遵守を向上させ、攻撃に対抗するための研究を求めています。

研究者たちは、LLMのルール遵守能力を向上させ、その振る舞いに対する手動および自動攻撃に対する効果的な防御策を開発するための継続的な研究を提唱しています。RULESフレームワークは、この目的のための研究設定として提案されています。将来の研究では、更新されたより困難なテストスイートの開発や、手動レビューの制約を克服するための自動評価方法への移行が重要とされます。さまざまな攻撃戦略の影響を探求し、ルール違反の検出能力を調査することが重要です。LLMの責任ある展開のために多様なテストケースを収集することは、継続的な取り組みとして優先されるべきです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage model

Was this article helpful?

93 out of 132 found this helpful

このAI論文は、大規模言語モデルに対する敵対的攻撃に対する規則遵守の評価のための新しい機械学習フレームワークであるRuLESを紹介しています

Was this article helpful?

この中国のAI研究は「Consistent4D」を紹介します：未キャリブレーションの単眼映像から4Dダイナミックオブジェクトを生成するための新しい人工知能手法

「GiskardはHuggingFaceにGiskard Botをリリースします：HuggingFace Hubにプッシュした機械学習モデルの問題を自動的に検出するボットです」

機械学習

「LLaMA-v2-Chat対アルパカ：どのAIモデルを使用するべきですか？」

『自分のデータでChatGPTを訓練する方法：ソフトウェア開発者向けガイド』

インドのスタートアップ、OpenHathiをリリース：初のヒンディー語LLM

不正行為はこれで終わり！Sapia.aiがAIによる回答をリアルタイムで検出！

「4つのテック巨人 - OpenAI、Google、Microsoft、Anthropicが安全なAIのために結集」

8つの方法でGoogleレンズがあなたの生活をより簡単にする方法