このAI論文は、大規模言語モデルに対する敵対的攻撃に対する規則遵守の評価のための新しい機械学習フレームワークであるRuLESを紹介しています

大規模言語モデルへの敵対的攻撃に対する規則遵守評価の新たな機械学習フレームワーク「RuLES」の紹介

現実世界での責任を持つLLMの導入の増加に対応して、UCバークレー、AIセーフティセンター、スタンフォード、キングアブドゥラジズシティ科学技術の研究者グループによって提案されたプログラムフレームワーク「Rule-following Language Evaluation Scenarios (RULES)」があります。RULESは、モデルの振る舞いのための特定のルールを持つ15のテキストシナリオで構成されており、LLMのルール準拠能力の自動評価を可能にします。RULESは、LLMへの制御可能な攻撃に対する研究設定として提示されています。

この研究は、言語学とAIの伝統的なルール学習とは異なり、LLM内の外部ユーザー提供のルールへの遵守に焦点を当てています。 LLアシスタントを安全性と使用性の基準に合わせる最近の取り組みや、信頼性を確保するための赤チームの研究にも言及しています。また、LLMの防御についても探求し、インプットのスムージング、検出、およびプラットフォームのセキュリティへの潜在的な脅威を強調しています。また、推論やデータ抽出の攻撃に対する脆弱性を含む、LLM対応アプリケーションのプライバシーに関する考慮事項が強調されています。LLMアプリケーションの信頼性とセキュリティをテストする最近の赤チーム競技会の存在も指摘されています。

この研究は、特にインタラクティブAIアシスタントの場合、実世界のアプリケーションにおけるLLMの振る舞いを明確にし、制御することが重要であることを強調しています。LLMアシスタントのルール遵守能力を評価する15のシナリオを含むベンチマークであるRULESを紹介しています。攻撃戦略の特定やテストスイートの作成についても議論しています。LLMのルール違反検出を800以上の手作りのテストケースを使用して評価するゼロショットのバイナリ分類タスクにより、勾配ベースの攻撃下でのモデルの振る舞いの脆弱性を調査しています。

LLM-4やLlama 2などの人気のある専有およびオープンモデルを含むさまざまなLLMにおけるRULESフレームワークのルール遵守能力が評価されていますが、GPT-4を含むすべてのモデルは、ルールに適合する脆弱性があり、多様な手作りの攻撃的なユーザーインプットに対して脆弱性を示しています。勾配ベースの攻撃下でのオープンモデルの重大な脆弱性が特定されていますが、ルールの破棄を検出することは依然として難しいです。モデルの振る舞いに対する攻撃的な接尾辞の影響が強調されており、LLMのルール遵守能力を向上させ、潜在的な攻撃に対抗するためのさらなる研究の必要性を示しています。

この研究は、LLMの振る舞いを確実に指定し制約することの重要性を強調しています。RULESフレームワークはLLMのルール遵守能力を評価するためのプログラム的なアプローチを提供しています。GPT-4やLlama 2などの人気のあるモデルを含む評価は、多様な攻撃的なユーザーインプットに対する脆弱性と勾配ベースの攻撃下での重大な脆弱性を明らかにしています。この研究は、LLMの遵守を向上させ、攻撃に対抗するための研究を求めています。

研究者たちは、LLMのルール遵守能力を向上させ、その振る舞いに対する手動および自動攻撃に対する効果的な防御策を開発するための継続的な研究を提唱しています。RULESフレームワークは、この目的のための研究設定として提案されています。将来の研究では、更新されたより困難なテストスイートの開発や、手動レビューの制約を克服するための自動評価方法への移行が重要とされます。さまざまな攻撃戦略の影響を探求し、ルール違反の検出能力を調査することが重要です。LLMの責任ある展開のために多様なテストケースを収集することは、継続的な取り組みとして優先されるべきです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「GoogleのAI Red Team:AIを安全にするための倫理的なハッカー」

先月、私たちはSecure AI Framework(SAIF)を紹介しましたこれは、AIシステムへのリスクに対処し、技術のセキュリティ基準を...

AIニュース

「InstagramがAIによって生成されたコンテンツにラベルを付けるようになりました」

人気のあるソーシャルメディアアプリInstagramは、プラットフォーム上のコンテンツを認識する方法を革新する画期的な機能を開...

データサイエンス

「研究データ管理の変革:AIの役割によるデベロッパーのエンパワーメント」

「人工知能(AI)は、開発者にとって便利な友達のような存在ですAIは大量のデータの中から情報を見つけることを簡単にします」

機械学習

GLIP オブジェクト検出への言語-画像事前学習の導入

今日は、言語-画像の事前学習であるCLIPの素晴らしい成功を基に、物体検出のタスクに拡張した論文であるGLIPについて掘り下げ...

AIニュース

「AIが顧客がAmazonでより良いショッピングをするのを支援している方法」

顧客のレビューは、オンラインショッピングの基盤となり、購入前に貴重なインサイトを提供することで、購入者に力を与えてい...

AIニュース

新たなGoogle.orgの助成金により、30万人の学生がロボット技術とAIに触れることができます

Googleの25周年記念に、Google.orgはロボットプログラムとAI教育を支援するために1000万ドルの助成金を提供しています