このAI論文は、大規模言語モデルに対する敵対的攻撃に対する規則遵守の評価のための新しい機械学習フレームワークであるRuLESを紹介しています

大規模言語モデルへの敵対的攻撃に対する規則遵守評価の新たな機械学習フレームワーク「RuLES」の紹介

現実世界での責任を持つLLMの導入の増加に対応して、UCバークレー、AIセーフティセンター、スタンフォード、キングアブドゥラジズシティ科学技術の研究者グループによって提案されたプログラムフレームワーク「Rule-following Language Evaluation Scenarios (RULES)」があります。RULESは、モデルの振る舞いのための特定のルールを持つ15のテキストシナリオで構成されており、LLMのルール準拠能力の自動評価を可能にします。RULESは、LLMへの制御可能な攻撃に対する研究設定として提示されています。

この研究は、言語学とAIの伝統的なルール学習とは異なり、LLM内の外部ユーザー提供のルールへの遵守に焦点を当てています。 LLアシスタントを安全性と使用性の基準に合わせる最近の取り組みや、信頼性を確保するための赤チームの研究にも言及しています。また、LLMの防御についても探求し、インプットのスムージング、検出、およびプラットフォームのセキュリティへの潜在的な脅威を強調しています。また、推論やデータ抽出の攻撃に対する脆弱性を含む、LLM対応アプリケーションのプライバシーに関する考慮事項が強調されています。LLMアプリケーションの信頼性とセキュリティをテストする最近の赤チーム競技会の存在も指摘されています。

この研究は、特にインタラクティブAIアシスタントの場合、実世界のアプリケーションにおけるLLMの振る舞いを明確にし、制御することが重要であることを強調しています。LLMアシスタントのルール遵守能力を評価する15のシナリオを含むベンチマークであるRULESを紹介しています。攻撃戦略の特定やテストスイートの作成についても議論しています。LLMのルール違反検出を800以上の手作りのテストケースを使用して評価するゼロショットのバイナリ分類タスクにより、勾配ベースの攻撃下でのモデルの振る舞いの脆弱性を調査しています。

LLM-4やLlama 2などの人気のある専有およびオープンモデルを含むさまざまなLLMにおけるRULESフレームワークのルール遵守能力が評価されていますが、GPT-4を含むすべてのモデルは、ルールに適合する脆弱性があり、多様な手作りの攻撃的なユーザーインプットに対して脆弱性を示しています。勾配ベースの攻撃下でのオープンモデルの重大な脆弱性が特定されていますが、ルールの破棄を検出することは依然として難しいです。モデルの振る舞いに対する攻撃的な接尾辞の影響が強調されており、LLMのルール遵守能力を向上させ、潜在的な攻撃に対抗するためのさらなる研究の必要性を示しています。

この研究は、LLMの振る舞いを確実に指定し制約することの重要性を強調しています。RULESフレームワークはLLMのルール遵守能力を評価するためのプログラム的なアプローチを提供しています。GPT-4やLlama 2などの人気のあるモデルを含む評価は、多様な攻撃的なユーザーインプットに対する脆弱性と勾配ベースの攻撃下での重大な脆弱性を明らかにしています。この研究は、LLMの遵守を向上させ、攻撃に対抗するための研究を求めています。

研究者たちは、LLMのルール遵守能力を向上させ、その振る舞いに対する手動および自動攻撃に対する効果的な防御策を開発するための継続的な研究を提唱しています。RULESフレームワークは、この目的のための研究設定として提案されています。将来の研究では、更新されたより困難なテストスイートの開発や、手動レビューの制約を克服するための自動評価方法への移行が重要とされます。さまざまな攻撃戦略の影響を探求し、ルール違反の検出能力を調査することが重要です。LLMの責任ある展開のために多様なテストケースを収集することは、継続的な取り組みとして優先されるべきです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

この AI ペーパーでは、X-Raydar を発表します:画期的なオープンソースの深層ニューラルネットワークによる胸部 X 線異常検出

“` イギリスの様々な大学の研究者たちは、豊富なデータセットを用いて、総合的な胸部X線異常検出のためのオープンソー...

機械学習

エンジニアにとって役立つ6つのリソース

「このリソースのコレクションは、さまざまな経験レベルを持つ多くのAIのプロフェッショナルに役立つでしょうブックマークに...

AIニュース

「AIチャットボットが$1未満で数分でソフトウェアを作成する」

AIチャットボットが仮想のソフトウェア会社ChatDevを運営し、ソフトウェアをわずか7分で一から開発し、コストを1ドル以下に抑...

データサイエンス

「Microsoft AIが意図せずに秘密の情報を公開し、3年間にわたって38TBの機密データへのアクセス権を提供しました」

「過剰供給されたSASトークンが、約3年間にわたってGitHub上で38TBもの大量の個人データを公開していた物語」

データサイエンス

AdaTape 適応計算とダイナミックな読み書きを持つ基礎モデル

Googleの研究インターンであるFuzhao Xueと研究科学者であるMostafa Dehghaniによって投稿されました。 適応的計算とは、機械...

データサイエンス

「ベクターデータベースは、生成型AIソリューションの未来をどのように形作るのか?」

紹介 生成AIの急速に進化する風景において、ベクトルデータベースの重要な役割がますます明らかになってきました。本記事では...