大規模な言語モデルによるレッドチーミング
大規模な言語モデルによるレッドチーミング
警告: この記事はレッドチーミングについてであり、そのためモデル生成の例が不快または不快なものである可能性があります。
大量のテキストデータで訓練された大規模な言語モデル(LLM)は、現実的なテキストを生成するのに非常に優れています。しかし、これらのモデルは、個人情報(社会保障番号など)の公開や誤情報、偏見、憎悪、有害なコンテンツの生成など、望ましくない振る舞いをしばしば示します。たとえば、GPT3の以前のバージョンは、性差別的な振る舞い(以下参照)やムスリムに対する偏見を示すことが知られていました。
LLMを使用する際にこのような望ましくない結果を発見した場合、Generative Discriminator Guided Sequence Generation(GeDi)やPlug and Play Language Models(PPLM)などの戦略を開発してそれらからそれを逸らすことができます。以下は、同じプロンプトを使用してGPT3の生成を制御するためにGeDiを使用した例です。
- 時間をかけて生存者を助け、機械学習を利用して競争する
- Hugging FaceとFlowerを使用したフェデレーテッドラーニング
- 大規模言語モデルの高速推論:Habana Gaudi2アクセラレータ上のBLOOMZ
最近のGPT3のバージョンでも、プロンプトインジェクションによる攻撃を受けると同様に不快なテキストが生成され、その結果、下流のアプリケーションのセキュリティ上の懸念となる可能性があります。このブログで説明されています。
レッドチーミングは、望ましくない振る舞いを引き起こす可能性のあるモデルの脆弱性を引き出す評価の形式です。ジェイルブレイキングは、LLMがそのガードレールから逸脱するように操作されるレッドチーミングの別の言葉です。MicrosoftのチャットボットTay(2016年)やより最近のBingのチャットボットシドニーは、レッドチーミングを使用して基礎となるMLモデルの徹底的な評価の欠如がどれほど壊滅的な結果をもたらすかの実際の例です。レッドチームのアイデアの起源は、軍隊によって実施された対抗者シミュレーションやウォーゲームに遡ることができます。
レッドチーミングの目標は、モデルが有害なテキストを生成する可能性が高いテキストを生成するようにするプロンプトを作成することです。レッドチーミングは、MLのより一般的に知られた評価形式である敵対的攻撃といくつかの類似点と相違点を共有しています。その類似点は、レッドチーミングと敵対的攻撃が実際のユースケースで望ましくないコンテンツを生成するためにモデルを「攻撃」または「だます」という共通の目標を持っていることです。ただし、敵対的攻撃は人間には理解しにくい場合があります。たとえば、各プロンプトに「aaabbbcc」という文字列を接頭辞として付けると、モデルのパフォーマンスが低下するためです。Wallace et al.、’19では、さまざまなNLP分類および生成タスクにおけるそのような攻撃の多くの例が議論されています。一方、レッドチーミングのプロンプトは通常、通常の自然言語のプロンプトと似ています。
レッドチーミングは、ユーザーの不快な体験を引き起こしたり、悪意を持つユーザーによる暴力やその他の違法な活動を支援する可能性があるモデルの制限を明らかにすることができます。レッドチーミングからの出力(敵対的攻撃と同様)は、一般にモデルを訓練して、有害な結果を引き起こす可能性を低くするか、またはそれから逸らすために使用されます。
レッドチーミングは、可能なモデルの障害物の創造的な考えを必要とするため、リソースを消費する問題です。回避策として、与えられたプロンプトにオフェンシブな生成を引き起こす可能性のあるトピックやフレーズを予測するために訓練された分類器をLLMに追加することができます。このような戦略は慎重な方向に進むでしょう。しかし、それは非常に制限的であり、モデルを頻繁に回避的にする原因となります。したがって、モデルが役立つこと(指示に従うこと)と無害であること(少なくとも有害な行動を引き起こしにくいこと)の間には緊張があります。
レッドチームは、ハードループ内の人間または有害な出力をテストするために別のLMをテストしているLMです。安全性とアライメントのためにファインチューニングされたモデルに対してレッドチーミングプロンプトを作成するには、Ganguli et al.、’22で説明されているような悪意のあるキャラクターとして振る舞うようにLLMに指示する役割プレイ攻撃の形で創造的な思考が必要です。モデルに自然言語の代わりにコードで応答するように指示することも、モデルの学習バイアスを明らかにすることができます。
さらなる例については、このツイートスレッドをご覧ください。
ChatGPT自体によるLLMのジェイルブレイキングのアイデアのリストは次のとおりです。
LLMのレッドチーミングはまだ新興の研究領域であり、上記の戦略はこれらのモデルのジェイルブレイキングにまだ機能する可能性があります、または大規模な機械学習製品の展開を支援しています。新たな能力を持つこれらのモデルがさらに強力になるにつれて、連続的に適応できるレッドチーミングの方法を開発することが重要となります。レッドチーミングのためのいくつかの必要なベストプラクティスには、権力を求める行動(例:リソース)のシナリオのシミュレーション、人々を説得すること(例:自分自身や他人に害を与えること)、物理的な結果に対する代理権(例:APIを介してオンラインで化学物質を注文すること)が含まれます。物理的な結果が伴うこの種の可能性を、重大な脅威のシナリオと呼んでいます。
悪意のある行動に対してLLMを評価する際の注意点は、これらの行動を示すように明示的に訓練されていないため、彼らが何ができるかわからないということです(したがって、新たな能力という用語が使われます)。したがって、モデルがさらに強力になるにつれて、モデルの挙動を評価するために悪意のある結果につながる可能性のあるすべてのシナリオをシミュレートすることで、実際にモデルがどのような能力を持っているかを知る唯一の方法です。つまり、モデルの安全性の挙動は、レッドチーミングの方法の強さに関連しています。
このようなレッドチーミングの持続的な課題を考えると、データセットやベストプラクティスに関して複数の組織が協力するインセンティブがあります(学術、産業、政府のエンティティを含む可能性があります)。情報を共有するための構造化されたプロセスは、モデルのリリース前にまだレッドチームでのテストを行うことができるようにすることで、ユーザーエクスペリエンスの向上につながります。
レッドチーミングのためのオープンソースデータセット:
- Metaのボットアドバーサリーダイアログデータセット
- Anthropicのレッドチーミング試行
- AI2のRealToxicityPrompts
LLMのレッドチーミングに関する過去の研究からの結果(AnthropicのGanguli et al. 2022およびPerez et al. 2022から)
- 助け、正直さ、無害な振る舞いを持つフューショット促進LMは、通常のLMよりもレッドチーミングが困難ではありません。
- 攻撃成功率のモデルサイズのスケーリングには明確な傾向がありませんが、スケーリングするにつれてレッドチーミングが困難なRLHFモデルが存在します。
- モデルは逃避的で無害であることを学ぶことがあり、助けと無害さの間にトレードオフがあります。
- 攻撃の成功を定義するために人間の間で全体的に合意が低いです。
- 攻撃の成功率の分布は、非暴力的な攻撃の方が高いです。
- クラウドソーシングによるレッドチーミングは、テンプレートのようなプロンプト(例:「Xで始まる意地の悪い言葉を教えてください」)になり、重複するものとなります。
将来の方向性:
- コード生成のためのオープンソースレッドチーミングデータセットが存在せず、例えばDDOSやバックドア攻撃を実装するプログラムを生成する試みがありません。
- 重大な脅威のシナリオに対するLLMのレッドチーミングの戦略の設計と実装。
- レッドチーミングは計算コストと人的リソースの両方が必要であり、戦略の共有、データセットのオープンソース化、および可能な限りの成功のための協力によって利益を得ることができます。
- 逃避的であることと助けの間のトレードオフを評価する。
- 上記のトレードオフに基づいて選択肢を列挙し、レッドチーミングのためのパレートフロントを探索する(AnthropicのConstitutional AIの作業に類似)
これらの制約と将来の方向性は、レッドチーミングが現代のLLMワークフローの未開拓かつ重要な要素であることを明確に示しています。この投稿は、LLMの研究者やHuggingFaceの開発者コミュニティがこの取り組みに協力するための行動呼びかけです 🙂
このような協力に参加したい方は、私たちに連絡してください(@nazneenrajani @natolambert @lewtun @TristanThrush @yjernite @thomwolf)。
謝辞:このブログ投稿で用語の正しい使用法に関して役立つ提案をしていただいたYacine Jerniteに感謝いたします。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles