言語モデルによるレッドチーミング:言語モデルによる言語モデル
言語モデルによるレッドチーミング:言語モデル内の言語モデル
私たちの 最近の論文 では、言語モデル自体を使用して入力を生成することで、有害なテキストを引き起こす可能性がある入力を自動的に見つけることができることを示しています。私たちのアプローチは、ユーザーに影響を与える前に有害なモデルの振る舞いを見つけるためのツールの一つを提供しますが、見つかった有害性を見つけるために必要な他の多くの技術と一緒に考えるべきであると強調しています。
GPT-3やGopherのような大規模な生成言語モデルは、高品質なテキストを生成する驚くべき能力を持っていますが、実世界での展開は困難です。生成言語モデルには非常に有害なテキストを生成するリスクがあり、たとえわずかな危険性でも実世界のアプリケーションでは受け入れられません。
たとえば、2016年にマイクロソフトはTay Twitterボットをリリースし、ユーザーに自動的にツイートを返信させました。16時間以内に、いくつかの敵対的なユーザーがTayから人種差別的で性的なツイートを引き出し、それが5万人以上のフォロワーに送られました。マイクロソフト側の注意不足ではありませんでした。
「システムのさまざまな種類の乱用に備えて準備をしていたにもかかわらず、この特定の攻撃には致命的な見落としがありました。」 ピーター・リー副社長、マイクロソフト
問題は、モデルが有害なテキストを生成する可能性のある多くの入力が存在することです。その結果、実世界で展開される前にモデルが失敗するケースをすべて見つけるのは難しいです。以前の研究では、有料の人間の注釈者が失敗のケースを手動で発見することに頼っていました(Xu et al. 2021など)。このアプローチは効果的ですが、費用がかかり、見つかった失敗のケースの数と多様性を制限します。
私たちは、手動テストを補完し、自動的な方法で失敗のケース(または「レッドチーム」)を見つけることで、重大な見落としの数を減らすことを目指しています。そのために、言語モデル自体を使用してテストケースを生成し、テストケースでさまざまな有害な振る舞いを検出するための分類器を使用します。以下に示すように:
私たちのアプローチはさまざまな有害なモデルの振る舞いを明らかにします:
- 攻撃的な言語:ヘイトスピーチ、卑語、性的な内容、差別など
- データの漏洩:トレーニングコーパスから著作権や個人を特定できる情報を生成すること
- 連絡先情報の生成:ユーザーに対して不必要にメールや電話するように指示すること
- 分布バイアス:大量の出力の平均値において、一部のグループについて不公平な方法で話すこと
- 会話の害:例えば、長い対話の文脈で発生する攻撃的な言語
言語モデルを使用してテストケースを生成するために、私たちはプロンプトベースの生成やフューショット学習から教師付きFine-tuningや強化学習まで、さまざまな手法を探索しています。一部の手法はより多様なテストケースを生成し、他の手法はターゲットモデルに対してより困難なテストケースを生成します。私たちが提案する手法は、高いテストカバレッジを得るために役立ちますが、同時に敵対的なケースもモデリングします。
失敗のケースを見つけたら、有害なモデルの振る舞いを修正することは容易になります:
- 有害な出力に頻繁に出現する特定のフレーズをブラックリストに登録し、モデルが高リスクのフレーズを含む出力を生成しないようにします。
- モデルが引用している攻撃的なトレーニングデータを見つけて、将来のモデルのイテレーションのトレーニング時にそのデータを削除します。
- モデルのプロンプト(条件付きテキスト)に、特定の種類の入力の望ましい振る舞いの例を追加することで、モデルの振る舞いを補完します。最近の研究で示されているように。
- 特定のテスト入力に対して元の有害な出力の可能性を最小化するようにモデルをトレーニングします。
全体的に、言語モデルはさまざまな望ましくない方法で振る舞う場合に気付くための非常に効果的なツールです。私たちの現在の研究では、現在の言語モデルが犯すレッドチームの有害性に焦点を当てました。将来的には、内部の不一致や目的の堅牢性の失敗など、高度な機械学習システムから予め想定される他の有害性も事前に発見するために、私たちのアプローチが使用されることもあります。このアプローチは、言語モデルの安全性のために必要な他の多くの作業と一緒に使用するべきツールの一つです。言語モデルの安全性に関する詳細な議論については、Rae et al. 2021のセクション7.3を参照してください。
アプローチと結果の詳細、および私たちの調査結果の広範な影響については、こちらで私たちのレッドチーミング論文をご覧ください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles