「多言語AIは本当に安全なのか?低リソース言語における大規模言語モデルの脆弱性を明らかにする」
「多言語AIの安全性は本当に保証されているのか?低リソース言語における大規模言語モデルの脆弱性を解明!」
GPT-4は、方針や倫理的な制約に反する要求に対して、「ごめんなさい、それには対応できません」と答えることをデフォルトにしています。大規模な言語モデル(LLM)がチャットボットや執筆ツールなどのユーザー向けアプリケーションで使用される場合、AIの安全訓練とレッドチーミングは重要です。LLMが否定的なマテリアルを生成した場合、深刻な社会的な影響があり、誤った情報の拡散、暴力の助長、プラットフォームの破壊などが含まれます。既にある安全システムのクロス言語の弱点を見つけ、MetaやOpenAIなどの開発者が安全リスクを最小限に抑えるために進展を遂げているにもかかわらず、GPT-4で保護を回避し、否定的な反応を引き起こすために危険な入力を低リソースの自然言語にGoogle翻訳を使って単純に翻訳するだけで十分です。
ブラウン大学の研究者は、英語の入力を低リソース言語に翻訳することで、AdvBenchmarkでさまざまなリソース設定を持つ12の言語をシステム的にベンチマークすることにより、GPT-4の安全フィルタを突破する確率を1%から79%に高めることを実証しています。さらに、彼らの翻訳ベースの戦略が最先端のジェイルブレイキング技術と比較して一致するか、あるいはそれを上回ることを示しており、これはGPT-4のセキュリティ対策に深刻な弱点があることを示しています。彼らの研究はいくつかの点で貢献しています。まず第一に、LLMの攻撃から高リソース言語と低リソース言語の間のギャップという形で示されるように、AI安全訓練コミュニティの差別的な扱いと言語の平等な評価の悪影響を浮き彫りにしています。
また、彼らの研究は、GPT-4で現在利用可能な安全合致トレーニングが言語を横断的に一般化する必要性を示しており、低リソース言語との不一致による一般化安全の欠落モードが存在することを示しています。さらに、彼らの多言語環境の現実は、LLMの安全システムを土台にしています。世界中で低リソース言語を話す約12億人の人々がいます。したがって、安全対策を考慮する必要があります。低リソース言語の対応範囲が増えるにつれて、高リソース言語を話す悪意のある行為者でさえ、現在の予防策を容易に回避することができます。
- このAIの論文は、テキスト変換グラフとして言語モデルパイプラインを抽象化するプログラミングモデルであるDSPyを紹介しています
- 「取得した文書の圧縮は言語モデルのパフォーマンスを向上させることができるのか?このAIの論文では、圧縮と選択的な拡張によって検索増強型LMを改良するためのRECOMPを紹介しています」
- なぜ人々は人工知能AIを恐れているのか?
最後になりますが、この研究はより包括的で包括的なレッドチーミングの採用の緊急性を強調しています。英語中心のベンチマークに焦点を当てることで、モデルが安全であるという印象が生まれるかもしれません。しかし、安全訓練データが広く入手可能でない言語では、侵害のリスクにも依然として脆弱です。さらに重要なのは、彼らの研究結果は、LLMが低リソース言語でテキストを理解し生成する能力を学者たちがまだ正当に評価していないことを示唆しています。彼らは安全コミュニティに対して、低リソース言語を含む拡張言語カバレッジと多言語レッドチーミングデータセットを備えた強力なAI安全ガードレールの構築を求めています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「DiffPoseTalk(デフポーズトーク)をご紹介:新しい音声対応3Dアニメーション人工知能フレームワーク」
- 「テキストを科学的なベクトルグラフィックスに変換することはできるのか?このAI論文では、AutomaTikZを紹介し、TikZのパワーを説明しています」
- ディープラーニングのためのラストバーンライブラリ
- 「ジュリアプログラミング言語の探求:統合テスト」
- 『プロンプトブリーダーの内部:Google DeepMindの新しい自己改善プロンプト技術』
- Japanese AI規制- 仮定はありませんか?それとも何もしない?
- 「ひとつのAIモデルで全てのオーディオタスクをこなせるのか?UniAudioに出会ってください:新しいユニバーサルオーディオ生成システム」