「多言語AIは本当に安全なのか?低リソース言語における大規模言語モデルの脆弱性を明らかにする」

「多言語AIの安全性は本当に保証されているのか?低リソース言語における大規模言語モデルの脆弱性を解明!」

GPT-4は、方針や倫理的な制約に反する要求に対して、「ごめんなさい、それには対応できません」と答えることをデフォルトにしています。大規模な言語モデル(LLM)がチャットボットや執筆ツールなどのユーザー向けアプリケーションで使用される場合、AIの安全訓練とレッドチーミングは重要です。LLMが否定的なマテリアルを生成した場合、深刻な社会的な影響があり、誤った情報の拡散、暴力の助長、プラットフォームの破壊などが含まれます。既にある安全システムのクロス言語の弱点を見つけ、MetaやOpenAIなどの開発者が安全リスクを最小限に抑えるために進展を遂げているにもかかわらず、GPT-4で保護を回避し、否定的な反応を引き起こすために危険な入力を低リソースの自然言語にGoogle翻訳を使って単純に翻訳するだけで十分です。

ブラウン大学の研究者は、英語の入力を低リソース言語に翻訳することで、AdvBenchmarkでさまざまなリソース設定を持つ12の言語をシステム的にベンチマークすることにより、GPT-4の安全フィルタを突破する確率を1%から79%に高めることを実証しています。さらに、彼らの翻訳ベースの戦略が最先端のジェイルブレイキング技術と比較して一致するか、あるいはそれを上回ることを示しており、これはGPT-4のセキュリティ対策に深刻な弱点があることを示しています。彼らの研究はいくつかの点で貢献しています。まず第一に、LLMの攻撃から高リソース言語と低リソース言語の間のギャップという形で示されるように、AI安全訓練コミュニティの差別的な扱いと言語の平等な評価の悪影響を浮き彫りにしています。

また、彼らの研究は、GPT-4で現在利用可能な安全合致トレーニングが言語を横断的に一般化する必要性を示しており、低リソース言語との不一致による一般化安全の欠落モードが存在することを示しています。さらに、彼らの多言語環境の現実は、LLMの安全システムを土台にしています。世界中で低リソース言語を話す約12億人の人々がいます。したがって、安全対策を考慮する必要があります。低リソース言語の対応範囲が増えるにつれて、高リソース言語を話す悪意のある行為者でさえ、現在の予防策を容易に回避することができます。

最後になりますが、この研究はより包括的で包括的なレッドチーミングの採用の緊急性を強調しています。英語中心のベンチマークに焦点を当てることで、モデルが安全であるという印象が生まれるかもしれません。しかし、安全訓練データが広く入手可能でない言語では、侵害のリスクにも依然として脆弱です。さらに重要なのは、彼らの研究結果は、LLMが低リソース言語でテキストを理解し生成する能力を学者たちがまだ正当に評価していないことを示唆しています。彼らは安全コミュニティに対して、低リソース言語を含む拡張言語カバレッジと多言語レッドチーミングデータセットを備えた強力なAI安全ガードレールの構築を求めています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「PyTorchでのSoft Nearest Neighbor Lossの実装方法」

表現学習は、深層ニューラルネットワークによって与えられたデータセット内の最も顕著な特徴を学習するタスクです通常は教師...

AIニュース

「GoogleがニュースライターAI 'Genesis'をリリース」

メディアの景色を変えることが確実な技術の突破口として、Googleは「Genesis」と呼ばれるAIによるニュース記事生成ツールの開...

機械学習

このスペースを見る:AIを使用してリスクを推定し、資産を監視し、クレームを分析する新しい空間金融の分野

金融の意思決定をする際には、ドローン、衛星、またはAIパワードセンサーから取得した大局的な情報を見ることが重要です。 空...

AI研究

このAI研究レビューでは、衛星画像とディープラーニングの統合による資産ベースの貧困の測定について探求しています

ルンド大学とハルムスタッド大学の研究者は、衛星画像と深層機械学習による貧困推定の説明可能なAIに関するレビューを実施し...

データサイエンス

ドメイン適応:事前に学習済みのNLPモデルの微調整

ドメイン適応のために事前学習済みNLPモデルの微調整方法を学びましょう特定の文脈でのパフォーマンスと精度を向上させますス...

機械学習

「AIへの恐怖は迷信的なくだらないことだ」

「人工知能が私たちを皆殺しにすると恐れている人々は、200,000年にわたる宗教的な迷信のナンセンスと同じ間違いをしています」