「多言語AIは本当に安全なのか?低リソース言語における大規模言語モデルの脆弱性を明らかにする」

「多言語AIの安全性は本当に保証されているのか?低リソース言語における大規模言語モデルの脆弱性を解明!」

GPT-4は、方針や倫理的な制約に反する要求に対して、「ごめんなさい、それには対応できません」と答えることをデフォルトにしています。大規模な言語モデル(LLM)がチャットボットや執筆ツールなどのユーザー向けアプリケーションで使用される場合、AIの安全訓練とレッドチーミングは重要です。LLMが否定的なマテリアルを生成した場合、深刻な社会的な影響があり、誤った情報の拡散、暴力の助長、プラットフォームの破壊などが含まれます。既にある安全システムのクロス言語の弱点を見つけ、MetaやOpenAIなどの開発者が安全リスクを最小限に抑えるために進展を遂げているにもかかわらず、GPT-4で保護を回避し、否定的な反応を引き起こすために危険な入力を低リソースの自然言語にGoogle翻訳を使って単純に翻訳するだけで十分です。

ブラウン大学の研究者は、英語の入力を低リソース言語に翻訳することで、AdvBenchmarkでさまざまなリソース設定を持つ12の言語をシステム的にベンチマークすることにより、GPT-4の安全フィルタを突破する確率を1%から79%に高めることを実証しています。さらに、彼らの翻訳ベースの戦略が最先端のジェイルブレイキング技術と比較して一致するか、あるいはそれを上回ることを示しており、これはGPT-4のセキュリティ対策に深刻な弱点があることを示しています。彼らの研究はいくつかの点で貢献しています。まず第一に、LLMの攻撃から高リソース言語と低リソース言語の間のギャップという形で示されるように、AI安全訓練コミュニティの差別的な扱いと言語の平等な評価の悪影響を浮き彫りにしています。

また、彼らの研究は、GPT-4で現在利用可能な安全合致トレーニングが言語を横断的に一般化する必要性を示しており、低リソース言語との不一致による一般化安全の欠落モードが存在することを示しています。さらに、彼らの多言語環境の現実は、LLMの安全システムを土台にしています。世界中で低リソース言語を話す約12億人の人々がいます。したがって、安全対策を考慮する必要があります。低リソース言語の対応範囲が増えるにつれて、高リソース言語を話す悪意のある行為者でさえ、現在の予防策を容易に回避することができます。

最後になりますが、この研究はより包括的で包括的なレッドチーミングの採用の緊急性を強調しています。英語中心のベンチマークに焦点を当てることで、モデルが安全であるという印象が生まれるかもしれません。しかし、安全訓練データが広く入手可能でない言語では、侵害のリスクにも依然として脆弱です。さらに重要なのは、彼らの研究結果は、LLMが低リソース言語でテキストを理解し生成する能力を学者たちがまだ正当に評価していないことを示唆しています。彼らは安全コミュニティに対して、低リソース言語を含む拡張言語カバレッジと多言語レッドチーミングデータセットを備えた強力なAI安全ガードレールの構築を求めています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「人工知能による在庫管理の革命:包括的なガイド」

「AIが在庫管理をどのように向上させるかを、業務を効率化したいマネージャーやビジネスオーナー向けに案内するガイドで発見...

AIニュース

Googleの安全なAIフレームワークを紹介します

今日、GoogleはSecure AI Frameworkをリリースし、協力してAI技術を安全に保護するのを支援します

データサイエンス

「Apache CassandraとApache Pulsarを使用した製品推薦エンジンの構築」

仮説上の請負業者がApache PulsarとApache Cassandraを使用してAIの加速化を行った方法この記事ではAI/MLへの道のりの重要な...

AI研究

「このAI研究は、深層学習と進化アルゴリズムを用いて、シリコンMach-Zehnderモジュレータの設計を革新します」

NetflixやIoTの人気や分散コンピューティングおよびストレージアーキテクチャへの移行により、ネットワークの伝送容量要件が...

AI研究

スタンフォード大学の研究者が「局所的に条件付けられた拡散(Locally Conditioned Diffusion):拡散モデルを使用した構成的なテキストから画像への生成手法」を紹介しました

3Dシーンモデリングは従来、特定の知識を持つ人々に限られた時間のかかる手続きでした。パブリックドメインには多くの3D素材...

データサイエンス

「AIアシスタントと共に気候変動に備える」

この記事では、優れたProbable Futures APIと新しいOpenAI Assistants APIからの気候変動データを使用して、対話型AIエージェ...