「多言語AIは本当に安全なのか?低リソース言語における大規模言語モデルの脆弱性を明らかにする」

「多言語AIの安全性は本当に保証されているのか?低リソース言語における大規模言語モデルの脆弱性を解明!」

GPT-4は、方針や倫理的な制約に反する要求に対して、「ごめんなさい、それには対応できません」と答えることをデフォルトにしています。大規模な言語モデル(LLM)がチャットボットや執筆ツールなどのユーザー向けアプリケーションで使用される場合、AIの安全訓練とレッドチーミングは重要です。LLMが否定的なマテリアルを生成した場合、深刻な社会的な影響があり、誤った情報の拡散、暴力の助長、プラットフォームの破壊などが含まれます。既にある安全システムのクロス言語の弱点を見つけ、MetaやOpenAIなどの開発者が安全リスクを最小限に抑えるために進展を遂げているにもかかわらず、GPT-4で保護を回避し、否定的な反応を引き起こすために危険な入力を低リソースの自然言語にGoogle翻訳を使って単純に翻訳するだけで十分です。

ブラウン大学の研究者は、英語の入力を低リソース言語に翻訳することで、AdvBenchmarkでさまざまなリソース設定を持つ12の言語をシステム的にベンチマークすることにより、GPT-4の安全フィルタを突破する確率を1%から79%に高めることを実証しています。さらに、彼らの翻訳ベースの戦略が最先端のジェイルブレイキング技術と比較して一致するか、あるいはそれを上回ることを示しており、これはGPT-4のセキュリティ対策に深刻な弱点があることを示しています。彼らの研究はいくつかの点で貢献しています。まず第一に、LLMの攻撃から高リソース言語と低リソース言語の間のギャップという形で示されるように、AI安全訓練コミュニティの差別的な扱いと言語の平等な評価の悪影響を浮き彫りにしています。

また、彼らの研究は、GPT-4で現在利用可能な安全合致トレーニングが言語を横断的に一般化する必要性を示しており、低リソース言語との不一致による一般化安全の欠落モードが存在することを示しています。さらに、彼らの多言語環境の現実は、LLMの安全システムを土台にしています。世界中で低リソース言語を話す約12億人の人々がいます。したがって、安全対策を考慮する必要があります。低リソース言語の対応範囲が増えるにつれて、高リソース言語を話す悪意のある行為者でさえ、現在の予防策を容易に回避することができます。

最後になりますが、この研究はより包括的で包括的なレッドチーミングの採用の緊急性を強調しています。英語中心のベンチマークに焦点を当てることで、モデルが安全であるという印象が生まれるかもしれません。しかし、安全訓練データが広く入手可能でない言語では、侵害のリスクにも依然として脆弱です。さらに重要なのは、彼らの研究結果は、LLMが低リソース言語でテキストを理解し生成する能力を学者たちがまだ正当に評価していないことを示唆しています。彼らは安全コミュニティに対して、低リソース言語を含む拡張言語カバレッジと多言語レッドチーミングデータセットを備えた強力なAI安全ガードレールの構築を求めています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

イーロン・マスクのxAI企業は資金に関する憶測に直面しています

最近の出来事で、イーロン・マスクの人工知能ベンチャー、xAIが資金調達活動に関する噂で注目を浴びています。マスクの会社は...

データサイエンス

AIとMLによる株式取引の革命:機会と課題

「AI/MLは、予測分析、効率性、市場適応性と倫理の課題を通じて株式取引を変革し、Pythonの例を示す」となります

機械学習

プロンプトエンジニアリングへの紹介

イントロダクション 自然言語処理は、基盤となる技術や手法を使用した実装の豊かな領域であります。近年、特に2022年の始まり...

データサイエンス

「確信せよ、ただし検証せよ」

非決定的なソフトウェアの開発、テスト、および監視の課題を理解することこれは、可観測性のための新しいかつ重要な課題です ...

人工知能

コード生成のための5つのChatGPTの代替手段:超高速開発へのハイパードライブ

「ChatGPT の代わりにコード生成を強化し、開発を加速させるための 5 つの強力な代替手段を見つけよう最高のツールをいくつか...

データサイエンス

「すべてのオンライン投稿は、AIの所有物です」とGoogleが発表

Googleは最近のプライバシーポリシーの更新において、その強力なAIツールでよく知られていることから注目される注目すべき変...