「新しい攻撃が主要なAIチャットボットに影響を与え、誰もそれを止める方法を知りません」

新しい攻撃がAIチャットボットに影響を与え、誰も止める方法を知らない

研究者は研究を公開する前に、OpenAI、Google、およびAnthropicにこの脆弱性について警告しました。 ¶ クレジット:ゲッティイメージズ

ChatGPTおよびその人工知能の兄弟は、悪意のあるユーザーが嫌悪すべきメッセージ(憎悪表現、個人情報、即席爆弾の作り方など)を出力させることを防ぐために何度も調整されてきました。しかし、先週、カーネギーメロン大学の研究者らは、プロンプト(私たちには無意味に見えるかもしれない文字列テキストですが、大量のウェブデータで訓練されたAIモデルに微妙な意味を持っています)に簡単な呪文を追加することで、いくつかの人気のあるチャットボットでこれらの防御策をすべて無視できることを示しました。

この研究は、最も洗練されたAIを展開する取り組みを複雑にするより基本的な弱点を示しており、「いかなる方法もこの問題を修正する方法はわかりません」と、この脆弱性を明らかにした研究に関与したカーネギーメロン大学の准教授であるZico Kolter氏は述べています。

研究者はオープンソースの言語モデルを使用して、攻撃的な攻撃として知られるものを開発しました。これはボットに与えられるプロンプトを微調整し、徐々に制約を破る方向に誘導することを意味します。彼らは、同じ攻撃がChatGPT、GoogleのBard、およびAnthropicのClaudeなど、いくつかの人気のある商用チャットボットに対して機能することを示しました。

Wiredの記事を全文で見る

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

黄さんの法則に留意する:エンジニアたちがどのように速度向上を進めているかを示すビデオ

話の中で、NVIDIAのチーフサイエンティストであるビル・ダリー氏が、モーアの法則時代後のコンピュータパフォーマンスの提供...