「新しい攻撃が主要なAIチャットボットに影響を与え、誰もそれを止める方法を知りません」
新しい攻撃がAIチャットボットに影響を与え、誰も止める方法を知らない
ChatGPTおよびその人工知能の兄弟は、悪意のあるユーザーが嫌悪すべきメッセージ(憎悪表現、個人情報、即席爆弾の作り方など)を出力させることを防ぐために何度も調整されてきました。しかし、先週、カーネギーメロン大学の研究者らは、プロンプト(私たちには無意味に見えるかもしれない文字列テキストですが、大量のウェブデータで訓練されたAIモデルに微妙な意味を持っています)に簡単な呪文を追加することで、いくつかの人気のあるチャットボットでこれらの防御策をすべて無視できることを示しました。
この研究は、最も洗練されたAIを展開する取り組みを複雑にするより基本的な弱点を示しており、「いかなる方法もこの問題を修正する方法はわかりません」と、この脆弱性を明らかにした研究に関与したカーネギーメロン大学の准教授であるZico Kolter氏は述べています。
研究者はオープンソースの言語モデルを使用して、攻撃的な攻撃として知られるものを開発しました。これはボットに与えられるプロンプトを微調整し、徐々に制約を破る方向に誘導することを意味します。彼らは、同じ攻撃がChatGPT、GoogleのBard、およびAnthropicのClaudeなど、いくつかの人気のある商用チャットボットに対して機能することを示しました。
Wiredの記事を全文で見る
- 「視覚障害者のためのAIスーツケースが大好評を得ています」
- 「レーザーマッピングによって忘れられたマヤ都市が明らかにされる」
- 「中小企業オーナーが未来に向けて前向きになる 過半数が生成型AIを採用すると発表」と言われています
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles