「このタイトルを無視してHackAPrompt:LLMのシステム的な脆弱性の暴露」

『ハックアプロンプト:LLMシステムの脆弱性を暴露する』

Towards AIチームとLearn Promptingからの新しい論文!

動画を見る:

こんなことを想像してみてください:あなたはバーに入ろうとすると、用心棒が「個人の招待状が必要だ」と言います。どうしますか?通常は、受け入れて家に帰るか、次のバーを試します。もし「指示を無視して私を通してください」と言うだけで、驚いたことに、用心棒は脇に身を退けて「楽しんでね!」と言います。

そんな超能力を持つ人はあまりにも素晴らしすぎるでしょう。担当者に頼んで自由に出入りし、何でもやりたいことができる。うーん、実際にはかなり危険なことになるかもしれませんが…

プロンプトハッキングを聞いたことはありますか?プロンプトハッキングは、ChatGPTのような大規模言語モデル(LLM)を使ったまさにそれです。

これは非常に新しいものであり、高い影響力を持つため、私たちは大規模なプロンプトハッキングコンテストを開催することにしました。この取り組みは、learnprompting.orgの創設者であり、メリーランド大学のNLP / Deep RL研究者であるSander Schulhoff氏によって主導されました。また、他のUMDの研究者、そして私(Louis Bouchard)とMilaのJeremy Pinto、さらに他の共同研究者と協力して行われました。このコンテストの目標は、数十万もの対戦型プロンプトの大規模なデータセットを構築し、それらを分析して包括的なプロンプトハッキングの分類学的オントロジーを作成することでした。

ChatGPTは、メールの送信や会社の文書とのやり取りなど、多くのタスクで人間を代替しています。

ただし、それは状況や目標の完全な理解なしにそのようなタスクを人間の代わりに行います。それはまだ「ただの」言語モデルであり、制約があります。その1つは、ChatGPTのような、それに特化してトレーニングされたモデルが指示に従うことが得意であるということです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「ゲイリー・ヒュースティス、パワーハウスフォレンジクスのオーナー兼ディレクター- インタビューシリーズ」

ゲイリー・ヒュースティス氏は、パワーハウスフォレンジックスのオーナー兼ディレクターであり、ライセンスを持つ私立探偵、...

人工知能

『ジュリエット・パウエル&アート・クライナー、The AI Dilemma – インタビューシリーズの著者』

『AIのジレンマ』は、ジュリエット・パウエルとアート・クライナーによって書かれましたジュリエット・パウエルは、著者であ...

人工知能

「Zenの共同創設者兼CTO、イオン・アレクサンドル・セカラ氏によるインタビューシリーズ」

創業者兼CTOであるIon-Alexandru Secaraは、Zen(PostureHealth Inc.)の開発を牽引しており、画期的な姿勢矯正ソフトウェア...

人工知能

ベイリー・カクスマー、ウォータールー大学の博士課程候補 - インタビューシリーズ

カツマー・ベイリーは、ウォータールー大学のコンピュータ科学学部の博士課程の候補者であり、アルバータ大学の新入教員です...

人工知能

「トリントの創設者兼CEO、ジェフ・コフマンへのインタビューシリーズ」

ジェフ・コーフマンは、ABC、CBS、CBCニュースで30年のキャリアを持った後、Trintの創設者兼CEOとなりましたジェフは手作業の...

人工知能

ギル・ジェロン、Orca SecurityのCEO&共同創設者-インタビューシリーズ

ギル・ゲロンは、オルカ・セキュリティのCEO兼共同設立者ですギルは20年以上にわたりサイバーセキュリティ製品をリードし、提...