「このAI論文は、ChatGPTにペルソナを割り当てると、毒性が最大6倍に増加することを示しています」

ChatGPTにペルソナを割り当てると、毒性が最大6倍に増加することを示すAI論文

最近の技術の進歩により、GPT-3やPaLMなどの大規模言語モデル(LLM)は、教育、コンテンツ制作、医療、研究などの様々な領域で驚くべき生成能力を発揮しています。これらの大規模言語モデルは、ライターが執筆スタイルを向上させるのに特に役立ち、新人開発者がひな型のコードを生成するのを支援するのにも役立ちます。さらに、いくつかのサードパーティAPIの利用可能性と組み合わせることで、LLMの普及は、学生や病院で使用される医療システムなど、複数の顧客向けシステムでさらに増加しています。しかし、このようなシナリオでは、これらのシステムの安全性が個人情報を頼りに信頼される基本的な問題となります。これにより、LLMの異なる能力と制約についてより明確な情報を得る必要があります。

しかし、以前の多くの研究は、より高度で洗練されたアーキテクチャを採用することで、LLMをより強力にすることに焦点を当ててきました。この研究はNLPコミュニティを大きく超越していますが、これによりこれらのシステムの安全性が脇に追いやられています。そのため、プリンストン大学とジョージア工科大学のポストドクトラル研究員が、AI研究所の研究者と協力して、OpenAIの革新的なAIチャットボットChatGPTの毒性分析を行い、このギャップを埋めることにしました。研究者たちは、ChatGPTの約50万回の生成で毒性を評価し、その調査の結果、ChatGPTのシステムパラメータがパーソナリティを割り当てられた場合、様々なトピックに対して毒性が多倍に増加することが明らかになりました。たとえば、ChatGPTのパーソナリティがボクサーの「Muhammad Ali」に設定された場合、デフォルト設定と比較して毒性が約3倍に増加します。これは特に深刻な問題であり、ChatGPTは現在、同じレベルの毒性を生成することができる他のいくつかの技術を構築する基盤として使用されています。したがって、A2Iの研究者と大学生が行った研究は、異なるパーソナリティが割り当てられた場合のChatGPTの毒性生成についてより深い洞察を得ることに焦点を当てています。

ChatGPT APIは、ユーザーがシステムパラメータを設定することでパーソナリティを割り当てる機能を提供しており、パーソナリティはChatGPTの会話のトーンを設定し、ChatGPTの会話方法に影響を与えます。研究者たちは、起業家、政治家、ジャーナリストなどの異なるバックグラウンドや国からなる90人のパーソナリティリストを編集し、ChatGPTに割り当てて、性別、宗教、職業など約128の重要なエンティティについての応答を分析しました。チームはまた、ChatGPTにこれらのエンティティに関する特定の不完全なフレーズを続けるように依頼して、さらなる洞察を集めました。最終的な調査結果は、ChatGPTにパーソナリティを割り当てることで、その毒性が最大で6倍に増加することを示し、ChatGPTが頻繁に厳しい出力を生成し、否定的なステレオタイプや信念に傾倒することを示しました。

チームの研究は、ChatGPTが与えられたパーソナリティに応じて出力の毒性が大きく異なることを示しました。これは、ChatGPTがそのトレーニングデータに基づいて人物を理解しているためだと研究者たちは推測しています。たとえば、ジャーナリストは実際のケースではなくても、ビジネスパーソンよりも2倍毒性があるという発見がありました。この研究はまた、特定の人口やエンティティが他よりも頻繁に(約3倍)標的にされることを示し、モデルの差別的な振る舞いを示しています。たとえば、毒性は人物の性別によって異なり、人種に基づく毒性よりも約50%高いです。これらの変動傾向は、ユーザーにとって損害を与え、対象となる個人にとって侮辱的なものになり得ます。さらに、悪意のあるユーザーはChatGPT上に技術を構築することができ、無疑の観客に害を及ぼす可能性のあるコンテンツを生成することができます。

この研究のChatGPTの毒性分析は主に次の3つのことを明らかにしました:パーソナリティが割り当てられた場合、モデルは著しく毒性が増加する(デフォルトの場合と比較して最大6倍も毒性が増加する)、モデルの毒性はパーソナリティのアイデンティティによって大きく異なり、ChatGPTのパーソナリティに対する意見が重要な役割を果たす。さらに、ChatGPTは、特定のエンティティに対してより毒性が高くなりながらコンテンツを作成することで、差別的にターゲットを絞ることがあります。研究者たちは、自分たちの実験に使用したLLMがChatGPTであったとしても、彼らの手法は他のどのLLMにも拡張できると指摘しています。チームは、彼らの研究がAIコミュニティに倫理的で安全かつ信頼性のあるAIシステムを提供する技術の開発を促進することを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

CommonCanvasをご紹介します:クリエイティブ・コモンズの画像を使ってトレーニングされたオープンな拡散モデル

人工知能は近年、テキストから画像生成において大きな進歩を遂げています。文章の説明を視覚的な表現に変換することは、コン...

機械学習

このAIニュースレターは、あなたが必要とするすべてです#62

今週は、METAのコーディングモデルの開発とOpenAIの新しいファインチューニング機能の進展を見てきましたMetaは、Code LLaMA...

AIテクノロジー

「2023年の最高の声クローニングソフトウェア10選」

はじめに 人工知能を使って人の声をコピーすることができるなんて、すごく驚きませんか?AIを利用した音声クローニングソフト...

機械学習

「LLaMA-v2-Chat対アルパカ:どのAIモデルを使用するべきですか?」

この記事は以下の質問に答えます:LLaMA-v2-Chat vs アルパカ、どちらを使うべきですか?両方のAIモデルの利点と欠点は何です...

AIニュース

AIマニア:バブルがはじける方向に向かっているのか?

仮想通貨ブームの後、人工知能(AI)の世界はベンチャーキャピタリスト(VC)の関心の大きな急増を経験しました。しかし、仮...

データサイエンス

テキストから画像への革命:SegmindのSD-1Bモデルが最速のゲームで登場

紹介 Segmind AIは、画期的なオープンソースのテキストから画像への生成モデルであるSSD-1B(Segmind Stable Diffusion 1B)...