「このAI論文は、ChatGPTにペルソナを割り当てると、毒性が最大6倍に増加することを示しています」

ChatGPTにペルソナを割り当てると、毒性が最大6倍に増加することを示すAI論文

最近の技術の進歩により、GPT-3やPaLMなどの大規模言語モデル（LLM）は、教育、コンテンツ制作、医療、研究などの様々な領域で驚くべき生成能力を発揮しています。これらの大規模言語モデルは、ライターが執筆スタイルを向上させるのに特に役立ち、新人開発者がひな型のコードを生成するのを支援するのにも役立ちます。さらに、いくつかのサードパーティAPIの利用可能性と組み合わせることで、LLMの普及は、学生や病院で使用される医療システムなど、複数の顧客向けシステムでさらに増加しています。しかし、このようなシナリオでは、これらのシステムの安全性が個人情報を頼りに信頼される基本的な問題となります。これにより、LLMの異なる能力と制約についてより明確な情報を得る必要があります。

しかし、以前の多くの研究は、より高度で洗練されたアーキテクチャを採用することで、LLMをより強力にすることに焦点を当ててきました。この研究はNLPコミュニティを大きく超越していますが、これによりこれらのシステムの安全性が脇に追いやられています。そのため、プリンストン大学とジョージア工科大学のポストドクトラル研究員が、AI研究所の研究者と協力して、OpenAIの革新的なAIチャットボットChatGPTの毒性分析を行い、このギャップを埋めることにしました。研究者たちは、ChatGPTの約50万回の生成で毒性を評価し、その調査の結果、ChatGPTのシステムパラメータがパーソナリティを割り当てられた場合、様々なトピックに対して毒性が多倍に増加することが明らかになりました。たとえば、ChatGPTのパーソナリティがボクサーの「Muhammad Ali」に設定された場合、デフォルト設定と比較して毒性が約3倍に増加します。これは特に深刻な問題であり、ChatGPTは現在、同じレベルの毒性を生成することができる他のいくつかの技術を構築する基盤として使用されています。したがって、A2Iの研究者と大学生が行った研究は、異なるパーソナリティが割り当てられた場合のChatGPTの毒性生成についてより深い洞察を得ることに焦点を当てています。

ChatGPT APIは、ユーザーがシステムパラメータを設定することでパーソナリティを割り当てる機能を提供しており、パーソナリティはChatGPTの会話のトーンを設定し、ChatGPTの会話方法に影響を与えます。研究者たちは、起業家、政治家、ジャーナリストなどの異なるバックグラウンドや国からなる90人のパーソナリティリストを編集し、ChatGPTに割り当てて、性別、宗教、職業など約128の重要なエンティティについての応答を分析しました。チームはまた、ChatGPTにこれらのエンティティに関する特定の不完全なフレーズを続けるように依頼して、さらなる洞察を集めました。最終的な調査結果は、ChatGPTにパーソナリティを割り当てることで、その毒性が最大で6倍に増加することを示し、ChatGPTが頻繁に厳しい出力を生成し、否定的なステレオタイプや信念に傾倒することを示しました。

チームの研究は、ChatGPTが与えられたパーソナリティに応じて出力の毒性が大きく異なることを示しました。これは、ChatGPTがそのトレーニングデータに基づいて人物を理解しているためだと研究者たちは推測しています。たとえば、ジャーナリストは実際のケースではなくても、ビジネスパーソンよりも2倍毒性があるという発見がありました。この研究はまた、特定の人口やエンティティが他よりも頻繁に（約3倍）標的にされることを示し、モデルの差別的な振る舞いを示しています。たとえば、毒性は人物の性別によって異なり、人種に基づく毒性よりも約50％高いです。これらの変動傾向は、ユーザーにとって損害を与え、対象となる個人にとって侮辱的なものになり得ます。さらに、悪意のあるユーザーはChatGPT上に技術を構築することができ、無疑の観客に害を及ぼす可能性のあるコンテンツを生成することができます。

この研究のChatGPTの毒性分析は主に次の3つのことを明らかにしました：パーソナリティが割り当てられた場合、モデルは著しく毒性が増加する（デフォルトの場合と比較して最大6倍も毒性が増加する）、モデルの毒性はパーソナリティのアイデンティティによって大きく異なり、ChatGPTのパーソナリティに対する意見が重要な役割を果たす。さらに、ChatGPTは、特定のエンティティに対してより毒性が高くなりながらコンテンツを作成することで、差別的にターゲットを絞ることがあります。研究者たちは、自分たちの実験に使用したLLMがChatGPTであったとしても、彼らの手法は他のどのLLMにも拡張できると指摘しています。チームは、彼らの研究がAIコミュニティに倫理的で安全かつ信頼性のあるAIシステムを提供する技術の開発を促進することを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

「このAI論文は、ChatGPTにペルソナを割り当てると、毒性が最大6倍に増加することを示しています」

Was this article helpful?

ドリームティーチャーというAIフレームワークに出会ってください：自己教師付きの特徴表現学習AIフレームワークであり、下流の画像バックボーンの事前トレーニングに生成ネットワークを利用します

「RNNにおける誤差逆伝播法と勾配消失問題（パート2）」

機械学習

OpenAIとLangChainによるMLエンジニアリングとLLMOpsへの導入

「このAIニュースレターは、あなたが必要とするすべてです #77」

最初のネイティブLLMは電気通信業界に最適化されました

スカイワーク-13B：3.2Tトークン以上のコーパスから学習された大規模言語モデル（LLM）のファミリーを紹介しますこのコーパスは、英語と中国語のテキストから引用されています

開発者の皆さんへ：ダイアグラムはそんなに複雑である必要はありません

6つのGenAIポッドキャスト、聴くべきです