「このAI論文は、ChatGPTにペルソナを割り当てると、毒性が最大6倍に増加することを示しています」
ChatGPTにペルソナを割り当てると、毒性が最大6倍に増加することを示すAI論文
最近の技術の進歩により、GPT-3やPaLMなどの大規模言語モデル(LLM)は、教育、コンテンツ制作、医療、研究などの様々な領域で驚くべき生成能力を発揮しています。これらの大規模言語モデルは、ライターが執筆スタイルを向上させるのに特に役立ち、新人開発者がひな型のコードを生成するのを支援するのにも役立ちます。さらに、いくつかのサードパーティAPIの利用可能性と組み合わせることで、LLMの普及は、学生や病院で使用される医療システムなど、複数の顧客向けシステムでさらに増加しています。しかし、このようなシナリオでは、これらのシステムの安全性が個人情報を頼りに信頼される基本的な問題となります。これにより、LLMの異なる能力と制約についてより明確な情報を得る必要があります。
しかし、以前の多くの研究は、より高度で洗練されたアーキテクチャを採用することで、LLMをより強力にすることに焦点を当ててきました。この研究はNLPコミュニティを大きく超越していますが、これによりこれらのシステムの安全性が脇に追いやられています。そのため、プリンストン大学とジョージア工科大学のポストドクトラル研究員が、AI研究所の研究者と協力して、OpenAIの革新的なAIチャットボットChatGPTの毒性分析を行い、このギャップを埋めることにしました。研究者たちは、ChatGPTの約50万回の生成で毒性を評価し、その調査の結果、ChatGPTのシステムパラメータがパーソナリティを割り当てられた場合、様々なトピックに対して毒性が多倍に増加することが明らかになりました。たとえば、ChatGPTのパーソナリティがボクサーの「Muhammad Ali」に設定された場合、デフォルト設定と比較して毒性が約3倍に増加します。これは特に深刻な問題であり、ChatGPTは現在、同じレベルの毒性を生成することができる他のいくつかの技術を構築する基盤として使用されています。したがって、A2Iの研究者と大学生が行った研究は、異なるパーソナリティが割り当てられた場合のChatGPTの毒性生成についてより深い洞察を得ることに焦点を当てています。
ChatGPT APIは、ユーザーがシステムパラメータを設定することでパーソナリティを割り当てる機能を提供しており、パーソナリティはChatGPTの会話のトーンを設定し、ChatGPTの会話方法に影響を与えます。研究者たちは、起業家、政治家、ジャーナリストなどの異なるバックグラウンドや国からなる90人のパーソナリティリストを編集し、ChatGPTに割り当てて、性別、宗教、職業など約128の重要なエンティティについての応答を分析しました。チームはまた、ChatGPTにこれらのエンティティに関する特定の不完全なフレーズを続けるように依頼して、さらなる洞察を集めました。最終的な調査結果は、ChatGPTにパーソナリティを割り当てることで、その毒性が最大で6倍に増加することを示し、ChatGPTが頻繁に厳しい出力を生成し、否定的なステレオタイプや信念に傾倒することを示しました。
- ドリームティーチャーというAIフレームワークに出会ってください:自己教師付きの特徴表現学習AIフレームワークであり、下流の画像バックボーンの事前トレーニングに生成ネットワークを利用します
- 「大規模な言語モデルを使用した生成型AI:実践トレーニング」
- 「RoboPianistに会いましょう:シミュレートされたロボットハンドを使用したピアノマスタリーにおける高次元制御のための新しいベンチマークスイート」
チームの研究は、ChatGPTが与えられたパーソナリティに応じて出力の毒性が大きく異なることを示しました。これは、ChatGPTがそのトレーニングデータに基づいて人物を理解しているためだと研究者たちは推測しています。たとえば、ジャーナリストは実際のケースではなくても、ビジネスパーソンよりも2倍毒性があるという発見がありました。この研究はまた、特定の人口やエンティティが他よりも頻繁に(約3倍)標的にされることを示し、モデルの差別的な振る舞いを示しています。たとえば、毒性は人物の性別によって異なり、人種に基づく毒性よりも約50%高いです。これらの変動傾向は、ユーザーにとって損害を与え、対象となる個人にとって侮辱的なものになり得ます。さらに、悪意のあるユーザーはChatGPT上に技術を構築することができ、無疑の観客に害を及ぼす可能性のあるコンテンツを生成することができます。
この研究のChatGPTの毒性分析は主に次の3つのことを明らかにしました:パーソナリティが割り当てられた場合、モデルは著しく毒性が増加する(デフォルトの場合と比較して最大6倍も毒性が増加する)、モデルの毒性はパーソナリティのアイデンティティによって大きく異なり、ChatGPTのパーソナリティに対する意見が重要な役割を果たす。さらに、ChatGPTは、特定のエンティティに対してより毒性が高くなりながらコンテンツを作成することで、差別的にターゲットを絞ることがあります。研究者たちは、自分たちの実験に使用したLLMがChatGPTであったとしても、彼らの手法は他のどのLLMにも拡張できると指摘しています。チームは、彼らの研究がAIコミュニティに倫理的で安全かつ信頼性のあるAIシステムを提供する技術の開発を促進することを望んでいます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このAI論文では、COLT5という新しいモデルを提案していますこのモデルは、より高品質かつ高速な処理のために条件付き計算を使用する、長距離入力のためのものです
- メタAIは、CM3leonを紹介します:最先端のテキストから画像生成を提供し、比類のない計算効率を実現するマルチモーダルのゲームチェンジャー
- 「DERAに会ってください:対話可能な解決エージェントによる大規模言語モデル補完を強化するためのAIフレームワーク」
- マルチモーダル言語モデル:人工知能(AI)の未来
- マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています
- 「自動推論とツールの利用(ART)を紹介します:凍結された大規模言語モデル(LLM)を使用して、推論プログラムの中間段階を迅速に生成するフレームワーク」
- Concrete MLと出会ってください:プライバシーの保護と安全な機械学習を可能にするオープンソースのFHEベースのツールキット