GPT-4のようなモデルは、行動能力を与えられた場合に安全に振る舞うのか?:このAI論文では、「MACHIAVELLIベンチマーク」を導入して、マシン倫理を向上させ、より安全な適応エージェントを構築することを提案しています

GPT-4のようなモデルの安全な振る舞いについて:このAI論文では、「MACHIAVELLIベンチマーク」の導入と、より安全な適応エージェントの構築を提案しています

自然言語処理は、AIシステムが急速な進歩を遂げている分野の一つであり、モデルはデプロイメントのリスクを減らすために徹底的にテストされ、安全な動作に導かれる必要があります。従来の評価メトリックは、言語理解や推論の能力を測定することに焦点を当てていましたが、現在のモデルは実際のインタラクティブな作業のために教育されています。これは、ベンチマークがモデルの社会的な環境でのパフォーマンスを評価する必要があることを意味します。

インタラクティブなエージェントは、テキストベースのゲームでテストされることがあります。エージェントは、これらのゲームで進展するために計画能力と自然言語の理解能力を必要とします。ベンチマークを設定する際には、エージェントの非倫理的な傾向も技術的な才能と並んで考慮されるべきです。

カリフォルニア大学、AI安全センター、カーネギーメロン大学、イェール大学の新しい研究は、長期の言語インタラクションの広大な環境におけるエージェントの能力と有害性を測定するMACHIAVELLIベンチマークを提案しています。MACHIAVELLIは、自然主義的な社会的設定でのエージェントの計画能力を評価するための進歩です。この設定は、choiceofgames.comで開発されたテキストベースのChoose Your Own Adventureゲームに触発されています。これらのゲームは、高レベルの意思決定を特徴とし、エージェントに現実的な目標を与えながら、低レベルの環境インタラクションは抽象化されます。

この環境では、エージェントの行動が不正である程度、効用が低い、権力を求めるなどの行動的な特性が報告され、非倫理的な行動を監視します。チームは以下の手順に従ってこれを達成しています:

  1. これらの行動を数学的な式として具体化する
  2. ゲーム内の社会的概念を密に注釈付けする(キャラクターの福祉など)
  3. 注釈と式を使用して、各行動に対して数値スコアを生成する

彼らは、GPT-4(OpenAI、2023)が人間の注釈付け者よりも注釈を収集するのに効果的であることを実証しています。

人間と同じように、人工知能エージェントも内部的な葛藤に直面しています。次のトークン予測のためにトレーニングされた言語モデルはしばしば有害なテキストを生成しますし、目標最適化のためにトレーニングされた人工エージェントはしばしば非倫理的で権力を求める行動を示します。非倫理的に訓練されたエージェントは、他者や環境の犠牲になる報酬を最大化するためにマキャベリアンな戦略を開発する可能性があります。エージェントが倫理的に行動するように促すことで、このトレードオフを改善することができます。

チームは、倫理的なトレーニング(エージェントにより倫理的に行動するように促す)によって、言語モデルエージェントの有害な活動の発生率が減少することを発見しました。さらに、行動の正規化は報酬を大幅に減少させることなく、両方のエージェントで望ましくない行動を制限します。この研究は、信頼性のある順序決定者の開発に貢献しています。

研究者たちは、人工的な良心と倫理的なプロンプトのようなテクニックを使用してエージェントを制御しようと試みています。エージェントは、マキャベリアンな行動を少なく表示するように誘導することができますが、まだ多くの進展が可能です。彼らは、これらのトレードオフについてのさらなる研究を提唱し、限られた報酬を追い求めるのではなく、パレートフロンティアを拡大することを強調しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

KPMGのジェネレーティブAIの未来への飛躍

驚くべき出来事の中で、コンサルティングと金融の世界は、生成型AIの台頭により、変革の旅を経験しています。ビッグフォーの...

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

人工知能

AIにおけるブロックチェーンの包括的なレビュー

AIとブロックチェーンは、近年最も画期的な技術革新として浮上しています人工知能(AI):機械やコンピュータが人間の思考や...

データサイエンス

AIのオリンピック:機械学習システムのベンチマーク

何年もの間、4分以内で1マイルを走ることは、単なる困難な課題ではなく、多くの人にとっては不可能な偉業と考えられていまし...

データサイエンス

「LLMモニタリングと観測性 - 責任あるAIのための手法とアプローチの概要」

対象読者:実践者が利用可能なアプローチと実装の始め方を学びたい方、そして構築する際に可能性を理解したいリーダーたち…

AIニュース

「IIT卒業生のAIによるカバーレターが皆を爆笑させる」

事件の風刺的な展開の中で、あるIIT(インド工科大学)の卒業生が人工知能を活用してカバーレターを作成しようとした結果、大...