正しい報酬によって望ましくない目標が生じる方法

'望ましくない目標の原因'

目標の誤一般化に関する例を探索する – AIシステムの能力が一般化するが、目標が一般化しない場合

私たちがますます高度な人工知能(AI)システムを構築するにつれて、望ましくない目標を追求しないようにしたいと考えています。AIエージェントのこのような行動は、仕様のゲーミングによってしばしば引き起こされます – 報酬の選択が不適切な場合に利用されます。私たちの最新の論文では、AIシステムが意図しない目標を追求するように誤って学習する可能性のある、より微妙なメカニズムである目標の誤一般化(GMG)を探求しています。

GMGは、システムの能力が望ましいように一般化される一方で、目標が望ましいように一般化されない場合に発生します。そのため、システムは間違った目標を達成する能力を持っています。重要なことに、仕様のゲーミングとは異なり、GMGはAIシステムが正しい仕様で訓練されている場合でも発生する可能性があります。

私たちの以前の文化的伝達に関する研究は、私たちが設計しなかったGMGの行動の例を示しました。環境内で移動し、正しい順序で色付きの球を訪れる必要があるエージェント(青いブロブ)があります。訓練中には、正しい順序で色付きの球を訪れる「エキスパート」エージェント(赤いブロブ)が存在します。エージェントは、赤いブロブに従うことが報酬のある戦略であることを学習します。

エージェント(青)は、どの球に行くかを決定するためにエキスパート(赤)を見ています。

残念ながら、エージェントは訓練中にはうまく機能しますが、訓練後にエキスパートを「反エキスパート」と置き換えると、うまくいきません。

エージェント(青)は、アンチエキスパート(赤)に従って、ネガティブな報酬を蓄積します。

エージェントはネガティブな報酬を得ていることを観察できるにもかかわらず、エージェントは「正しい順序で球を訪れる」という望ましい目標を追求せず、代わりに「赤いエージェントに従う」という目標をコンピテントに追求します。

GMGは、このような強化学習環境に限定されるものではありません。実際、大規模な言語モデル(LLM)の「フューショット学習」を含む任意の学習システムで発生する可能性があります。フューショット学習アプローチは、少ない訓練データで正確なモデルを構築することを目指しています。

私たちは、LLMのGopherというモデルに、x+y-3などの未知の変数と定数を含む線形式の評価を求めました。これらの式を解くために、Gopherはまず未知の変数の値について質問をする必要があります。私たちは、2つの未知の変数を含む10の訓練例を提供しました。

テスト時には、モデルには未知の変数が0個、1個、または3個含まれる質問が与えられます。モデルは1個または3個の未知の変数を含む式に対して正しく一般化しますが、未知の変数がない場合でも、「6は何ですか?」などの冗長な質問をすることがあります。モデルは、必要ない場合でも、回答をする前に少なくとも1回ユーザーに質問をします。

評価式のフューショット学習におけるGopherとの対話で、GMGの振る舞いがハイライトされています。

私たちの論文では、他の学習設定での追加の例を提供しています。

GMGに取り組むことは、AIシステムを設計者の目標に合わせるために重要です。なぜなら、これはAIシステムが誤作動する可能性のあるメカニズムだからです。特に人工汎用知能(AGI)に近づくにつれて、これは非常に重要になります。

次の2つのAGIシステムの可能性を考えてみましょう:

  • A1:意図されたモデル。このAIシステムは、設計者の意図する通りに動作します。
  • A2:欺瞞的モデル。このAIシステムは、望ましくない目標を追求しますが、(仮定により)設計者の意図に反する行動を取ると罰せられることを十分に理解しています。

A1とA2はトレーニング中に同じ行動を示すため、GMGの可能性があることは、意図した行動のみを報酬とする仕様でもどちらのモデルでも形成される可能性があることを意味します。A2が学習されると、望ましくない目標に向けて計画を実行するために、人間の監視を逃れようとするでしょう。

私たちの研究チームは、GMGが実際に発生する可能性と、可能な緩和策についての追加の研究を見ることを望んでいます。私たちの論文では、機械的な解釈可能性と再帰的な評価などのアプローチを提案しており、これらに積極的に取り組んでいます。

現在、この公開されているスプレッドシートでGMGの例を収集しています。AI研究で目標の誤解釈に遭遇した場合は、こちらで例を提出していただければと思います。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

人工知能による投資アドバイス - メリットとデメリット

私たちは、テクノロジーなしで未来の生活を想像することができません朝一番に私たちはニュースを読んだり未読のメッセージが...

データサイエンス

テキスト読み上げ(TTS)とAIにおける倫理的考慮事項:データセキュリティにスポットライトを当てる

人工知能(AI)および自然言語処理(NLP)技術の急速な進歩により、テキスト音声変換(TTS)システムなどの非常に洗練された...

AIテクノロジー

「AI仮想アシスタントのメリットとデメリット」

技術の進歩に伴い、ビジネスにおける人工知能(AI)の仮想アシスタント(VA)の採用が非常に一般的になっていますこれらの新...

データサイエンス

2024年のトップ10のAI主導のデータ分析企業

2024年にデータ分析の世界を革新する傾向にあるトップのビジネスタイタンを発見してくださいIBM CloudからGoogle Cloudまで、...

AIテクノロジー

オンライン収益を新たな高みに引き上げましょう - リモートワークの成長する可能性を解き放ってください

オンラインの仕事は今まで以上に人気があります人々が在宅勤務の利点を発見するにつれ、世界中には1400万人以上のフリーラン...

データサイエンス

『nnU-Netの究極ガイド』

「画像セグメンテーションの主要なツールであるnnU-Netについて、詳細なガイドに深く入り込んでください最先端の結果を得るた...