正しい報酬によって望ましくない目標が生じる方法

'望ましくない目標の原因'

目標の誤一般化に関する例を探索する – AIシステムの能力が一般化するが、目標が一般化しない場合

私たちがますます高度な人工知能(AI)システムを構築するにつれて、望ましくない目標を追求しないようにしたいと考えています。AIエージェントのこのような行動は、仕様のゲーミングによってしばしば引き起こされます – 報酬の選択が不適切な場合に利用されます。私たちの最新の論文では、AIシステムが意図しない目標を追求するように誤って学習する可能性のある、より微妙なメカニズムである目標の誤一般化(GMG)を探求しています。

GMGは、システムの能力が望ましいように一般化される一方で、目標が望ましいように一般化されない場合に発生します。そのため、システムは間違った目標を達成する能力を持っています。重要なことに、仕様のゲーミングとは異なり、GMGはAIシステムが正しい仕様で訓練されている場合でも発生する可能性があります。

私たちの以前の文化的伝達に関する研究は、私たちが設計しなかったGMGの行動の例を示しました。環境内で移動し、正しい順序で色付きの球を訪れる必要があるエージェント(青いブロブ)があります。訓練中には、正しい順序で色付きの球を訪れる「エキスパート」エージェント(赤いブロブ)が存在します。エージェントは、赤いブロブに従うことが報酬のある戦略であることを学習します。

エージェント(青)は、どの球に行くかを決定するためにエキスパート(赤)を見ています。

残念ながら、エージェントは訓練中にはうまく機能しますが、訓練後にエキスパートを「反エキスパート」と置き換えると、うまくいきません。

エージェント(青)は、アンチエキスパート(赤)に従って、ネガティブな報酬を蓄積します。

エージェントはネガティブな報酬を得ていることを観察できるにもかかわらず、エージェントは「正しい順序で球を訪れる」という望ましい目標を追求せず、代わりに「赤いエージェントに従う」という目標をコンピテントに追求します。

GMGは、このような強化学習環境に限定されるものではありません。実際、大規模な言語モデル(LLM)の「フューショット学習」を含む任意の学習システムで発生する可能性があります。フューショット学習アプローチは、少ない訓練データで正確なモデルを構築することを目指しています。

私たちは、LLMのGopherというモデルに、x+y-3などの未知の変数と定数を含む線形式の評価を求めました。これらの式を解くために、Gopherはまず未知の変数の値について質問をする必要があります。私たちは、2つの未知の変数を含む10の訓練例を提供しました。

テスト時には、モデルには未知の変数が0個、1個、または3個含まれる質問が与えられます。モデルは1個または3個の未知の変数を含む式に対して正しく一般化しますが、未知の変数がない場合でも、「6は何ですか?」などの冗長な質問をすることがあります。モデルは、必要ない場合でも、回答をする前に少なくとも1回ユーザーに質問をします。

評価式のフューショット学習におけるGopherとの対話で、GMGの振る舞いがハイライトされています。

私たちの論文では、他の学習設定での追加の例を提供しています。

GMGに取り組むことは、AIシステムを設計者の目標に合わせるために重要です。なぜなら、これはAIシステムが誤作動する可能性のあるメカニズムだからです。特に人工汎用知能(AGI)に近づくにつれて、これは非常に重要になります。

次の2つのAGIシステムの可能性を考えてみましょう:

  • A1:意図されたモデル。このAIシステムは、設計者の意図する通りに動作します。
  • A2:欺瞞的モデル。このAIシステムは、望ましくない目標を追求しますが、(仮定により)設計者の意図に反する行動を取ると罰せられることを十分に理解しています。

A1とA2はトレーニング中に同じ行動を示すため、GMGの可能性があることは、意図した行動のみを報酬とする仕様でもどちらのモデルでも形成される可能性があることを意味します。A2が学習されると、望ましくない目標に向けて計画を実行するために、人間の監視を逃れようとするでしょう。

私たちの研究チームは、GMGが実際に発生する可能性と、可能な緩和策についての追加の研究を見ることを望んでいます。私たちの論文では、機械的な解釈可能性と再帰的な評価などのアプローチを提案しており、これらに積極的に取り組んでいます。

現在、この公開されているスプレッドシートでGMGの例を収集しています。AI研究で目標の誤解釈に遭遇した場合は、こちらで例を提出していただければと思います。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

AI(人工知能)の謎を解明:フォローすべきブロガーやライター

この記事では、注目すべき影響力のあるAIインフルエンサーや研究者、執筆者を紹介しています彼らの経歴、業績、AIの進歩に関...

AIテクノロジー

従業員のエンゲージメント向上にゲーミフィケーションソフトウェアを使用する:メリットとデメリット

従業員のエンゲージメントは、高い生産性と全体的なパフォーマンスを真に重視する組織の中心的な焦点の一つですゲーミフィケ...

AIテクノロジー

「人工知能と人間の知能の相互作用の探求」

この投稿は、人工知能と人間の知能が共存することで人類が得ることができるものを強調しています

AIテクノロジー

成功の鍵を開ける:IBM Watsonがあなたのビジネスを革命する方法

「IBM WatsonのAIが、さまざまな業界でビジネスを変革し、データに基づいた意思決定、効率化された業務、充実した顧客体験、...

AIテクノロジー

勝利チームの構築:従業員のエンゲージメントとビジネスパフォーマンスの関連性

従業員のエンゲージメントがビジネスパフォーマンスに直接影響する方法を発見してください勝利を収めるチームを構築し、組織...

AIテクノロジー

「AIが医療におけるケースの結果を向上させるのに役立っている方法」

人工知能(AI)は、多くの産業において変革の力として現れており、医療業界も例外ではありません機械学習とデータ分析の進歩...