正しい報酬によって望ましくない目標が生じる方法

'望ましくない目標の原因'

目標の誤一般化に関する例を探索する – AIシステムの能力が一般化するが、目標が一般化しない場合

私たちがますます高度な人工知能（AI）システムを構築するにつれて、望ましくない目標を追求しないようにしたいと考えています。AIエージェントのこのような行動は、仕様のゲーミングによってしばしば引き起こされます – 報酬の選択が不適切な場合に利用されます。私たちの最新の論文では、AIシステムが意図しない目標を追求するように誤って学習する可能性のある、より微妙なメカニズムである目標の誤一般化（GMG）を探求しています。

GMGは、システムの能力が望ましいように一般化される一方で、目標が望ましいように一般化されない場合に発生します。そのため、システムは間違った目標を達成する能力を持っています。重要なことに、仕様のゲーミングとは異なり、GMGはAIシステムが正しい仕様で訓練されている場合でも発生する可能性があります。

私たちの以前の文化的伝達に関する研究は、私たちが設計しなかったGMGの行動の例を示しました。環境内で移動し、正しい順序で色付きの球を訪れる必要があるエージェント（青いブロブ）があります。訓練中には、正しい順序で色付きの球を訪れる「エキスパート」エージェント（赤いブロブ）が存在します。エージェントは、赤いブロブに従うことが報酬のある戦略であることを学習します。

エージェント（青）は、どの球に行くかを決定するためにエキスパート（赤）を見ています。

残念ながら、エージェントは訓練中にはうまく機能しますが、訓練後にエキスパートを「反エキスパート」と置き換えると、うまくいきません。

エージェント（青）は、アンチエキスパート（赤）に従って、ネガティブな報酬を蓄積します。

エージェントはネガティブな報酬を得ていることを観察できるにもかかわらず、エージェントは「正しい順序で球を訪れる」という望ましい目標を追求せず、代わりに「赤いエージェントに従う」という目標をコンピテントに追求します。

GMGは、このような強化学習環境に限定されるものではありません。実際、大規模な言語モデル（LLM）の「フューショット学習」を含む任意の学習システムで発生する可能性があります。フューショット学習アプローチは、少ない訓練データで正確なモデルを構築することを目指しています。

私たちは、LLMのGopherというモデルに、x+y-3などの未知の変数と定数を含む線形式の評価を求めました。これらの式を解くために、Gopherはまず未知の変数の値について質問をする必要があります。私たちは、2つの未知の変数を含む10の訓練例を提供しました。

テスト時には、モデルには未知の変数が0個、1個、または3個含まれる質問が与えられます。モデルは1個または3個の未知の変数を含む式に対して正しく一般化しますが、未知の変数がない場合でも、「6は何ですか？」などの冗長な質問をすることがあります。モデルは、必要ない場合でも、回答をする前に少なくとも1回ユーザーに質問をします。

評価式のフューショット学習におけるGopherとの対話で、GMGの振る舞いがハイライトされています。

私たちの論文では、他の学習設定での追加の例を提供しています。

GMGに取り組むことは、AIシステムを設計者の目標に合わせるために重要です。なぜなら、これはAIシステムが誤作動する可能性のあるメカニズムだからです。特に人工汎用知能（AGI）に近づくにつれて、これは非常に重要になります。

次の2つのAGIシステムの可能性を考えてみましょう：

A1：意図されたモデル。このAIシステムは、設計者の意図する通りに動作します。
A2：欺瞞的モデル。このAIシステムは、望ましくない目標を追求しますが、（仮定により）設計者の意図に反する行動を取ると罰せられることを十分に理解しています。

A1とA2はトレーニング中に同じ行動を示すため、GMGの可能性があることは、意図した行動のみを報酬とする仕様でもどちらのモデルでも形成される可能性があることを意味します。A2が学習されると、望ましくない目標に向けて計画を実行するために、人間の監視を逃れようとするでしょう。

私たちの研究チームは、GMGが実際に発生する可能性と、可能な緩和策についての追加の研究を見ることを望んでいます。私たちの論文では、機械的な解釈可能性と再帰的な評価などのアプローチを提案しており、これらに積極的に取り組んでいます。

‍

現在、この公開されているスプレッドシートでGMGの例を収集しています。AI研究で目標の誤解釈に遭遇した場合は、こちらで例を提出していただければと思います。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Technical blog

Was this article helpful?

93 out of 132 found this helpful

正しい報酬によって望ましくない目標が生じる方法

目標の誤一般化に関する例を探索する – AIシステムの能力が一般化するが、目標が一般化しない場合

Was this article helpful?

AIモデルの知覚を測定する

AlphaTensorを使用して新しいアルゴリズムを発見する

AIテクノロジー

「今日のビジネスの風景におけるプロフェッショナルな提案の力」

「機械学習の未来：新興トレンドと機会」

2023年にリモートジョブを見つけるための最高のプラットフォーム

「AIは善良な存在です：その理由」

「リターンオファーを得る方法」 (リターンオファーをえるほうほう)

「金融ソフトウェア開発の世界：財務ソリューションの創造」