システムにエージェントが存在するかを発見する

Discover if there is an agent in the system.

AIエージェントの因果モデリングとそのインセンティブのための新しい形式的な定義が明確な原則を提供

私たちは、意図した目標を追求する安全でアラインメントされた人工汎用知能（AGI）システムを構築したいと考えています。因果関係ダイアグラム（CIDs）は、エージェントのインセンティブについて推論するための意思決定状況をモデル化する方法です。たとえば、次のCIDは、意思決定問題の典型的なフレームワークである1ステップマルコフ意思決定プロセスのCIDです。

S₁は初期状態を表し、A₁はエージェントの意思決定（四角）、S₂は次の状態を表します。R₂はエージェントの報酬/効用（ダイヤモンド）です。実線リンクは因果関係を示し、破線のエッジは情報リンクを示します-エージェントが意思決定を行う際に知っている情報です。

トレーニング設定をエージェントの行動を形成するインセンティブに関連付けることで、CIDsはエージェントの訓練前の潜在的なリスクを明らかにし、より良いエージェント設計のインスピレーションを与えるのに役立ちます。しかし、CIDがトレーニング設定の正確なモデルであるかどうかをどのように知るのでしょうか？

私たちの新しい論文、エージェントの発見は、次の問題に取り組むための新しい方法を紹介しています：

エージェントの最初の形式的な因果的定義：エージェントは、行動が異なる方法で世界に影響を与える場合、ポリシーを適応するシステムです
経験データからエージェントを発見するためのアルゴリズム
因果モデルとCIDsの間の変換
エージェントの因果モデリングの以前の混乱を解決する

これらの結果を組み合わせることで、モデリングの間違いがなされていないことを保証するための追加の保証が提供されます。これにより、CIDsを使用してエージェントのインセンティブと安全性の特性をより自信を持って分析することができます。

例：マウスをエージェントとしてモデリングする

私たちの方法を説明するために、次の例を考えてみましょう。マウスが中央の正方形にいて左または右に進むことを選び、次の位置に到達してからチーズを手に入れる可能性がある世界で構成される例です。床は滑りやすいため、マウスは滑るかもしれません。チーズは時には右にありますが、時には左にあります。

これは、次のCIDで表すことができます：

マウスのCID。Dは左/右の意思決定を表します。Xはマウスが左/右の行動を取った後の新しい位置を示します（間違って反対側に滑ってしまうこともあります）。Uはマウスがチーズを手に入れるかどうかを示します。

マウスが異なる環境設定（凍結度、チーズの分布）に対して異なる行動を選択する直感は、機械化された因果グラフによって捉えることができます。このグラフは、（オブジェクトレベルの）変数ごとに、親に依存する方法を制御するメカニズム変数も含まれています。重要なことは、メカニズム変数間のリンクを許可していることです。

このグラフには、マウスのポリシーや凍結度、チーズの分布を表す黒色の追加メカニズムノードが含まれています。

メカニズム間のエッジは直接の因果関係を表しています。青いエッジは特別な終端エッジであり、おおよそ、オブジェクトレベルの変数Aが出力エッジを持たないように変更されたとしても、メカニズムエッジA〜→B〜は存在し続けるエッジです。

上記の例では、Uには子がいないため、そのメカニズムエッジは終端である必要があります。しかし、メカニズムエッジX〜→D〜は終端ではありません。なぜなら、Xをその子であるUから切り離した場合、マウスはもはや自身の位置がチーズを取得するかどうかに影響を与えないため、意思決定を適応させなくなるからです。

エージェントの因果関係の発見

因果関係の発見は、介入を伴う実験から因果グラフを推論します。特に、変数Aに介入し、他のすべての変数を固定したままであっても、Bが反応するかどうかを実験的に確認することで、変数Aから変数Bへの矢印を発見することができます。

最初のアルゴリズムは、この技術を使用して機械化された因果グラフを発見します:

アルゴリズム1は、システム（マウスとチーズの環境）からの介入データを入力とし、因果関係の発見を使用して機械化された因果グラフを出力します。詳細は論文を参照してください。

2番目のアルゴリズムは、この機械化された因果グラフをゲームグラフに変換します:

アルゴリズム2は、機械化された因果グラフを入力とし、ゲームグラフにマッピングします。入ってくる終端エッジは意思決定を示し、出ていくエッジは効用を示します。

アルゴリズム1に続いてアルゴリズム2を適用することで、因果関係の実験からエージェントを発見し、CIDsを使用してそれらを表現することができます。

3番目のアルゴリズムは、ゲームグラフを機械化された因果グラフに変換し、いくつかの追加の仮定の下でゲームグラフと機械化された因果グラフの表現間を変換します:

アルゴリズム3は、ゲームグラフを入力とし、機械化された因果グラフにマッピングします。意思決定は入ってくる終端エッジを示し、効用は出ていく終端エッジを示します。

AIエージェントをモデル化するためのより良い安全ツール

私たちは、エージェントの最初の形式的な因果定義を提案しました。因果的な発見に基づいている私たちの重要な洞察は、エージェントは、彼らの行動が世界にどのように影響を与えるかが変化するにつれて、その行動を適応させるシステムであるということです。実際、私たちのアルゴリズム1と2は、システムがエージェントを含んでいるかどうかを評価するのに役立つ、正確な実験プロセスを説明しています。

AIシステムの因果モデリングへの関心は急速に高まっており、私たちの研究はこのモデリングを因果的な発見の実験に基づいています。私たちの論文は、いくつかの例のAIシステムの安全性分析の向上を通じて、私たちのアプローチの潜在能力を示し、因果関係がAGIからのリスク評価における重要な懸念であるシステムにエージェントが存在するかどうかを発見するための有用なフレームワークであることを示しています。

さらに詳しく知りたいですか？私たちの論文をご覧ください。フィードバックやコメントは大歓迎です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Technical blog

Was this article helpful?

93 out of 132 found this helpful

システムにエージェントが存在するかを発見する

AIエージェントの因果モデリングとそのインセンティブのための新しい形式的な定義が明確な原則を提供

例：マウスをエージェントとしてモデリングする

エージェントの因果関係の発見

AIエージェントをモデル化するためのより良い安全ツール

Was this article helpful?

AIを活用した亀の顔認識による保全の推進

科学者が本当のスーパーヒーローであることを実感する

AIテクノロジー

従業員のエンゲージメント向上にゲーミフィケーションソフトウェアを使用する：メリットとデメリット

「AIが起業の創造的プロセスをどのように変えるのか」

AIの進歩における倫理的な課題のナビゲーション

世界のトップ10量子コンピューティング企業（2024年）

2023年の最高の6つの人工知能（AI）ETF

ベスト5のPower BIコース（2024年）