人間中心のメカニズム設計とデモクラティックAI
'Human-centered Mechanism Design and Democratic AI'
最近の我々の論文、Nature Human Behaviourに掲載されたものでは、ディープ強化学習(RL)を使用して、シンプルなゲームにおいて過半数の人々が賛成する経済政策を見つけることができることを概念実証で示しています。この論文は、AI研究における重要な課題である、人間の価値と一致したAIシステムの訓練方法について取り上げています。
一群の人々が資金を集めて投資をすることを想像してみてください。その投資が成功し、利益が出た場合、その利益はどのように分配されるべきでしょうか?一つのシンプルな戦略は、利益を投資家全員で均等に分けることです。しかし、それは不公平かもしれません。なぜなら、一部の人々が他の人々よりも多く貢献したかもしれないからです。また別の方法として、初期投資の大きさに比例して全員にお金を返すことが考えられます。これは公平に聞こえますが、最初から資産のレベルが異なる人々がいる場合はどうでしょうか?同じ金額を投資する2人がいたとしても、一人は利用可能な資金の一部を提供している一方、もう一人はすべてを提供している場合、彼らは同じ割合で利益を受け取るべきでしょうか?
私たちの経済や社会での資源再分配の問題は、長い間哲学者、経済学者、政治学者の間で議論を呼んできました。ここでは、ディープ強化学習をテストベッドとして使用して、この問題に対処する方法を探求しています。
この課題に取り組むために、4人のプレイヤーが参加するシンプルなゲームを作成しました。ゲームは10ラウンドでプレイされます。各ラウンドで、各プレイヤーに資金が割り当てられ、初期資本もプレイヤーごとに異なります。各プレイヤーは選択肢を持ちます:その資金を自分自身のために保持するか、共同プールに投資するか。投資された資金は増えることが保証されていますが、利益の分配方法はプレイヤーには分かりません。代わりに、最初の10ラウンドでは審判(A)が再分配の決定をし、次の10ラウンドでは別の審判(B)が引き継ぐと告げられます。ゲームの終了時に、プレイヤーはAまたはBを選んで投票し、この審判との別のゲームをプレイします。ゲームの人間プレイヤーは最終ゲームの利益を保持することが許されているため、自分の選択を正確に報告するようインセンティブが与えられます。
実際には、審判の一人は事前に定義された再分配ポリシーであり、もう一人は私たちのディープ強化学習エージェントによって設計されました。エージェントを訓練するために、まず多数の人間グループからデータを収集し、ニューラルネットワークによって人々がゲームをプレイする方法を模倣するよう教えました。このシミュレーション人口は無限のデータを生成できるため、データ集約型の機械学習手法を使用して、RLエージェントを訓練し、これらの「仮想」プレイヤーの投票を最大化するようにしました。その後、新たな人間プレイヤーを募集し、AIによって設計されたメカニズムを、資金の貢献に比例して人々に返還するリバタリアンポリシーなどの既知のベースラインと対決させました。
これらの新しいプレイヤーの投票を調査したところ、ディープ強化学習によって設計されたポリシーがベースラインよりも人気があることがわかりました。実際、私たちは新しい実験を実施し、第5の人間プレイヤーに審判の役割を引き受けてもらい、彼らに投票数を最大化しようと訓練させたところ、この「人間審判」によるポリシーは私たちのエージェントよりも人気がなかったです。
AIシステムは、人間の価値とは互換性のないポリシーを学習することがあると批判されることがあり、この「価値の整合性」の問題はAI研究での主要な関心事となっています。私たちのアプローチの一つの利点は、AIが人々の明示的な選好(または投票)を最大化するように直接学習することです。このアプローチは、AIシステムが安全や公平でないポリシーを学習する可能性を低減するのに役立つかもしれません。実際、私たちが発見したAIのポリシーを分析したところ、それは再分配問題を解決するために以前に人間の思想家や専門家によって提案されたアイデアの混合物を組み込んでいました。
まず、AIは絶対的な貢献ではなく相対的な貢献に基づいて資金を人々に再分配することを選びました。つまり、資金の再分配時には、各プレイヤーの初期資本と貢献の意欲を考慮しています。第二に、AIシステムは特に相対的な貢献がより寛大なプレイヤーに報酬を与え、他の人々にも同様にするよう促しました。重要なことは、AIは人間の投票を最大化することを学ぶことで、これらのポリシーを発見したということです。この方法により、人間が「ループ」に残り、AIが人間との互換性のある解決策を生み出すことが保証されます。
人々に投票するよう求めることで、多数派の民主主義の原則を利用して、人々の希望を決定することができました。その広い魅力にもかかわらず、多数派の好みが少数派の好みよりも優先されるという議論は広く認められています。私たちの研究では、少数派がより寛大に資金を提供しているプレイヤーであるように、社会のほとんどでのように、少数派を設定しています。しかし、多数派と少数派の相対的な好みをどのようにトレードオフするかを理解するためには、全ての声が聞かれる民主的なシステムを設計するためのさらなる研究が必要です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles