「ゲームの名門生(SoG)と呼ばれる、新しいAIシステムをチェックしてみてくださいこのシステムは、様々なゲームで人間に勝つことができ、さらに新しいゲームのプレイ方法を学んでいく能力を持っています」
「ゲームの名門生(SoG)と呼ばれる、新しいAIシステムをご紹介!人間に勝利し続けるだけでなく、新しいゲームのプレイ方法も学習する能力を持つ驚異のシステムをチェックしてみてください」
ゲームを人工知能のパフォーマンス指標として使用する伝統が長くあります。検索と学習ベースのアプローチは、さまざまな完全情報ゲームで高い性能を発揮しましたが、ゲーム理論に基づいた手法はいくつかの不完全情報ポーカーバリエーションで高い性能を発揮しました。EquiLibre Technologies、Sony AI、Amii、MidjourneyとGoogleのDeepMindプロジェクトとの協力により、指向性検索、セルフプレイ学習、ゲーム理論的推論を組み合わせ、従来の努力を統一する汎用アルゴリズムであるStudent of Gamesを提案します。高い経験的パフォーマンスを持つStudent of Gamesは、大規模な完全および不完全情報ゲームにおいて、任意の状況に適用可能な普遍的なアルゴリズムを開発するための重要な一歩です。計算力と近似能力の向上により、Student of Gamesは堅牢であり、最終的には完全なプレーを達成します。Student of Gamesはチェスと碁で強力なパフォーマンスを発揮し、ヘッズアップノーリミットテキサスホールデムポーカーで最強の公開可能なエージェントに勝利し、スコットランドヤードの最新技術のエージェントにも勝利します。この不完全情報ゲームは、誘導検索、学習、ゲーム理論的推論の価値を示しています。
人工知能が進歩したことを示すために、コンピュータにボードゲームをプレイする方法を教え、それを向上させて人間を打ち負かすようになりました。この最新の研究により、チームは人工一般知能の創造に向けて大きな進歩を遂げています。コンピュータは以前は不可能と考えられていたタスクを実行できるようになった場合、人工一般知能が作成されます。
ほとんどのボードゲームをプレイするコンピュータは、チェスなどの1つのゲームをプレイするために設計されています。このようなシステムは制約された人工知能の形を作り出しています。この新しいプロジェクトの研究者たちは、多様な能力を必要とするゲームで競争できるインテリジェントシステムを開発しました。
- 「snnTorchとは:スパイキングニューラルネットワークを利用した勾配ベースの学習を行うためのオープンソースのPythonパッケージ」
- ハイパーヒューマンに会ってください:潜在的な構造拡散を用いたハイパーリアルな人間生成のための新しいAIフレームワーク
- 「SnapLogicがAmazon Bedrockを使用してテキストからパイプラインアプリケーションを構築し、ビジネスの意図を行動に変換します」
SoG(”Student Of Games”)とは何ですか?
検索、学習、ゲーム理論的分析を1つのアルゴリズムに組み合わせたSoGは、多くの実用的な応用があります。SoGには、CVPNの学習と音響セルフプレイを含むGT-CFR(Growing-Tree Counterfactual Regret Minimization)技術があります。特に、SoGは最適および非最適情報ゲームに対する信頼性の高いアルゴリズムです:コンピュータリソースが向上するにつれて、SoGは最小最適技術のより良い近似値を生成することが保証されています。この発見は、検索を使用してテスト時の近似の改善につながるので、純粋な強化学習システムでは使用されないLeducポーカーなどで経験的にも証明されています。
なぜSoGは非常に効果的なのですか?
SoGは、Growing-Tree Counterfactual Regret Minimization(GT-CFR)と呼ばれる手法を使用しています。これはローカルな検索の形式であり、いつでも実行でき、最も重要な将来の状態と関連づけられる最も重要なサブゲームの重みを増やすために非均一なサブゲームの構築を行います。さらに、SoGはサウンドセルフプレイという学習技術も使用しており、ゲーム結果と以前の検索で発見されたシナリオへの再帰的なサブサーチに基づいて、バリューアンドポリシーネットワークをトレーニングします。どんな状況で学習できる普遍的なアルゴリズムへの重要な一歩として、SoGは完全および不完全情報を持つ複数の問題領域で良好なパフォーマンスを示します。不完全情報ゲームでは、標準的な検索アプリケーションがよく知られた問題に直面します。
アルゴリズムの概要
SoGメソッドは、エージェントに指示するためにサウンドセルフプレイを使用します。各プレーヤーは選択する際に、ウェルチューンドのGT-CFR検索とCVPNを組み合わせて現在の状態のポリシーを生成し、それをランダムに使用してアクションをサンプリングします。GT-CFRは現在の公的な状態で始まり、成熟したツリーで終わる2段階のプロセスです。現在の公的なツリーのCFRは、後悔更新フェーズで更新されます。エクスパンションフェーズでは、シミュレーションに基づいたエクスパンション軌跡を使用してツリーに新しい一般形が追加されます。GT-CFRの反復には、一連の後悔更新フェーズの実行と一連のエクスパンションフェーズの実行が含まれます。
バリューアンドポリシーネットワークのトレーニングデータは、セルフプレイのプロセス全体で生成されます:検索クエリ(GT-CFRの後悔更新フェーズでCVPNがクエリされる公共信念状態)と完全なゲームトラジェクトリです。検索クエリは、カウンターファクチュアルな価値目標に基づいてバリューネットワークを更新するために解決されなければなりません。ポリシーネットワークは、完全なゲームトラジェクトリから派生したターゲットに対して調整できます。アクターはセルフプレイデータを作成し(および問い合わせに回答する)、トレーナーは新しいネットワークを発見して実装し、時折アクターをリフレッシュします。
いくつかの制限事項
- ポーカーのベッティング抽象化の使用は、広大なアクション空間に対して一般的なアクション削減ポリシーに置き換えることが考えられます。
- ワールドステートをサンプリングし、サンプリングされたサブセットで動作する生成モデルをSoGに近似できる場合、現在のSoGは情報ごとに列挙することを必要とするため、いくつかのゲームでは高価になる可能性があります。
- チャレンジドメインでの強力なパフォーマンスには、しばしば大量の計算リソースが必要です。このレベルのパフォーマンスがより少ないリソースで達成可能かどうかは興味深い問題です。
研究チームは、自己学習能力を持つため、ほぼ全ての種類のゲームをプレイする方法を自力で習得する潜在能力を持っていると考えています。すでに、囲碁、チェス、スコットランドヤード、テキサスホールデムポーカーなどで、競合するAIシステムや人間に勝利しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- アイドルアプリの自動シャットダウンを使用して、Amazon SageMaker Canvasのコストを最適化する
- 「アマゾンベッドロックを使った商品説明の自動生成」
- 「Amazon SageMaker Studioを使用してBMWグループのAI/MLの開発を加速」
- ID対マルチモーダル推奨システム:転移学習の視点
- 「AI/MLツールとフレームワーク:包括的な比較ガイド」
- 私の記事を読むと、あなた方は私がどれだけ美容とファッションについての知識を持っているかがわかるでしょう私は美容とファッションの分野において豊富な知識を持ち、それについて生き生きとした記事を書くことができます
- ソフトウェアエンジニアリングの未来 生成AIによる変革