新たな能力が明らかに：GPT-4のような成熟したAIのみが自己改善できるのか？言語モデルの自律的成長の影響を探る

New discovery Can only mature AI like GPT-4 self-improve? Exploring the impact of autonomous growth of language models.

研究者たちは、AlphaGo Zeroと同様に、明確に定義されたルールで競争的なゲームに反復的に参加することによってAIエージェントが自己発展する場合、多くの大規模言語モデル（LLM）が人間の関与がほとんどない交渉ゲームでお互いを高め合う可能性があるかどうかを調査しています。この研究の結果は、遠い影響を与えるでしょう。エージェントが独立に進歩できる場合、少数の人間の注釈で強力なエージェントを構築することができるため、今日のデータに飢えたLLMトレーニングに対して対照的です。それはまた、人間の監視がほとんどない強力なエージェントを示唆しており、問題があります。この研究では、エジンバラ大学とAIアレン研究所の研究者が、顧客と売り手の2つの言語モデルを招待して購入の交渉を行うようにしています。

**図1：**交渉ゲームの設定。彼らは2つのLLMエージェントを招待して、値切りのゲームで売り手と買い手をプレイさせます。彼らの目標は、より高い値段で製品を販売または購入することです。彼らは第三のLLMであるAI批評家に、ラウンド後に向上させたいプレイヤーを指定してもらいます。その後、批判に基づいて交渉戦術を調整するようにプレイヤーに促します。これを数ラウンド繰り返すことで、モデルがどんどん上達するかどうかを確認します。

顧客は製品の価格を下げたいと思っていますが、売り手はより高い価格で販売するように求められています（図1）。彼らは第三の言語モデルに批評家の役割を担ってもらい、取引が成立した後にプレイヤーにコメントを提供させます。次に、批評家LLMからのAI入力を利用して、再度ゲームをプレイし、プレイヤーにアプローチを改善するように促します。彼らは交渉ゲームを選んだ理由は、明確に定義されたルールと、戦術的な交渉のための特定の数量化目標（より低い/高い契約価格）があるためです。ゲームは最初は単純に見えますが、モデルは次の能力を持っている必要があります。

交渉ゲームのテキストルールを明確に理解し、厳密に遵守すること。
批評家LLMによって提供されるテキストフィードバックに対応し、反復的に改善すること。
長期的にストラテジーとフィードバックを反映し、複数のラウンドで改善すること。

彼らの実験では、モデルget-3.5-turbo、get-4、およびClaude-v1.3のみが交渉ルールと戦略を理解し、AIの指示に適切に合致している必要があるという要件を満たしています。その結果、彼らが考慮したモデルすべてがこれらの能力を示さなかったことが示されています（図2）。初めに、彼らはボードゲームやテキストベースのロールプレイングゲームなど、より複雑なテキストゲームもテストしましたが、エージェントがルールを理解して遵守することがより困難であることが判明しました。彼らの方法はICL-AIF（AIフィードバックからのコンテキスト学習）として知られています。

**図2：**私たちのゲームで必要な能力に基づいて、モデルは複数の階層に分けられます（C2-交渉、C3-AIフィードバック、C4-継続的な改善）。私たちの研究は、gpt-4やclaude-v1.3などの堅牢で適切に合致したモデルだけが反復的なAI入力から利益を得て、常に発展することができることを明らかにしています。

彼らは、AI批評家のコメントと前回の対話履歴ラウンドをコンテキストに応じたデモンストレーションとして利用しています。これにより、プレイヤーの前回の実際の開発と批評家の変更アイデアが、次のラウンドの交渉のためのフューショットキューに変換されます。2つの理由から、彼らはコンテキストでの学習を使用しています：(1)強化学習を用いた大規模な言語モデルの微調整は、高額であるため、(2)コンテキストでの学習は、勾配降下に密接に関連していることが最近示されたため、モデルの微調整を行う場合には、彼らが引き出す結論がかなり一般的になることが期待されます(資源が許される場合)。

人間からのフィードバックによる強化学習(RLHF)の報酬は通常スカラーですが、ICL-AIFでは、フィードバックが自然言語で提供されます。これは、2つのアプローチの注目すべき違いです。各ラウンド後に人間の相互作用に依存する代わりに、よりスケーラブルでモデルの進歩に役立つAIのフィードバックを検討しています。

異なる責任を負うときにフィードバックを与えられた場合、モデルは異なる反応を示します。バイヤー役のモデルを改善することは、ベンダー役のモデルよりも難しい場合があります。過去の知識とオンライン反復的なAIフィードバックを利用して、get-4のような強力なエージェントが常に意味のある開発を続けることができるとしても、何かをより高く売る(またはより少ないお金で何かを購入する)ことは、全く取引が成立しないリスクがあります。彼らはまた、モデルがより簡潔であるがより綿密(そして最終的にはより成功する)交渉に従事できることを証明しています。全体的に、彼らは自分たちの仕事がAIフィードバックのゲーム環境での言語モデルの交渉を向上させる重要な一歩になると期待しています。コードはGitHubで利用可能です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

新たな能力が明らかに：GPT-4のような成熟したAIのみが自己改善できるのか？言語モデルの自律的成長の影響を探る

Was this article helpful?

エンジニアリングリーダーは何を気にしているのか？

2023年の製品マネージャーにとって最高のAIツール

機械学習

「ディープマインドのアルファコードの力を解き放つ：コードライティングの革命」

スケーリングダウン、スケーリングアップ：モデルの量子化での生成AIのマスタリング

「NVIDIA、ワシントンのAIの安全性確保の取り組みを支援」

開発者の皆さんへ：ダイアグラムはそんなに複雑である必要はありません

「データストーリーテリングとアナリティクスにおける生成AIのインパクトの公開」

「伝統的な機械学習はまだ重要ですか？」