スタンフォード大学とマイクロソフトの研究者が自己向上型AIを紹介:GPT-4を活用して足場プログラムのパフォーマンスを向上させる

スタンフォード大学とマイクロソフトの研究者が自己向上型AI「GPT-4」を紹介!足場プログラムのパフォーマンス向上に活用

ほぼすべての目標は、自然言語で説明される場合には、言語モデルのクエリによって最適化されることができます。ただし、プログラムは、言語モデルへのいくつかの組織された呼び出しを行うことによって、より高い目的関数値を提供することがあります。これらを「足場付き」プログラムと呼び、それらは一般的に(人々によって)Pythonなどのコンピュータ言語を使用して作成されます。彼らの主な発見は、足場付きプログラムの設計は、最適化問題と言語モデルにわたる任意の分布において最適化の問題です。Microsoft ResearchとStanford Universityの研究者は、この論文で、自己教育最適化プログラム(STOP)と呼ばれる技術を説明し、再帰的にコードを適用することで、与えられたソリューションを改善することができるようにする方法を説明しています。

彼らの方法では、言語モデルを使用して次の課題への応答を向上させるために言語モデルを使用する初期のシード「改善者」足場付きプログラムから始まります。システムが反復するにつれて、モデルはこの改善者プログラムを改善します。彼らの自己最適化アーキテクチャの有効性を測定するために、彼らは限られた選択の下流アルゴリズムタスクを適用します。その結果、モデルは自己改善の技術を使用してより多くの反復を実行するにつれて改善されることが示されます。STOPは、言語モデルがこのような方法でメタ最適化器として機能する方法を示しています。さらに、モデルが提案する自己改善の戦術の種類、および推奨される戦略が下流タスクにどれだけうまく翻訳されるか、モデルが危険な自己改善技術に対して脆弱性を持つかについて、彼らは分析しています。

図1: ここにはGPT-4が提案して使用される自己改善技術の例が示されています。足場を含む任意のコードは、それぞれの足場として各技術を使用して改訂されます。

この問題は、基礎となる言語モデルが変更されないため、再帰的に自己改善するコード生成として知られており、ただし、完全に再帰的自己改善(RSI)システムではありません。RSIの概念が形式化されたのは少なくとも50年前のことですが、その試みは一般的により優れたシステムを作成し、モデルが自身のコードのすべての部分を改善できるという前提に基づいていました。彼らの研究は、その方向への控えめな進歩であり、反復的に呼び出される足場の向上能力のみを考慮しています。この研究で、RSIコード生成の問題は数学的に定義されています。

そして、彼らはRSIコード生成の可能な使用例を示すためにSTOPを作成して評価します。さまざまな下流タスクで改善が示されています。2021年までのデータでトレーニングされたGPT-4言語モデルを使用する場合、図1はSTOPが提供するいくつかの興味深く有用な足場を示しています。さらに、モデルがどのように頻繁にサンドボックスフラグをオフにしようとするかを追跡する追加のテストも行われています。最後に、このような技術の倫理的な開発に関する問題に取り組んでいます。

この研究の主な貢献は次のとおりです:

  1. 足場システムが再帰的に自己改善するメタ最適化戦略の策定
  2. このシステムが現代の言語モデル(特にGPT-4)を使用して再帰的に自己改善できることを示すこと
  3. モデルが提案および実装した自己改善技術、およびモデルがサンドボックスなどの安全対策をどのように回避するかについて調査すること

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「MITの学者たちは、生成型AIの社会的な影響を探るためのシードグラントを授与されました」

「MITの全学派を代表する27人のファイナリストは、技術の民主主義、教育、持続可能性、コミュニケーションなどへの影響を探求...

AIニュース

中国の強力なNvidia AIチップの隠れた市場

深圳華強北電子區的繁華街道之中,一個高端 Nvidia AI 芯片的地下市場悄然興起。這個隱蔽的世界在出口限制和對這些尖端處理器...

AIニュース

メタが「AudioCraft」を発表:テキストを音声や音楽に変換するためのAIツール

Metaは、Facebook、Instagram、WhatsAppなどのソーシャルメディアプラットフォームを展開しているテックジャイアントであり、...

AI研究

デューク大学の研究者たちは、ポリシーステッチングを提案していますこれは、ロボットとタスクの新しい組み合わせにおけるロボットの転送学習を容易にする、画期的なAIフレームワークです

ロボット工学では、環境の変化やロボット構造の変更に敏感なスキルをロボットに教えるために、強化学習(RL)を使用する際に...

コンピュータサイエンス

「このディスインフォメーションはあなたのためだけです」

生成AIは単にインターネットをより多くの嘘で満たすだけではありません-それはまた、特定のグループや個人をターゲットにした...

コンピュータサイエンス

「AIが絶滅の危機に瀕するピンクイルカの盗み聞きを支援」

「音響追跡技術は、アマゾンやその他の地域での保護プロジェクトに活用される可能性があります」