一般的なエージェント

'generic agent' in English.

大規模な言語モデリングの進展に触発されて、私たちはテキスト出力の範囲を超えた単一の汎用エージェントの構築に同様のアプローチを適用しています。私たちはこのエージェントを「Gato」と呼んでおり、マルチモーダル、マルチタスク、マルチエンボディメントの汎用ポリシーとして機能します。同じネットワークと同じ重みを使用して、GatoはAtariをプレイしたり、画像のキャプションを作成したり、チャットしたり、実際のロボットアームを使ってブロックを積み上げたりすることができます。Gatoは文脈に基づいて、テキスト、関節トルク、ボタンの押下、その他のトークンを出力するかどうかを決定します。

Gatoのトレーニングフェーズでは、異なるタスクとモダリティのデータがトークンのフラットなシーケンスにシリアル化され、バッチ処理され、大規模言語モデルに似たトランスフォーマーニューラルネットワークによって処理されます。損失はマスクされているため、Gatoはアクションとテキストのターゲットのみを予測します。

Gatoを展開する際には、デモなどのプロンプトがトークン化され、初期シーケンスが形成されます。次に、環境から最初の観測値が生成され、これもトークン化されてシーケンスに追加されます。Gatoはアクションベクトルをトークンごとに自己回帰的にサンプリングします。

アクションベクトルを構成するすべてのトークンがサンプリングされると(環境のアクション仕様によって決まる)、アクションがデコードされて環境に送信され、環境はステップして新しい観測値を生成します。そして手順が繰り返されます。モデルは常に、1024トークンのコンテキストウィンドウ内のすべての直前の観測値とアクションを参照します。

Gatoは、シミュレートされた環境と実世界の環境の両方でのエージェントの経験、さらにさまざまな自然言語と画像のデータセットを含む大量のデータセットでトレーニングされます。事前学習済みのGatoモデルのパフォーマンスがエキスパートスコアの一定の割合を超えるタスクの数は、ドメインごとにグループ化されてここに示されています。

以下の画像は、同じ重みを持つ事前学習済みのGatoモデルが画像キャプション作成、対話の展開、ロボットアームの制御など、多くのタスクを実行できることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「勉強ルーティンにおけるワードウォールの創造的な活用法トップ10」

「ワードウォールは、勉強を効果的に進め、学習成果を高めるための素晴らしいツールです通常は小学校の教室で使用されますが...

AIテクノロジー

「ジェネレーティブAI(2024)の10の重要ポイント」

「2023年、生成AIの世界に飛び込み、その応用、影響、そして将来の課題についての洞察を得ましょう」

AIテクノロジー

コールセンターを外部委託するメリット:コスト削減とそれ以上

企業は常に効率を最大化しリソースを最適化する方法を求めています多くの企業が採用している重要な戦略的な選択肢の一つは、...

AIテクノロジー

「AIが起業の創造的プロセスをどのように変えるのか」

人工知能(AI)は数十年前から存在しており、最初のバージョンは1955年に登場しましたそれ以来、さまざまな業界で進歩と統合...

AIテクノロジー

AI(人工知能)の謎を解明:フォローすべきブロガーやライター

この記事では、注目すべき影響力のあるAIインフルエンサーや研究者、執筆者を紹介しています彼らの経歴、業績、AIの進歩に関...

データサイエンス

最適なデータ統合アプローチを選ぶためのガイド' (Saiteki na dēta tōgō apurōchi wo erabu tame no gaido)

エンタープライズは、アクション可能な洞察を開示し、意思決定を改善し、イノベーションを推進するために、シームレスなデー...