一般的なエージェント

'generic agent' in English.

大規模な言語モデリングの進展に触発されて、私たちはテキスト出力の範囲を超えた単一の汎用エージェントの構築に同様のアプローチを適用しています。私たちはこのエージェントを「Gato」と呼んでおり、マルチモーダル、マルチタスク、マルチエンボディメントの汎用ポリシーとして機能します。同じネットワークと同じ重みを使用して、GatoはAtariをプレイしたり、画像のキャプションを作成したり、チャットしたり、実際のロボットアームを使ってブロックを積み上げたりすることができます。Gatoは文脈に基づいて、テキスト、関節トルク、ボタンの押下、その他のトークンを出力するかどうかを決定します。

Gatoのトレーニングフェーズでは、異なるタスクとモダリティのデータがトークンのフラットなシーケンスにシリアル化され、バッチ処理され、大規模言語モデルに似たトランスフォーマーニューラルネットワークによって処理されます。損失はマスクされているため、Gatoはアクションとテキストのターゲットのみを予測します。

Gatoを展開する際には、デモなどのプロンプトがトークン化され、初期シーケンスが形成されます。次に、環境から最初の観測値が生成され、これもトークン化されてシーケンスに追加されます。Gatoはアクションベクトルをトークンごとに自己回帰的にサンプリングします。

アクションベクトルを構成するすべてのトークンがサンプリングされると(環境のアクション仕様によって決まる)、アクションがデコードされて環境に送信され、環境はステップして新しい観測値を生成します。そして手順が繰り返されます。モデルは常に、1024トークンのコンテキストウィンドウ内のすべての直前の観測値とアクションを参照します。

Gatoは、シミュレートされた環境と実世界の環境の両方でのエージェントの経験、さらにさまざまな自然言語と画像のデータセットを含む大量のデータセットでトレーニングされます。事前学習済みのGatoモデルのパフォーマンスがエキスパートスコアの一定の割合を超えるタスクの数は、ドメインごとにグループ化されてここに示されています。

以下の画像は、同じ重みを持つ事前学習済みのGatoモデルが画像キャプション作成、対話の展開、ロボットアームの制御など、多くのタスクを実行できることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

2023年の最も人気のあるプロフェッショナルコース

専門的なコースを通じて新しいスキルと知識を習得することの重要性は前例のないレベルに達しています詳しくはこちらをご覧く...

AIニュース

2023年の最高のサイバーセキュリティニュースレター

サイバーセキュリティのニュースレターは、幅広いトピックをカバーし、さまざまな読者のニーズに対応していますこの分野で先...

AIテクノロジー

「2023年に注目すべき10の環境テック企業」

これらの企業の力は、環境技術セクター内でのポジティブな変革を推進する能力を具体化しています

AIテクノロジー

「ベストのTableauコース(2023年)」

「これらの自己ペースで進める業界主導のTableauコースは、デジタルマーケティングからビジネス分析まで、さまざまな学習者と...

AIテクノロジー

効果的なマーケティングのためのポップアップビルダーのマスタリング

ポップアップビルダーソリューションは、マーケターの武器の一つとなっています戦略的な活用により、ブランドのエンゲージメ...

AIテクノロジー

チャットアプリ開発の主要な柱

このデジタル時代において、チャットアプリの開発は私たちのコミュニケーションの方法を変えてきましたスマートフォンの登場...