一般的なエージェント

'generic agent' in English.

大規模な言語モデリングの進展に触発されて、私たちはテキスト出力の範囲を超えた単一の汎用エージェントの構築に同様のアプローチを適用しています。私たちはこのエージェントを「Gato」と呼んでおり、マルチモーダル、マルチタスク、マルチエンボディメントの汎用ポリシーとして機能します。同じネットワークと同じ重みを使用して、GatoはAtariをプレイしたり、画像のキャプションを作成したり、チャットしたり、実際のロボットアームを使ってブロックを積み上げたりすることができます。Gatoは文脈に基づいて、テキスト、関節トルク、ボタンの押下、その他のトークンを出力するかどうかを決定します。

Gatoのトレーニングフェーズでは、異なるタスクとモダリティのデータがトークンのフラットなシーケンスにシリアル化され、バッチ処理され、大規模言語モデルに似たトランスフォーマーニューラルネットワークによって処理されます。損失はマスクされているため、Gatoはアクションとテキストのターゲットのみを予測します。

Gatoを展開する際には、デモなどのプロンプトがトークン化され、初期シーケンスが形成されます。次に、環境から最初の観測値が生成され、これもトークン化されてシーケンスに追加されます。Gatoはアクションベクトルをトークンごとに自己回帰的にサンプリングします。

アクションベクトルを構成するすべてのトークンがサンプリングされると(環境のアクション仕様によって決まる)、アクションがデコードされて環境に送信され、環境はステップして新しい観測値を生成します。そして手順が繰り返されます。モデルは常に、1024トークンのコンテキストウィンドウ内のすべての直前の観測値とアクションを参照します。

Gatoは、シミュレートされた環境と実世界の環境の両方でのエージェントの経験、さらにさまざまな自然言語と画像のデータセットを含む大量のデータセットでトレーニングされます。事前学習済みのGatoモデルのパフォーマンスがエキスパートスコアの一定の割合を超えるタスクの数は、ドメインごとにグループ化されてここに示されています。

以下の画像は、同じ重みを持つ事前学習済みのGatoモデルが画像キャプション作成、対話の展開、ロボットアームの制御など、多くのタスクを実行できることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

『nnU-Netの究極ガイド』

「画像セグメンテーションの主要なツールであるnnU-Netについて、詳細なガイドに深く入り込んでください最先端の結果を得るた...

AIテクノロジー

「2023年に注目すべき10の環境テック企業」

これらの企業の力は、環境技術セクター内でのポジティブな変革を推進する能力を具体化しています

AIテクノロジー

「リモートワーク技術の探究:トレンドとイノベーション」

「バーチャルオフィスやコラボレーションツールからワークスペースの未来、サイバーセキュリティ、AI自動化、働き方と生活の...

AIテクノロジー

チャットアプリ開発の主要な柱

このデジタル時代において、チャットアプリの開発は私たちのコミュニケーションの方法を変えてきましたスマートフォンの登場...

AIテクノロジー

「2023年に注目すべきトップホームセキュリティ企業」

適切なホームセキュリティシステムを選ぶことは非常に困難ですこの記事では、最善の決定をするためにあなたをガイドします!

AIテクノロジー

「AIツールを使用して写実的なアートを作成する方法」

AI生成アートは、アルゴリズムと機械学習を利用して独自のデザインや作品を作成する、エキサイティングな新たなフロンティア...