一般的なエージェント

'generic agent' in English.

大規模な言語モデリングの進展に触発されて、私たちはテキスト出力の範囲を超えた単一の汎用エージェントの構築に同様のアプローチを適用しています。私たちはこのエージェントを「Gato」と呼んでおり、マルチモーダル、マルチタスク、マルチエンボディメントの汎用ポリシーとして機能します。同じネットワークと同じ重みを使用して、GatoはAtariをプレイしたり、画像のキャプションを作成したり、チャットしたり、実際のロボットアームを使ってブロックを積み上げたりすることができます。Gatoは文脈に基づいて、テキスト、関節トルク、ボタンの押下、その他のトークンを出力するかどうかを決定します。

Gatoのトレーニングフェーズでは、異なるタスクとモダリティのデータがトークンのフラットなシーケンスにシリアル化され、バッチ処理され、大規模言語モデルに似たトランスフォーマーニューラルネットワークによって処理されます。損失はマスクされているため、Gatoはアクションとテキストのターゲットのみを予測します。

Gatoを展開する際には、デモなどのプロンプトがトークン化され、初期シーケンスが形成されます。次に、環境から最初の観測値が生成され、これもトークン化されてシーケンスに追加されます。Gatoはアクションベクトルをトークンごとに自己回帰的にサンプリングします。

アクションベクトルを構成するすべてのトークンがサンプリングされると(環境のアクション仕様によって決まる)、アクションがデコードされて環境に送信され、環境はステップして新しい観測値を生成します。そして手順が繰り返されます。モデルは常に、1024トークンのコンテキストウィンドウ内のすべての直前の観測値とアクションを参照します。

Gatoは、シミュレートされた環境と実世界の環境の両方でのエージェントの経験、さらにさまざまな自然言語と画像のデータセットを含む大量のデータセットでトレーニングされます。事前学習済みのGatoモデルのパフォーマンスがエキスパートスコアの一定の割合を超えるタスクの数は、ドメインごとにグループ化されてここに示されています。

以下の画像は、同じ重みを持つ事前学習済みのGatoモデルが画像キャプション作成、対話の展開、ロボットアームの制御など、多くのタスクを実行できることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

最適なデータ統合アプローチを選ぶためのガイド' (Saiteki na dēta tōgō apurōchi wo erabu tame no gaido)

エンタープライズは、アクション可能な洞察を開示し、意思決定を改善し、イノベーションを推進するために、シームレスなデー...

AIテクノロジー

Python Webスクレイピングの始め方(LLMs向け)

ウェブスクレイピングの世界に足を踏み入れることは、かなりの冒険となるかもしれません初心者としては、それが一体何なのか...

コンピュータサイエンス

世界のトップ10量子コンピューティング企業(2024年)

この記事にリストされているトップ10の量子コンピューティング企業は、量子コンピューティングの分野が急速に変化している中...

AIテクノロジー

「将来的にAIが医療請求の補完をどのように行うのか?」

私たちの急速に発展するデジタル時代において、医療部門は変化においては馴染みがありません革新的な技術の影響を受けて、伝...

AIテクノロジー

「2024年のトップ5大学の証明書」

「大学の証明書が技術セクターに特化した知識と専門知識の扉を開く方法を探索してください」

機械学習

「機械学習の未来:新興トレンドと機会」

「機械学習は、産業全体において転換力として浮上しており、問題解決や意思決定のアプローチを革新していますその影響は広範...