一般的なエージェント

'generic agent' in English.

大規模な言語モデリングの進展に触発されて、私たちはテキスト出力の範囲を超えた単一の汎用エージェントの構築に同様のアプローチを適用しています。私たちはこのエージェントを「Gato」と呼んでおり、マルチモーダル、マルチタスク、マルチエンボディメントの汎用ポリシーとして機能します。同じネットワークと同じ重みを使用して、GatoはAtariをプレイしたり、画像のキャプションを作成したり、チャットしたり、実際のロボットアームを使ってブロックを積み上げたりすることができます。Gatoは文脈に基づいて、テキスト、関節トルク、ボタンの押下、その他のトークンを出力するかどうかを決定します。

Gatoのトレーニングフェーズでは、異なるタスクとモダリティのデータがトークンのフラットなシーケンスにシリアル化され、バッチ処理され、大規模言語モデルに似たトランスフォーマーニューラルネットワークによって処理されます。損失はマスクされているため、Gatoはアクションとテキストのターゲットのみを予測します。

Gatoを展開する際には、デモなどのプロンプトがトークン化され、初期シーケンスが形成されます。次に、環境から最初の観測値が生成され、これもトークン化されてシーケンスに追加されます。Gatoはアクションベクトルをトークンごとに自己回帰的にサンプリングします。

アクションベクトルを構成するすべてのトークンがサンプリングされると(環境のアクション仕様によって決まる)、アクションがデコードされて環境に送信され、環境はステップして新しい観測値を生成します。そして手順が繰り返されます。モデルは常に、1024トークンのコンテキストウィンドウ内のすべての直前の観測値とアクションを参照します。

Gatoは、シミュレートされた環境と実世界の環境の両方でのエージェントの経験、さらにさまざまな自然言語と画像のデータセットを含む大量のデータセットでトレーニングされます。事前学習済みのGatoモデルのパフォーマンスがエキスパートスコアの一定の割合を超えるタスクの数は、ドメインごとにグループ化されてここに示されています。

以下の画像は、同じ重みを持つ事前学習済みのGatoモデルが画像キャプション作成、対話の展開、ロボットアームの制御など、多くのタスクを実行できることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「カナダでウェブサイトを立ち上げる方法」

ウェブサイトを立ち上げることは、カナダでオンラインプレゼンスを確立しようとする個人、企業、組織にとって重要なステップ...

機械学習

「機械学習の未来:新興トレンドと機会」

「機械学習は、産業全体において転換力として浮上しており、問題解決や意思決定のアプローチを革新していますその影響は広範...

AIテクノロジー

Python Webスクレイピングの始め方(LLMs向け)

ウェブスクレイピングの世界に足を踏み入れることは、かなりの冒険となるかもしれません初心者としては、それが一体何なのか...

AIテクノロジー

ベスト5のRコース(2024年)

私たちは最高のRコースを見ていきますこれらのコースによって、Rプログラミングの経験を積むために必要なすべてのスキルを学...

AIテクノロジー

アルゴリズム取引と金融におけるAIにおける知的財産権法の理解

金融業界は、特定の期間の要求に最も適したより効率的で効果的なアプローチを受け入れるために常に変化していますアルゴリズ...

データサイエンス

「機械学習のための完璧なデータ注釈プロバイダを選ぶ7つのステップ」

「最高の注釈会社を見つける上での主な課題と、信頼できるAIデータ注釈サービスを雇うための対策の手順を見つけてください」