UC BerkeleyとDeepmindの研究者は、SuccessVQAという成功検出の再構成を提案しましたこれは、Flamingoなどの事前学習済みVLMに適したものです

UC BerkeleyとDeepmindの研究者は、SuccessVQAという成功検出の再構成を提案しましたこれは、事前学習済みVLM(Visual Language Model)に適しています

最高のパフォーマンス精度を達成するためには、トレーニング中にエージェントが正しいまたは望ましいトラック上にあるかどうかを理解することが重要です。これは、強化学習においてエージェントに報酬を与えることや、評価指標を使用して最適なポリシーを特定することで実現できます。そのため、このような成功した振る舞いを検出できる能力は、高度なインテリジェントエージェントを訓練する際に基本的な前提条件となります。これが成功検出器が登場する場所であり、エージェントの振る舞いが成功したかどうかを分類するために使用できます。先行研究によれば、ドメイン固有の成功検出器を開発する方が、より一般的なものよりも比較的容易であることが示されています。これは、ほとんどの現実世界のタスクにおいて何が成功と見なされるかを定義することが非常に難しいためであり、しばしば主観的なものです。たとえば、AIによって生成された美術作品は、一部の人を魅了するかもしれませんが、全体の観客に同じことが言えるわけではありません。

過去数年間、研究者たちはさまざまなアプローチを提案してきましたが、成功検出器を開発するためのものの1つは、好みのデータを使用した報酬モデリングです。しかし、これらのモデルには特定のタスクと環境条件にしか適用できないという欠点があります。したがって、一般化を確保するためには、幅広いドメインをカバーするためにより多くの注釈が必要であり、非常に労力を要する作業です。一方、ビジョンと言語の両方を入力とするモデルを訓練する場合、一般化可能な成功検出は、言語のバリエーションと視覚的なバリエーションの両方で正確な測定を提供する必要があります。既存のモデルは通常、固定条件とタスクに対して訓練されているため、このようなバリエーションに一般化することはできません。また、新しい条件に適応するには、新しい注釈付きデータセットを収集してモデルを再訓練する必要があり、常に実現可能ではありません。

この問題に取り組んでいるDeepMindの子会社であるAlphabetの研究者チームは、言語の仕様と知覚条件の両方の変動に耐えうる堅牢な成功検出器を訓練する手法を開発しました。彼らは、Flamingoなどの大規模な事前学習済みのビジョン言語モデルと人間の報酬注釈を活用することで、これを達成しました。この研究は、Flamingoを多様な言語と視覚データに対して大量に事前学習することが、より堅牢な成功検出器のトレーニングにつながるという研究者の観察に基づいています。研究者らは、彼らの最も重要な貢献は、一般化可能な成功検出のタスクを視覚的な質問応答(VQA)の問題として再定義したことであり、これをSuccessVQAと呼んでいます。このアプローチでは、対象のタスクを単純な「はい/いいえ」の質問として指定し、状態環境を定義する短いクリップと、望ましい振る舞いを説明するテキストだけで構成される統一されたアーキテクチャを使用します。

DeepMindチームはまた、Flamingoを人間の注釈で微調整することで、家庭内シミュレーション、現実世界のロボット操作、野外の視点主体の人間のビデオなど、3つの主要なドメインで一般化可能な成功検出を実証しました。SuccessVQAタスクの普遍的な性質により、研究者は同じアーキテクチャとトレーニングメカニズムを異なるドメインの幅広いタスクに使用することができます。さらに、Flamingoのような事前学習済みのビジョン言語モデルを使用することで、大規模なマルチモーダルデータセットでの事前学習の利点を十分に活用することができました。チームは、これにより言語と視覚のバリエーションの両方において一般化が可能になったと考えています。

成功検出の再定義を評価するために、研究者たちは見知らぬ言語と視覚のバリエーションにわたるいくつかの実験を行いました。これらの実験の結果、事前学習済みのビジョン言語モデルは、ほとんどの分布内タスクで同等の性能を発揮し、分布外のシナリオではタスク固有の報酬モデルよりも優れたパフォーマンスを示すことが明らかになりました。調査結果では、これらの成功検出器は、既存の報酬モデルが失敗する言語とビジョンのバリエーションへのゼロショットの一般化が可能であることが示されました。DeepMindの研究者が提案した新しいアプローチは、非常に優れたパフォーマンスを持っていますが、ロボティクス環境に関連するタスクなど、いくつかの欠点もあります。研究者らは、今後の研究ではこの領域でさらなる改善を行う予定であると述べています。DeepMindは、研究コミュニティが彼らの初期の研究を成功検出と報酬モデリングに関してさらなる成果を達成するための礎として評価してくれることを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

『DiffBIRを紹介:事前学習済みのテキストから画像への拡散モデルを使用して、盲目的な画像修復問題に対処するAIアプローチ』

人工知能の分野での重要な進歩により、自然言語処理、自然言語理解、コンピュータビジョンなどのAIのサブフィールドも急速に...

データサイエンス

倫理的なAIと責任あるデータサイエンス:開発者に何ができるか?

この記事では、アルゴリズムの偏り、解釈可能性、プライバシー保護に対処し、責任あるデータサイエンスのためのAI倫理につい...

AIニュース

「AutoGenを使った戦略的AIチームビルディングが簡単になりました」

イントロダクション デジタルフロンティアが無限の領域に達し、AutoGenは変革的なパラダイムの設計者として現れます。異なる...

AI研究

横浜の大学の研究者らが提案した「VirSen1.0:センサーに基づく人間のジェスチャー認識システムの開発を効率化するための仮想環境」

ジェスチャー認識技術は、センサーの配置と配置、データの解釈、および機械学習の精度において重大な課題に直面しています。...

機械学習

「マイクロソフトは、VALLE-Xをオープンソース化しました:多言語対応のテキスト読み上げ合成および音声クローニングモデル」

マイクロソフトのVALL-E XゼロショットTTSモデルのオープンソース実装が登場しました。これにより、テキスト読み上げ合成と音...

機械学習

マルチモーダル言語モデル:人工知能(AI)の未来

大規模言語モデル(LLM)は、テキストの分析や生成などのタスクをこなすことができるコンピュータモデルです。これらは膨大な...