UC BerkeleyとDeepmindの研究者は、SuccessVQAという成功検出の再構成を提案しましたこれは、Flamingoなどの事前学習済みVLMに適したものです

UC BerkeleyとDeepmindの研究者は、SuccessVQAという成功検出の再構成を提案しましたこれは、事前学習済みVLM(Visual Language Model)に適しています

最高のパフォーマンス精度を達成するためには、トレーニング中にエージェントが正しいまたは望ましいトラック上にあるかどうかを理解することが重要です。これは、強化学習においてエージェントに報酬を与えることや、評価指標を使用して最適なポリシーを特定することで実現できます。そのため、このような成功した振る舞いを検出できる能力は、高度なインテリジェントエージェントを訓練する際に基本的な前提条件となります。これが成功検出器が登場する場所であり、エージェントの振る舞いが成功したかどうかを分類するために使用できます。先行研究によれば、ドメイン固有の成功検出器を開発する方が、より一般的なものよりも比較的容易であることが示されています。これは、ほとんどの現実世界のタスクにおいて何が成功と見なされるかを定義することが非常に難しいためであり、しばしば主観的なものです。たとえば、AIによって生成された美術作品は、一部の人を魅了するかもしれませんが、全体の観客に同じことが言えるわけではありません。

過去数年間、研究者たちはさまざまなアプローチを提案してきましたが、成功検出器を開発するためのものの1つは、好みのデータを使用した報酬モデリングです。しかし、これらのモデルには特定のタスクと環境条件にしか適用できないという欠点があります。したがって、一般化を確保するためには、幅広いドメインをカバーするためにより多くの注釈が必要であり、非常に労力を要する作業です。一方、ビジョンと言語の両方を入力とするモデルを訓練する場合、一般化可能な成功検出は、言語のバリエーションと視覚的なバリエーションの両方で正確な測定を提供する必要があります。既存のモデルは通常、固定条件とタスクに対して訓練されているため、このようなバリエーションに一般化することはできません。また、新しい条件に適応するには、新しい注釈付きデータセットを収集してモデルを再訓練する必要があり、常に実現可能ではありません。

この問題に取り組んでいるDeepMindの子会社であるAlphabetの研究者チームは、言語の仕様と知覚条件の両方の変動に耐えうる堅牢な成功検出器を訓練する手法を開発しました。彼らは、Flamingoなどの大規模な事前学習済みのビジョン言語モデルと人間の報酬注釈を活用することで、これを達成しました。この研究は、Flamingoを多様な言語と視覚データに対して大量に事前学習することが、より堅牢な成功検出器のトレーニングにつながるという研究者の観察に基づいています。研究者らは、彼らの最も重要な貢献は、一般化可能な成功検出のタスクを視覚的な質問応答(VQA)の問題として再定義したことであり、これをSuccessVQAと呼んでいます。このアプローチでは、対象のタスクを単純な「はい/いいえ」の質問として指定し、状態環境を定義する短いクリップと、望ましい振る舞いを説明するテキストだけで構成される統一されたアーキテクチャを使用します。

DeepMindチームはまた、Flamingoを人間の注釈で微調整することで、家庭内シミュレーション、現実世界のロボット操作、野外の視点主体の人間のビデオなど、3つの主要なドメインで一般化可能な成功検出を実証しました。SuccessVQAタスクの普遍的な性質により、研究者は同じアーキテクチャとトレーニングメカニズムを異なるドメインの幅広いタスクに使用することができます。さらに、Flamingoのような事前学習済みのビジョン言語モデルを使用することで、大規模なマルチモーダルデータセットでの事前学習の利点を十分に活用することができました。チームは、これにより言語と視覚のバリエーションの両方において一般化が可能になったと考えています。

成功検出の再定義を評価するために、研究者たちは見知らぬ言語と視覚のバリエーションにわたるいくつかの実験を行いました。これらの実験の結果、事前学習済みのビジョン言語モデルは、ほとんどの分布内タスクで同等の性能を発揮し、分布外のシナリオではタスク固有の報酬モデルよりも優れたパフォーマンスを示すことが明らかになりました。調査結果では、これらの成功検出器は、既存の報酬モデルが失敗する言語とビジョンのバリエーションへのゼロショットの一般化が可能であることが示されました。DeepMindの研究者が提案した新しいアプローチは、非常に優れたパフォーマンスを持っていますが、ロボティクス環境に関連するタスクなど、いくつかの欠点もあります。研究者らは、今後の研究ではこの領域でさらなる改善を行う予定であると述べています。DeepMindは、研究コミュニティが彼らの初期の研究を成功検出と報酬モデリングに関してさらなる成果を達成するための礎として評価してくれることを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「MindGPTとは、fMRI信号から察知された視覚刺激を自然言語に解釈する非侵襲的な神経デコーダーです」

他の人とコミュニケーションを取るために、人間は外界で見たことを説明するために限られた量の言葉しか使うことができません...

データサイエンス

「データ分析のためのトップ10のAIツール」

ビジネスデータは日々複雑化しており、それを理解するためには高度な手法が必要です。従来のデータ分析手法は、手作業に依存...

AIニュース

「ブラックボックスを開く」

研究者は、説明可能な設計空間探索を通じて、科学者やプロセッサ設計者が深層学習アクセラレータの設計の根本的な理論を理解...

機械学習

「クラスタリング解放:K-Meansクラスタリングの理解」

K-Meansクラスタリングアルゴリズムを使用して、隠れたパターンを見つけ、意味のある洞察を抽出する方法を学びましょう

AI研究

SalesForceのAI研究者が、マスク不要のOVISを紹介:オープンボキャブラリーインスタンスセグメンテーションマスクジェネレータ

インスタンスセグメンテーションは、複数のオブジェクトを同じクラスに属するものとして、それらを異なるエンティティとして...

機械学習

ドメイン固有アプリケーションのためのLLM細かい調整戦略

「LLMファインチューニングとは何か、LLMをドメイン特化アプリケーションに適応する方法、ファインチューニングの種類などを...