「MITの研究者達が、シーン内の概念を理解するために機械学習モデルを支援するために、様々なシナリオを描いた画像の新しい注釈付き合成データセットを作成しました」

MIT researchers created a new annotated synthetic dataset of images depicting various scenarios to assist machine learning models in understanding concepts within scenes.

大規模な事前学習済みのビジョンと言語モデルは、数多くのアプリケーションで驚異的なパフォーマンスを発揮しており、固定された一連のサポートされるクラスをゼロショットオープンボキャブラリークエリに置き換えることが可能です。しかし、最近の研究では、これらのモデルには根本的な欠陥があることが明らかになっています。例えば、それらのモデルは「名詞を超えた」ビジュアル言語概念(VLC)を理解する能力がないため、非対象語(属性、アクション、関係、状態など)の意味を理解することができず、また、文の単語の順序の重要性を理解することも困難です。

テキストと画像をマッチングさせるために学習する強力な機械学習アルゴリズムであるビジョンと言語モデルは、ビデオのキャプションや要約を生成するよう要求された場合に驚異的な結果を示しています。これらのモデルはオブジェクトの識別に優れていますが、物の属性やシーン内のアイテムの配置などの概念を理解するのには頻繁に助けが必要です。例えば、ビジョンと言語モデルは画像内のカップとテーブルを認識できますが、カップがテーブルの上にあることを理解することはできません。

MITの研究者は、この欠点を克服するためにコンピュータ生成データを活用する新しい技術を実証しました。具体的には、生成されたビジュアルとテキストデータのVLCと組成性の側面を向上させ、これらの特性により注意を払うようVLモデルを微調整することを提案しています。さらに、実質的に無料で無限にスケーラブルなシンセティックデータは、常に実データに伴うプライバシーの懸念がないという利点もあります。大量の実データで事前学習されたVLモデルのVLCと組成性の側面を向上させるために効果的に使用できるシンセティックデータを作成することは、追加の技術的な課題を提起します。従来のシンセティックビジュアルデータの生成に関するほとんどの先行研究とは異なり、彼らはシーンの組成要素を記述する画像とテキストを開発する必要があります。さらに、異なる3D環境と異なる3Dオブジェクト、人の動きとアクションアセット、物との相互作用、さまざまなカメラアングルなど、実際の物理的な3Dシミュレーションを利用したシンセティックビデオも生成します。

以前の研究では、合成データを生成するためにモーションアセットが使用されましたが、視覚データにはテキストのキャプションが付属しておらず、組成性を考慮して設計する必要がありました。研究者は、シンセティックビジュアルコンセプト(SyViC)という大規模(百万スケール)の生成されたシンセティックVLデータセットを提供し、データ合成コードを通じて容易に拡張可能な豊富なテキストの注釈とともに、VLC理解と組成性の推論を向上させるための設計および生成コードベース2を提供しています。

貢献内容

  • 研究者は、VLC理解と組成性の推論を向上させるために設計された豊富なテキストの注釈を持つ百万スケールのシンセティックデータセットSyViC、およびその合成と拡張性のための方法論と生成コードベース2を提供します。
  • SyViCデータを活用して強力な事前学習済みVLモデルの特性を改善する効果的な一般的なVLモデルの微調整。
  • 最新のVL-Checklist、ARO、Winogroundベンチマークで測定されたVLC理解と組成推論の有意な改善(一部で10%以上)を実験結果と包括的な削除研究によって示し、最も人気のあるCLIPモデルおよびその派生(最新のCyCLIPなど)で検証します。

結果

提案された方法とSyViCシンセティックデータを使用して、すべてのモデルのバリエーションが生成されました。SyViCでの微調整前に、各モデルは大規模な実データでトレーニングされたそれぞれのソースモデルと比較されます。研究者の調査結果によると、SyViCのシンセティックデータと提案された微調整レシピは、それぞれのソースベースラインに比べて大幅な改善を示しています。さらに、研究者は、CLIPのVLCチェックリストとAROベンチマークにおける個々のVLCメトリクスの改善を示し、それぞれ9.1%および12.6%の絶対的な改善を示しています。これは、メソッドとSyViCシンセティックデータのVLC理解と組成性の推論を向上させる効率とポテンシャルを示しています。

ここで試してみてください https://synthetic-vic.github.io/ 

制限事項

3つの異なるベンチマークで非常に有望な結果を得ましたが、この研究には制限があります。例えば、グラフィックスシミュレータは、実際の世界と比較して照明、センサーノイズ、反射関数のモデルが単純化されているため、色の一定性の強さに影響を与える可能性があります。さらなる改善を図るには、より洗練されたドメイン適応とレンダリング技術が必要となるでしょう。また、シンセティックデータのスケーリング法則のより詳細な調査は、この研究の潜在能力を完全に実現するための優れた方法です。 

要約すると

大規模なビジョンと言語モデルは、コンピュータビジョンとマルチモーダルパーセプションの現状を規定し、いくつかの難しいベンチマークで最先端の結果を達成してきました。しかし、既存のモデルは、属性や関係などのオブジェクト名以外の概念の合成的な推論や理解に助けが必要です。これは、合成データがこれらの不足を緩和できるかどうかについての初めての研究です。MITの研究者は、合成画像とそれに付随するキャプションの百万規模のデータセットを生成するためのデータ生成パイプラインと、ゼロショット分類性能を損なうことなく、マルチモーダルモデルの合成的な理解能力と概念理解能力を向上させるための効率的な微調整戦略を提案し、包括的な分析を行いました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more