「切り分けて学ぶ」による機械学習におけるオブジェクトの状態合成の認識と生成

「切り分けて学ぶ」による機械学習:オブジェクトの状態合成の認識と生成を解説

現実世界には、さまざまなサイズ、色合い、質感を持つ物体が存在します。視覚的な特性、一般的には状態や属性と呼ばれるものは、アイテム自体に備わったもの(色など)または処理によって獲得されるもの(切られた状態など)です。現在のデータ駆動型の認識モデル(例:ディープニューラルネットワーク)は包括的なオブジェクト属性のためのロバストなトレーニングデータが利用可能と前提としていますが、未知のオブジェクトの特性に対しても一般化するための支援が必要です。しかし、人間や他の動物は、少数の既知のアイテムとその状態を組み合わせることで、さまざまな特性を持つ多様なものを認識し、イメージできる組み込み能力を持っています。近代のディープラーニングモデルは、より構成性のある一般化と、有限の概念からの新しい組み合わせの合成と検出能力を頻繁に必要としています。

構成的な一般化の研究を支援するために、メリーランド大学の研究者らは新たなデータセット「Chop & Learn (ChopNLearn)」を提案しています。彼らは構成要素に焦点を当てるため、果物や野菜の切り方に制限を設けています。これらのアイテムは、切り方の方法によってさまざまな方法で形状が変わります。目的は、直接の観察なしでオブジェクトの状態を認識するさまざまなアプローチがどのように異なるオブジェクトに適用できるかを調べることです。彼らが選んだ20のアイテムと7つの典型的な切り方(完全なオブジェクトを含む)により、状態対象の組み合わせの粒度とサイズが異なります。

第1のタスクでは、トレーニング中に遭遇していない(オブジェクト、状態)の組み合わせから画像を生成するシステムが必要です。この目的のため、研究者は既存の大規模テキストから画像を生成するモデルを修正することを提案しています。彼らは、テキストプロンプトを使用してオブジェクトの状態生成を表現するために、Textual InversionやDreamBoothなどのさまざまな既存のアプローチを比較しています。さらに、言語と拡散モデルの同時調整に加えて、オブジェクトと状態の追加トークンの追加を含む異なるプロセスを提案しています。最後に、提案された生成モデルと既存の文献の強みと弱点を評価しています。

第2のチャレンジでは、既存の構成的アクション認識のタスクが拡張されています。これは、活動の認識のための重要な初期ステップであるオブジェクトの状態の微小な変化を認識することを目的としていますが、過去の研究では映画の長期間の活動追跡に重点が置かれてきました。このタスクでは、モデルがタスクの開始時と終了時の状態の組み合わせを認識することによって、肉眼では見えないオブジェクトの状態の変化を学習することができます。ChopNLearnデータセットを使用して、彼らは動画タスクのためのいくつかの最新のベースラインを比較しています。研究は、データセットの利用によって利益をもたらす可能性のある多くの画像およびビデオ関連の機能について議論を終えます。

以下にいくつかの貢献を紹介します:

  • 提案されたChopNLearnデータセットには、さまざまなカメラアングルからの写真や映画が含まれます。これはさまざまなオブジェクト状態の組み合わせを表します。
  • 現在ユーザーには見えていないオブジェクトと状態の組み合わせの画像を生成するための新しいアクティビティ「構成的な画像生成」を提供します。
  • 構成的なアクション全体としての新たな基準を設定します。これはオブジェクトが時間と多様な視点でどのように変化するかを学習し認識することを目指しています。

制限事項

ファウショット一般化は、基盤モデルが利用可能になるにつれてますます重要になっています。この研究では、ChopNLearnのポテンシャルを構成的な生成と非常に複雑で関連性のある概念の識別に使用するための調査が行われました。ChopNLearnは、それにトレーニングされたモデルの一般性を制限するグリーンスクリーンの背景で行われた小規模なデータセットです。しかしながら、これは異なるオブジェクトが共通の微細な状態(切り方)を共有する方法を学習するための最初の試みです。彼らは、ChopNLearnを使用してより複雑なモデルをトレーニングおよびテストし、同じツールを使用してグリーンスクリーンの背景のある場合とない場合のモデルを微調整することによって、これを調査しています。さらに、彼らは、3D再構築、ビデオフレーム補間、状態変化の作成などのより困難なタスクにChopNLearnを利用することでコミュニティが利益を受けることを期待しています。

詳細については、https://chopnlearn.github.io/をご覧ください。

まとめると

研究者は、オブジェクトの構成的な一般化またはモデルが異なる状態で見たことのないオブジェクトの組み合わせを検出して構築する能力を測定するための新しいデータセットChopNLearnを提供しています。さらに、既存の生成モデルやビデオ認識技術の効果を評価するための2つの新しいタスク「構成的な画像生成」と「構成的なアクション認識」を提示しています。彼らは現在の方法の問題と新しい組み合わせに対する限定的な一般化能力を説明しています。しかし、これらの2つの活動は、比喩的な氷山の一部にすぎません。オブジェクトの状態を理解するためには、3D再構築、将来のフレーム予測、ビデオ製作、要約、長期ビデオの解析など、複数の画像およびビデオのアクティビティが必要です。このデータセットにより、研究者はコンピュータビジョンコミュニティが提案することで学習するための新しい構成的な課題が生まれることを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「コーディング経験なしでAIエージェンシーを始める方法」

「次の10年で最も大きなビジネスの機会の1つを紹介させてください」

AIニュース

「GPT-4と説明可能なAI(XAI)によるAIの未来の解明」

はじめに 常に進化し続ける人工知能(AI)の世界で、GPT-4は人間のようなテキスト生成の驚異です。それはまるで自分の言語を...

データサイエンス

モデルの解釈のマスタリング:パーシャル依存プロットの包括的な解説

モデルの解釈方法を知っていることは、それが奇妙なことをしていないかを理解するために不可欠ですモデルをよりよく知ってい...

データサイエンス

「ClimSimに出会ってください:機械学習と気候研究の物理学を結びつける画期的なマルチスケール気候シミュレーションデータセット」

数値物理シミュレーション予測は、気候変動政策の指針となる情報の主要な源です。最も高性能なスーパーコンピュータの限界に...

データサイエンス

LLMs (Language Models)による電子メール効率化の次なるフロンティア

紹介 人工知能(AI)は、特に大規模な言語モデル(LLM)の台頭のおかげで、過去数年間で大きく成長しました。豊富な人間の言...

データサイエンス

「もし私たちが複雑過ぎるモデルを簡単に説明できるとしたらどうだろう?」

この記事は次の記事に基づいています:https//www.sciencedirect.com/science/article/abs/pii/S0377221723006598 これを読ん...