「切り分けて学ぶ」による機械学習におけるオブジェクトの状態合成の認識と生成
「切り分けて学ぶ」による機械学習:オブジェクトの状態合成の認識と生成を解説
現実世界には、さまざまなサイズ、色合い、質感を持つ物体が存在します。視覚的な特性、一般的には状態や属性と呼ばれるものは、アイテム自体に備わったもの(色など)または処理によって獲得されるもの(切られた状態など)です。現在のデータ駆動型の認識モデル(例:ディープニューラルネットワーク)は包括的なオブジェクト属性のためのロバストなトレーニングデータが利用可能と前提としていますが、未知のオブジェクトの特性に対しても一般化するための支援が必要です。しかし、人間や他の動物は、少数の既知のアイテムとその状態を組み合わせることで、さまざまな特性を持つ多様なものを認識し、イメージできる組み込み能力を持っています。近代のディープラーニングモデルは、より構成性のある一般化と、有限の概念からの新しい組み合わせの合成と検出能力を頻繁に必要としています。
構成的な一般化の研究を支援するために、メリーランド大学の研究者らは新たなデータセット「Chop & Learn (ChopNLearn)」を提案しています。彼らは構成要素に焦点を当てるため、果物や野菜の切り方に制限を設けています。これらのアイテムは、切り方の方法によってさまざまな方法で形状が変わります。目的は、直接の観察なしでオブジェクトの状態を認識するさまざまなアプローチがどのように異なるオブジェクトに適用できるかを調べることです。彼らが選んだ20のアイテムと7つの典型的な切り方(完全なオブジェクトを含む)により、状態対象の組み合わせの粒度とサイズが異なります。
第1のタスクでは、トレーニング中に遭遇していない(オブジェクト、状態)の組み合わせから画像を生成するシステムが必要です。この目的のため、研究者は既存の大規模テキストから画像を生成するモデルを修正することを提案しています。彼らは、テキストプロンプトを使用してオブジェクトの状態生成を表現するために、Textual InversionやDreamBoothなどのさまざまな既存のアプローチを比較しています。さらに、言語と拡散モデルの同時調整に加えて、オブジェクトと状態の追加トークンの追加を含む異なるプロセスを提案しています。最後に、提案された生成モデルと既存の文献の強みと弱点を評価しています。
- ウェアラブルテックを革命:エッジインパルスの超効率的な心拍数アルゴリズムと拡大するヘルスケアスイート
- このAI論文は、言語エージェントのための自然言語とコードの調和を目指して、LemurとLemur Chatを紹介しています
- Amazon SageMakerのマルチモデルエンドポイントを使用して、Veriffがデプロイ時間を80%削減する方法
第2のチャレンジでは、既存の構成的アクション認識のタスクが拡張されています。これは、活動の認識のための重要な初期ステップであるオブジェクトの状態の微小な変化を認識することを目的としていますが、過去の研究では映画の長期間の活動追跡に重点が置かれてきました。このタスクでは、モデルがタスクの開始時と終了時の状態の組み合わせを認識することによって、肉眼では見えないオブジェクトの状態の変化を学習することができます。ChopNLearnデータセットを使用して、彼らは動画タスクのためのいくつかの最新のベースラインを比較しています。研究は、データセットの利用によって利益をもたらす可能性のある多くの画像およびビデオ関連の機能について議論を終えます。
以下にいくつかの貢献を紹介します:
- 提案されたChopNLearnデータセットには、さまざまなカメラアングルからの写真や映画が含まれます。これはさまざまなオブジェクト状態の組み合わせを表します。
- 現在ユーザーには見えていないオブジェクトと状態の組み合わせの画像を生成するための新しいアクティビティ「構成的な画像生成」を提供します。
- 構成的なアクション全体としての新たな基準を設定します。これはオブジェクトが時間と多様な視点でどのように変化するかを学習し認識することを目指しています。
制限事項
ファウショット一般化は、基盤モデルが利用可能になるにつれてますます重要になっています。この研究では、ChopNLearnのポテンシャルを構成的な生成と非常に複雑で関連性のある概念の識別に使用するための調査が行われました。ChopNLearnは、それにトレーニングされたモデルの一般性を制限するグリーンスクリーンの背景で行われた小規模なデータセットです。しかしながら、これは異なるオブジェクトが共通の微細な状態(切り方)を共有する方法を学習するための最初の試みです。彼らは、ChopNLearnを使用してより複雑なモデルをトレーニングおよびテストし、同じツールを使用してグリーンスクリーンの背景のある場合とない場合のモデルを微調整することによって、これを調査しています。さらに、彼らは、3D再構築、ビデオフレーム補間、状態変化の作成などのより困難なタスクにChopNLearnを利用することでコミュニティが利益を受けることを期待しています。
詳細については、https://chopnlearn.github.io/をご覧ください。
まとめると
研究者は、オブジェクトの構成的な一般化またはモデルが異なる状態で見たことのないオブジェクトの組み合わせを検出して構築する能力を測定するための新しいデータセットChopNLearnを提供しています。さらに、既存の生成モデルやビデオ認識技術の効果を評価するための2つの新しいタスク「構成的な画像生成」と「構成的なアクション認識」を提示しています。彼らは現在の方法の問題と新しい組み合わせに対する限定的な一般化能力を説明しています。しかし、これらの2つの活動は、比喩的な氷山の一部にすぎません。オブジェクトの状態を理解するためには、3D再構築、将来のフレーム予測、ビデオ製作、要約、長期ビデオの解析など、複数の画像およびビデオのアクティビティが必要です。このデータセットにより、研究者はコンピュータビジョンコミュニティが提案することで学習するための新しい構成的な課題が生まれることを期待しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles