大規模言語モデルは、ビデオからの長期行動予測に役立ちますか?AntGPTをご紹介します:ビデオベースの長期行動予測タスクにおいて大規模言語モデルを組み込むためのAIフレームワークです
AntGPTはビデオからの長期行動予測に使えるAIフレームワークです
ビデオの観察から、研究はLTAタスク(長期アクション予測)に焦点を当てています。一般的に長期的な時間軸を超えて興味のあるアクターのための動詞と名詞の予測の連続が望ましい結果です。LTAは人間と機械のコミュニケーションにおいて重要です。自動運転車や日常の家事などの状況で、機械エージェントはLTAを使用して人々を支援する可能性があります。また、人間の行動の曖昧さや予測不可能性により、ビデオのアクション検出は非常に困難です。
ボトムアップモデリングは、一般的なLTA戦略の一つで、潜在的な視覚表現や離散的なアクションラベルを使用して人間の行動の時間的ダイナミクスを直接シミュレートします。現在のほとんどのボトムアップLTA戦略は、視覚入力を使用したエンドツーエンドでトレーニングされたニューラルネットワークとして実装されています。アクターの目標を知ることはアクションの予測に役立つかもしれません。特に日常の家庭の状況では人間の行動はしばしば「目的を持っている」です。そのため、広く使用されるボトムアップ戦略に加えて、トップダウンのフレームワークも考慮しています。トップダウンのフレームワークでは、まず目標を達成するために必要なプロセスを概説し、それによって人間のアクターの長期的な目標を示唆します。
ただし、目標指向のプロセス計画をアクション予測に使用するのは通常困難です。なぜなら、ターゲット情報が現在のLTAの標準ではしばしば未ラベル化されており、潜在的です。彼らの研究では、トップダウンとボトムアップのLTAの両方でこれらの問題に取り組んでいます。彼らは、大規模な言語モデル(LLMs)が映画から利益を得ることができるかどうかを調べることを提案しています。なぜなら、LLMsはロボット計画やプログラムベースのビジュアル質問応答において成功しているためです。彼らは、レシピなどの手順テキスト素材で事前トレーニングされたことにより、LLMsが長期的なアクション予測の仕事に対して有用な事前情報をエンコードすることを提案しています。
- 「IBM、HuggingFace、そしてNASAがWatsonx․ai Foundation Modelをオープンソース化 NASA初の公開可能なAI基盤モデルであり、HuggingFace上で最大の地理空間モデル」
- キャッシング生成的LLMs | APIコストの節約
- ジニ係数の解説:経済学が機械学習に影響を与えた方法
理想的なシナリオでは、LLMsにエンコードされた事前知識はボトムアップおよびトップダウンのLTAアプローチの両方を支援できます。なぜなら、これらのモデルは「現在のアクションの後に最も可能性の高いアクションは何ですか?」といった質問に応えることができるだけでなく、「アクターが何を達成しようとしており、目標を達成するための残りの手順は何ですか?」といった質問にも応えることができるからです。彼らの研究は、LLMsを長期的なアクション予測に使用するための以下の4つの問いに答えることを目指しています。まず、ビデオとLLMsの間のLTA作業に適切なインターフェースは何ですか?次に、LLMsはトップダウンのLTAに有用であり、目標を推測できますか?アクションの予測は、LLMsの時間的ダイナミクスに関する事前知識によって支援される可能性がありますか?最後に、LLMsのインコンテキスト学習機能によって提供される少数のショットLTA機能を使用できますか?
ブラウン大学と本田技術研究所の研究者は、これらの質問に答えるために必要な定量的および定性的評価を行うためのAntGPTという2段階のシステムを提供しています。AntGPTはまず、教師付きアクション認識アルゴリズムを使用して人間の活動を識別します。その後、OpenAI GPTモデルによって認識されたアクションがアクションの意図した結果または今後のアクションに変換され、オプションで最終的な予測に後処理されます。ボトムアップLTAでは、GPTモデルに対して自己回帰的な方法、ファインチューニング、またはインコンテキスト学習を使用して将来のアクションのシーケンスを予測するよう明示的に依頼します。彼らはまずGPTにアクターの目標を予測させ、その後アクターの行動を生成してトップダウンのLTAを達成します。
彼らはまた、目標情報を使用して目標条件付きの予測を行います。さらに、推論のチェーンと少数のショットボトムアップLTAを使用して、AntGPTのトップダウンおよびボトムアップLTAの能力を評価しています。彼らはEGTEA GAZE+、EPIC-Kitchens-55、Ego4DなどのいくつかのLTAベンチマークでテストを実施しています。定量的なテストは彼らの提案されたAntGPTの実現可能性を示しています。さらに、定量的および定性的な研究により、LLMsがビデオの観察からの離散的なアクションラベルを使用してアクターの高レベルの目標を推測することができることが示されています。さらに、LLMsはさまざまな目標を与えられた場合にカウンターファクトアルなアクション予測を実行することができることにも注目しています。
彼らの研究は以下の貢献をしています:
1. 大規模な言語モデルを使用して目標を推測し、時間的ダイナミクスをモデル化し、長期的なアクション予測をボトムアップおよびトップダウンの方法として定義することを提案します。
2. LLMsとコンピュータビジョンアルゴリズムを自然に結び付けるAntGPTフレームワークを提案し、EPIC-Kitchens-55、EGTEA GAZE+、Ego4D LTA v1およびv2のベンチマークにおいて最先端の長期的なアクション予測性能を達成します。
3. LTAの業務に使用される場合、LLMsの重要な設計上の決定、利点、欠点を理解するために、包括的な定量的および定性的評価を実施します。また、彼らはまもなくコードを公開する予定です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「コードを使用して、大規模な言語モデルを使って、どんなPDFや画像ファイルでもチャットする方法」
- ライトオンAIは、Falcon-40Bをベースにした新しいオープンソースの言語モデル(LLM)であるAlfred-40B-0723をリリースしました
- 「Hugging Face Transformersライブラリを解剖する」
- 『過学習から卓越へ:正則化の力を活用する』
- 「5分でPythonとTkinterを使用してシンプルなユーザーフォームを作成する-初心者ガイド」
- 映画チャットをご紹介しますビデオの基礎モデルと大規模な言語モデルを統合した革新的なビデオ理解システムです
- ベイズ深層学習への優しい入門