「MM-VID for GPT-4V(ision)による進化するAIビデオ理解の解放」

「進化するAIビデオ理解の解放：MM-VID for GPT-4V(ision)」

世界中で、個人は毎日さまざまなビデオを作成しています。ユーザー生成のライブストリーム、ビデオゲームのライブストリーム、ショートクリップ、映画、スポーツの放送、広告などです。多目的VoAGIとして、ビデオはテキスト、ビジュアル、オーディオなどさまざまな形態で情報とコンテンツを伝えます。これら多様な形態から学習できる方法を開発することは、手作業でキュレーションされたデータセットの制約を超えて、非キュレーションのリアルワールドのビデオを分析する能力が向上した認知的なマシンの設計にとって重要です。

ただし、この表現の豊かさは、長時間のビデオに取り組む際に特にビデオの理解を探求する際にさまざまな課題をもたらします。特に1時間を超えるビデオの微妙さを把握するには、複数のエピソードをまたぐイメージとオーディオシーケンスの分析方法が必要です。この複雑さは、異なる情報源から情報を抽出し、スピーカーを識別し、キャラクターを識別し、物語の一貫性を維持する必要性とともに増加します。さらに、ビデオの証拠に基づいて質問に答えるには、コンテンツ、文脈、字幕の深い理解が求められます。

ライブストリーミングやゲームのビデオでは、リアルタイムでの動的な環境の処理において追加の課題が生じます。セマンティックな理解と長期的な戦略的計画への関与が必要です。

近年、大規模な事前トレーニング済みのビデオ-言語モデルにおいて大きな進展が達成され、ビデオコンテンツに対する優れた推論能力が示されています。しかし、これらのモデルは通常、短いクリップ（例：10秒のビデオ）や事前定義されたアクションクラスでトレーニングされています。そのため、これらのモデルは複雑なリアルワールドのビデオの微妙な理解を提供することに制約が生じる場合があります。

リアルワールドのビデオの理解の複雑さには、シーン内の個人の特定とその行動の明確化が含まれます。さらに、これらの行動の時期や方法を特定する必要があります。また、さまざまなシーンで微妙なニュアンスやビジュアルの手がかりを認識する必要があります。この研究の主たる目的は、これらの課題に取り組み、リアルワールドのビデオ理解に直接適用可能な手法を探求することです。アプローチは、延長ビデオコンテンツを一貫したストーリーに分解し、これらの生成されたストーリーをビデオ分析に使用することを含みます。

大規模なマルチモーダルモデル（LMM）の最近の進展、GPT-4V（ision）などの進歩により、入力画像とテキストの両方の処理において優れた理解能力が示されました。これにより、LMMの応用範囲をビデオドメインに拡大することに関心が集まっています。本記事で報告された研究では、ビデオ理解のために専門ツールをGPT-4Vと統合するシステムであるMM-VIDを紹介しています。システムの概要は以下の図に示されています。

入力ビデオを受け取ると、MM-VIDはマルチモーダルの前処理を開始し、シーン検出と自動音声認識（ASR）を含めてビデオから重要な情報を収集します。その後、シーン検出アルゴリズムに基づいて入力ビデオを複数のクリップに分割します。次に、GPT-4Vを使用し、クリップレベルのビデオフレームを入力として、各ビデオクリップの詳細な説明を生成します。最後に、GPT-4Vは、クリップレベルのビデオの説明、ASR、および利用可能なビデオのメタデータに基づいて、全体のビデオに対する一貫したスクリプトを生成します。生成されたスクリプトは、MM-VIDがさまざまなビデオタスクを実行するための力を与えます。

この研究からのいくつかの例を以下に報告します。

これがMM-VIDの概要であり、GPT-4Vと専門ツールを統合した新しいAIシステムです。興味があり、さらに詳しく知りたい場合は、以下に引用されたリンクを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

「MM-VID for GPT-4V(ision)による進化するAIビデオ理解の解放」

Was this article helpful?

「ヒュメインが革命的なAIパワードウェアラブル「AI Pin」を発売」

「人道的な災害状況報告チャットボットの研究−GPT-4-Turboとフルコンテキストプロンプティングの使用」

機械学習

Japanese AI規制- 仮定はありませんか？それとも何もしない？

オープンAIのファンクションコーリング入門

学生と機関のためのChatGPTプラグインで学習を向上させる

なぜディープラーニングは常に配列データ上で行われるのか？新しいAI研究は、データからファンクタまでを一つとして扱う「スペースファンクタ」を紹介しています

NYUとNVIDIAが協力して、患者の再入院を予測するための大規模言語モデルを開発する

ディープラーニングが深く掘り下げる：AIがペルー砂漠で新しい大規模画像を公開