「MM-VID for GPT-4V(ision)による進化するAIビデオ理解の解放」

「進化するAIビデオ理解の解放:MM-VID for GPT-4V(ision)」

世界中で、個人は毎日さまざまなビデオを作成しています。ユーザー生成のライブストリーム、ビデオゲームのライブストリーム、ショートクリップ、映画、スポーツの放送、広告などです。多目的VoAGIとして、ビデオはテキスト、ビジュアル、オーディオなどさまざまな形態で情報とコンテンツを伝えます。これら多様な形態から学習できる方法を開発することは、手作業でキュレーションされたデータセットの制約を超えて、非キュレーションのリアルワールドのビデオを分析する能力が向上した認知的なマシンの設計にとって重要です。

ただし、この表現の豊かさは、長時間のビデオに取り組む際に特にビデオの理解を探求する際にさまざまな課題をもたらします。特に1時間を超えるビデオの微妙さを把握するには、複数のエピソードをまたぐイメージとオーディオシーケンスの分析方法が必要です。この複雑さは、異なる情報源から情報を抽出し、スピーカーを識別し、キャラクターを識別し、物語の一貫性を維持する必要性とともに増加します。さらに、ビデオの証拠に基づいて質問に答えるには、コンテンツ、文脈、字幕の深い理解が求められます。

ライブストリーミングやゲームのビデオでは、リアルタイムでの動的な環境の処理において追加の課題が生じます。セマンティックな理解と長期的な戦略的計画への関与が必要です。

近年、大規模な事前トレーニング済みのビデオ-言語モデルにおいて大きな進展が達成され、ビデオコンテンツに対する優れた推論能力が示されています。しかし、これらのモデルは通常、短いクリップ(例:10秒のビデオ)や事前定義されたアクションクラスでトレーニングされています。そのため、これらのモデルは複雑なリアルワールドのビデオの微妙な理解を提供することに制約が生じる場合があります。

リアルワールドのビデオの理解の複雑さには、シーン内の個人の特定とその行動の明確化が含まれます。さらに、これらの行動の時期や方法を特定する必要があります。また、さまざまなシーンで微妙なニュアンスやビジュアルの手がかりを認識する必要があります。この研究の主たる目的は、これらの課題に取り組み、リアルワールドのビデオ理解に直接適用可能な手法を探求することです。アプローチは、延長ビデオコンテンツを一貫したストーリーに分解し、これらの生成されたストーリーをビデオ分析に使用することを含みます。

大規模なマルチモーダルモデル(LMM)の最近の進展、GPT-4V(ision)などの進歩により、入力画像とテキストの両方の処理において優れた理解能力が示されました。これにより、LMMの応用範囲をビデオドメインに拡大することに関心が集まっています。本記事で報告された研究では、ビデオ理解のために専門ツールをGPT-4Vと統合するシステムであるMM-VIDを紹介しています。システムの概要は以下の図に示されています。

入力ビデオを受け取ると、MM-VIDはマルチモーダルの前処理を開始し、シーン検出と自動音声認識(ASR)を含めてビデオから重要な情報を収集します。その後、シーン検出アルゴリズムに基づいて入力ビデオを複数のクリップに分割します。次に、GPT-4Vを使用し、クリップレベルのビデオフレームを入力として、各ビデオクリップの詳細な説明を生成します。最後に、GPT-4Vは、クリップレベルのビデオの説明、ASR、および利用可能なビデオのメタデータに基づいて、全体のビデオに対する一貫したスクリプトを生成します。生成されたスクリプトは、MM-VIDがさまざまなビデオタスクを実行するための力を与えます。

この研究からのいくつかの例を以下に報告します。

これがMM-VIDの概要であり、GPT-4Vと専門ツールを統合した新しいAIシステムです。興味があり、さらに詳しく知りたい場合は、以下に引用されたリンクを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「DALL-E3」を詳しく見てみる

詳細な記事でOpenAIのDALL-E 3の進歩について探求しましょうさまざまなプロンプトでAIをテストし、ChatGPTとの高度な統合、優...

機械学習

「AIブーム:小規模ビジネスのための生成AI実践ガイド」

近年、世界は人工知能(AI)の分野で驚くべき急速な発展を目撃していますこれは単なるテクノロジートレンドではなく、技術革...

データサイエンス

サムスンはAIとビッグデータを採用し、チップ製造プロセスを革新します

世界的なメモリチップメーカーであるSamsung Electronics Co.は、最先端の人工知能(AI)とビッグデータ技術を活用して、チッ...

機械学習

「NVIDIAは、最大級のAmazon Titan Foundationモデルのトレーニングを支援しています」

大型言語モデルに関するすべての情報は大きいです。巨大なモデルは、数千台のNVIDIA GPU上で大規模なデータセットをトレーニ...

データサイエンス

「JAXにおけるディープ強化学習の優しい入門」

最近の強化学習(RL)の進歩、例えばWaymoの自律タクシーやDeepMindの人間を超えたチェスプレイヤーエージェントなどは、ニュ...

AIテクノロジー

イーロン・マスクが「Grok」を紹介:反抗的なダッシュのあるおしゃべりAIチャットボット

テック界は興奮に包まれています。スペースXやテスラなど画期的な事業の立案者であるイーロン・マスクが、彼の新しいAI会社、...