Google AI Researchは、正確な時空間の位置情報と密に関連付けられた意味的に正しい豊富なビデオの説明を取得する注釈手法であるVidLNsを提案しています

Google AI Researchは、VidLNsという注釈手法を提案していますこの手法は、正確な時空間の位置情報と意味的に正しいビデオの説明を取得することができます

ビジョンと言語の研究は、最近、特に静止画とそれに対応するキャプションの関連を確立するデータセットにおいて、著しい進展を遂げている動的に進化する分野です。これらのデータセットでは、キャプション内の特定の単語を画像内の特定の領域に関連付けるため、さまざまな方法が使用されています。最新のローカライズド・ナラティブ(ImLN)によって提案される興味深いアプローチは、魅力的な解決策を提供します。アノテーターは画像を口頭で説明しながら、同時にマウスカーソルを話題の領域の上に移動させます。この音声とカーソルの移動の二重プロセスは、自然なコミュニケーションを模倣し、各単語に対して包括的な視覚的基盤を提供します。ただし、静止画は時間の一瞬しか捉えていません。動画への注釈付けの可能性は、複数のエンティティやオブジェクトが動的に相互作用するイベントを示す完全なナラティブを描くため、さらに魅力的です。

この時間のかかる複雑なタスクに対処するために、ImLNを動画に拡張するための強化された注釈付けアプローチが提案されています。

提案された技術のパイプラインは以下に示されています。

この新しいプロトコルにより、アノテーターは制御された環境でビデオのナラティブを作成することができます。アノテーターはまずビデオを注意深く観察し、主要なキャラクター(「男性」や「ダチョウ」など)を特定し、各キャラクターの重要な瞬間を表す鍵フレームを選択します。

その後、各キャラクターごとにナラティブが構築されます。アノテーターは口頭でキャラクターの関与するさまざまなイベントを述べながら、キーフレームの上にカーソルを移動させて関連するオブジェクトとアクションを強調します。これらの口頭の説明には、キャラクターの名前、属性、特にアクションが含まれます。これには、他のキャラクターとの相互作用(例:”ダチョウと遊ぶ”)や無生物のオブジェクトとの相互作用(例:”食べ物のカップを掴む”)も含まれます。包括的なコンテキストを提供するために、アノテーターは別のフェーズで背景の簡潔な説明も行います。

キーフレームを効果的に利用することで、時間制約がなくなり、各キャラクターに対して異なるナラティブを作成することが可能になり、複雑な状況を解明することができます。この解明は、複数のキャラクターが相互におよび多数の受動的なオブジェクトと相互作用する多面的なイベントの包括的な描写を容易にします。ImLNと同様に、このプロトコルは各単語を局所化するためにマウスの軌跡セグメントを活用しています。また、この研究では、前の研究の成果を超える正確な局所化を確保するために、いくつかの追加措置も実装されています。

研究者は、Video Localized Narratives (VidLNs) を使用して異なるデータセット上で注釈付けを行いました。考慮されたビデオは、さまざまなキャラクターや無生物のオブジェクトとの相互作用を特徴とする複雑なシナリオを描いており、詳細な注釈によって説明される魅力的なナラティブが生まれています。以下に例を示します。

VidLNsデータセットの深さは、Video Narrative Grounding (VNG) やVideo Question Answering (VideoQA) などのさまざまなタスクにとって堅牢な基盤を形成しています。新たに導入されたVNGの課題は、入力ナラティブから名詞を局所化し、ビデオフレーム上にセグメンテーションマスクを生成することができるテクニックの開発を必要とします。このタスクは、テキストが頻繁に多重の同一名詞を含むため、周囲の単語からの文脈的手がかりを活用した曖昧さの解消が必要であり、重要な課題です。これらの新しいベンチマークは、完全に解決されるには遠い複雑な課題ですが、提案されたアプローチは正しい方向に向けた意味のある進歩を示しています(詳細は公開された論文を参照してください)。

これは、ビジョンと言語をつなぐ新しい形式のマルチモーダルなビデオ注釈であるVideo Localized Narrativesの概要でした。興味があり、詳細を知りたい場合は、以下に引用されているリンクを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

スタビリティAIは、コーディングのための最初のLLMジェネレーティブAI製品であるStableCodeのリリースを発表します

Stability AIは、AIによるコーディング支援でデビューを飾る画期的な製品「StableCode」を発表しました。経験豊富なプログラ...

データサイエンス

アマゾンの研究者は、深層学習を活用して複雑な表形式のデータ分析におけるニューラルネットワークを強化します

ニューラルネットワークは、異質なカラムを持つ表形式のデータに直面するときに、現代計算の驚異として、重要なハードルに直...

AIニュース

「A.I.ツールが手術台で脳腫瘍を診断」

新しい研究では、より迅速かつ正確な診断方法が説明されており、これによって外科医は手術の過度な進行にどれだけ積極的に対...

機械学習

「改善された推論のためのアナロジー提示による言語モデルの拡張」

近年、言語モデルは人間のようなテキストの理解と生成能力を見せるにおいて驚異的な優れた性能を示しています。しかし、これ...

機械学習

「AI時代における学術的誠実性の再考:ChatGPTと32のコースの大学生の比較分析」

機械学習アルゴリズムを使用して以前に作成されたテキスト、音声、または視覚情報を元に新しいコンテンツを生成する人工知能...