Google AI Researchは、正確な時空間の位置情報と密に関連付けられた意味的に正しい豊富なビデオの説明を取得する注釈手法であるVidLNsを提案しています

Google AI Researchは、VidLNsという注釈手法を提案していますこの手法は、正確な時空間の位置情報と意味的に正しいビデオの説明を取得することができます

ビジョンと言語の研究は、最近、特に静止画とそれに対応するキャプションの関連を確立するデータセットにおいて、著しい進展を遂げている動的に進化する分野です。これらのデータセットでは、キャプション内の特定の単語を画像内の特定の領域に関連付けるため、さまざまな方法が使用されています。最新のローカライズド・ナラティブ(ImLN)によって提案される興味深いアプローチは、魅力的な解決策を提供します。アノテーターは画像を口頭で説明しながら、同時にマウスカーソルを話題の領域の上に移動させます。この音声とカーソルの移動の二重プロセスは、自然なコミュニケーションを模倣し、各単語に対して包括的な視覚的基盤を提供します。ただし、静止画は時間の一瞬しか捉えていません。動画への注釈付けの可能性は、複数のエンティティやオブジェクトが動的に相互作用するイベントを示す完全なナラティブを描くため、さらに魅力的です。

この時間のかかる複雑なタスクに対処するために、ImLNを動画に拡張するための強化された注釈付けアプローチが提案されています。

提案された技術のパイプラインは以下に示されています。

この新しいプロトコルにより、アノテーターは制御された環境でビデオのナラティブを作成することができます。アノテーターはまずビデオを注意深く観察し、主要なキャラクター(「男性」や「ダチョウ」など)を特定し、各キャラクターの重要な瞬間を表す鍵フレームを選択します。

その後、各キャラクターごとにナラティブが構築されます。アノテーターは口頭でキャラクターの関与するさまざまなイベントを述べながら、キーフレームの上にカーソルを移動させて関連するオブジェクトとアクションを強調します。これらの口頭の説明には、キャラクターの名前、属性、特にアクションが含まれます。これには、他のキャラクターとの相互作用(例:”ダチョウと遊ぶ”)や無生物のオブジェクトとの相互作用(例:”食べ物のカップを掴む”)も含まれます。包括的なコンテキストを提供するために、アノテーターは別のフェーズで背景の簡潔な説明も行います。

キーフレームを効果的に利用することで、時間制約がなくなり、各キャラクターに対して異なるナラティブを作成することが可能になり、複雑な状況を解明することができます。この解明は、複数のキャラクターが相互におよび多数の受動的なオブジェクトと相互作用する多面的なイベントの包括的な描写を容易にします。ImLNと同様に、このプロトコルは各単語を局所化するためにマウスの軌跡セグメントを活用しています。また、この研究では、前の研究の成果を超える正確な局所化を確保するために、いくつかの追加措置も実装されています。

研究者は、Video Localized Narratives (VidLNs) を使用して異なるデータセット上で注釈付けを行いました。考慮されたビデオは、さまざまなキャラクターや無生物のオブジェクトとの相互作用を特徴とする複雑なシナリオを描いており、詳細な注釈によって説明される魅力的なナラティブが生まれています。以下に例を示します。

VidLNsデータセットの深さは、Video Narrative Grounding (VNG) やVideo Question Answering (VideoQA) などのさまざまなタスクにとって堅牢な基盤を形成しています。新たに導入されたVNGの課題は、入力ナラティブから名詞を局所化し、ビデオフレーム上にセグメンテーションマスクを生成することができるテクニックの開発を必要とします。このタスクは、テキストが頻繁に多重の同一名詞を含むため、周囲の単語からの文脈的手がかりを活用した曖昧さの解消が必要であり、重要な課題です。これらの新しいベンチマークは、完全に解決されるには遠い複雑な課題ですが、提案されたアプローチは正しい方向に向けた意味のある進歩を示しています(詳細は公開された論文を参照してください)。

これは、ビジョンと言語をつなぐ新しい形式のマルチモーダルなビデオ注釈であるVideo Localized Narrativesの概要でした。興味があり、詳細を知りたい場合は、以下に引用されているリンクを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

多変量ガウス分布による異常検知の基本

私たちの生まれつきのパターン認識能力によって、私たちはこのスキルを使って抜け落ちた部分を埋めたり、次に何が起こるかを...

機械学習

アバカスAIは、新しいオープンロングコンテキスト大規模言語モデルLLM「ジラフ」を紹介します

最近の言語モデルは長い文脈を入力として受け取ることができますが、それらが長い文脈をどれだけ効果的に使用しているかにつ...

機械学習

SimPer:周期的なターゲットの簡単な自己教示学習

Googleのスタッフ研究者であるDaniel McDuffと学生研究者のYuzhe Yangによって投稿されました。 周期的なデータ(心拍や地球...

機械学習

「組織のためのカスタマイズされたコーディングパートナー」

コーディングの仲間としての生成的AIモデルは、主に公開されているソースコードと自然言語テキストで訓練されています大規模...

機械学習

オルカ2の内部:Microsoftが小さな言語モデルに推論を教えるための新しい方法を紹介

今年早い時期、マイクロソフトリサーチはOrcaを発表しましたこれは130億パラメータのモデルで、他のLLMが示す複雑な推論プロ...