Google AI Researchは、正確な時空間の位置情報と密に関連付けられた意味的に正しい豊富なビデオの説明を取得する注釈手法であるVidLNsを提案しています

Google AI Researchは、VidLNsという注釈手法を提案していますこの手法は、正確な時空間の位置情報と意味的に正しいビデオの説明を取得することができます

ビジョンと言語の研究は、最近、特に静止画とそれに対応するキャプションの関連を確立するデータセットにおいて、著しい進展を遂げている動的に進化する分野です。これらのデータセットでは、キャプション内の特定の単語を画像内の特定の領域に関連付けるため、さまざまな方法が使用されています。最新のローカライズド・ナラティブ(ImLN)によって提案される興味深いアプローチは、魅力的な解決策を提供します。アノテーターは画像を口頭で説明しながら、同時にマウスカーソルを話題の領域の上に移動させます。この音声とカーソルの移動の二重プロセスは、自然なコミュニケーションを模倣し、各単語に対して包括的な視覚的基盤を提供します。ただし、静止画は時間の一瞬しか捉えていません。動画への注釈付けの可能性は、複数のエンティティやオブジェクトが動的に相互作用するイベントを示す完全なナラティブを描くため、さらに魅力的です。

この時間のかかる複雑なタスクに対処するために、ImLNを動画に拡張するための強化された注釈付けアプローチが提案されています。

提案された技術のパイプラインは以下に示されています。

この新しいプロトコルにより、アノテーターは制御された環境でビデオのナラティブを作成することができます。アノテーターはまずビデオを注意深く観察し、主要なキャラクター(「男性」や「ダチョウ」など)を特定し、各キャラクターの重要な瞬間を表す鍵フレームを選択します。

その後、各キャラクターごとにナラティブが構築されます。アノテーターは口頭でキャラクターの関与するさまざまなイベントを述べながら、キーフレームの上にカーソルを移動させて関連するオブジェクトとアクションを強調します。これらの口頭の説明には、キャラクターの名前、属性、特にアクションが含まれます。これには、他のキャラクターとの相互作用(例:”ダチョウと遊ぶ”)や無生物のオブジェクトとの相互作用(例:”食べ物のカップを掴む”)も含まれます。包括的なコンテキストを提供するために、アノテーターは別のフェーズで背景の簡潔な説明も行います。

キーフレームを効果的に利用することで、時間制約がなくなり、各キャラクターに対して異なるナラティブを作成することが可能になり、複雑な状況を解明することができます。この解明は、複数のキャラクターが相互におよび多数の受動的なオブジェクトと相互作用する多面的なイベントの包括的な描写を容易にします。ImLNと同様に、このプロトコルは各単語を局所化するためにマウスの軌跡セグメントを活用しています。また、この研究では、前の研究の成果を超える正確な局所化を確保するために、いくつかの追加措置も実装されています。

研究者は、Video Localized Narratives (VidLNs) を使用して異なるデータセット上で注釈付けを行いました。考慮されたビデオは、さまざまなキャラクターや無生物のオブジェクトとの相互作用を特徴とする複雑なシナリオを描いており、詳細な注釈によって説明される魅力的なナラティブが生まれています。以下に例を示します。

VidLNsデータセットの深さは、Video Narrative Grounding (VNG) やVideo Question Answering (VideoQA) などのさまざまなタスクにとって堅牢な基盤を形成しています。新たに導入されたVNGの課題は、入力ナラティブから名詞を局所化し、ビデオフレーム上にセグメンテーションマスクを生成することができるテクニックの開発を必要とします。このタスクは、テキストが頻繁に多重の同一名詞を含むため、周囲の単語からの文脈的手がかりを活用した曖昧さの解消が必要であり、重要な課題です。これらの新しいベンチマークは、完全に解決されるには遠い複雑な課題ですが、提案されたアプローチは正しい方向に向けた意味のある進歩を示しています(詳細は公開された論文を参照してください)。

これは、ビジョンと言語をつなぐ新しい形式のマルチモーダルなビデオ注釈であるVideo Localized Narrativesの概要でした。興味があり、詳細を知りたい場合は、以下に引用されているリンクを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

MITの研究者たちは「MechGPT」を導入しました:メカニクスと材料モデリングにおいてスケール、学問領域、およびモダリティをつなぐ言語ベースのパイオニア

研究者たちは、物質科学の広範な領域において密度の濃い科学的な文書から重要な洞察を効率的に抽出するという困難な課題に直...

AI研究

「ケンブリッジの研究者たちは、機械学習システムに不確実性を組み込むことを開発しています」

不確かな人間の洞察力の世界で、不確実性を受け入れることは、機械と人間がより効果的かつ信頼性の高い方法で協力するのに役...

人工知能

「DIRFAは、オーディオクリップをリアルなデジタル顔に変換する」

人工知能とマルチメディアコミュニケーションの進歩の中で、シンガポールの南洋理工大学(NTU Singapore)の研究チームが画期...

機械学習

「2023年の最高のAI文法チェッカーツール」

Grammarly  Grammarlyは、人工知能によって強力にサポートされたウェブベースのライティングチューターです。文法、スペル、...

AIニュース

INVE 対話型AIマジックでビデオ編集を革新する

画像編集なしの世界を想像できますか?面白いミーム、息をのむような風景、魅力的なインスタグラムの写真はどこに魅力を失い...

人工知能

Orca LLM:ChatGPTの推論プロセスをシミュレートする

オルカは、LFMの推論過程を模倣するために学習する13BパラメータモデルですOrcaは、GPT-4からの豊富な信号を活用し、能力を向...