映画チャットをご紹介しますビデオの基礎モデルと大規模な言語モデルを統合した革新的なビデオ理解システムです

This is an innovative video understanding system that integrates a basic video model and a large-scale language model for movie chat.

大規模言語モデル(LLM)は最近、自然言語処理(NLP)の分野で大きな進歩を遂げています。LLMにマルチモーダリティを追加し、マルチモーダルな大規模言語モデル(MLLM)に変換することで、マルチモーダルな知覚と解釈を行うことができます。MLLMは人工一般知能(AGI)への可能な一歩として、存在、数え上げ、位置、OCRなどの知覚、常識的な推論、コード推論などのさまざまなマルチモーダルタスクで驚異的な新たなスキルを示しています。MLLMは、LLMや他のタスク特化モデルと比較して、より人間らしい環境の視点、ユーザーフレンドリーなインターフェース、幅広いタスク解決スキルを提供します。

既存のビジョン中心のMLLMは、Q-formerや基本的なプロジェクション層、事前学習済みLLM、ビジョンエンコーダ、および追加の学習可能モジュールを使用しています。異なるパラダイムでは、現在のビジョンパーセプションツール(トラッキングや分類など)をLLMとAPIを介して組み合わせ、トレーニングなしでシステムを構築します。以前のビデオセクターの研究では、このパラダイムを使用してビデオMLLMを開発しました。しかし、長さが1分以上の長い映画に基づくモデルやシステムの調査はこれまで行われておらず、これらのシステムの有効性を測定するための基準も存在しませんでした。

この研究では、浙江大学、ワシントン大学、マイクロソフトリサーチアジア、香港大学の研究者が、ビジョンモデルとLLMを組み合わせた長いビデオ解釈の課題のためのユニークなフレームワークであるMovieChatを紹介しています。彼らによれば、長いビデオ理解の残りの困難は、計算の困難さ、メモリの負荷、長期的な時間的関連性です。これを実現するために、彼らはAtkinson-Shiffrinメモリモデルに基づいたメモリシステムを提案しています。このメモリシステムは、迅速に更新される短期記憶とコンパクトな長期記憶を含みます。

このユニークなフレームワークは、ビジョンモデルとLLMを組み合わせ、長いビデオ理解のタスクを可能にする最初のものです。この研究では、理解能力と推論コストの両方のパフォーマンスを評価するための厳格な数量的評価と事例研究を行い、計算の複雑さとメモリのコストを最小化し、長期的な時間的関連性を向上させるためのメモリメカニズムを提供しています。この研究は、巨大な言語モデルとビデオ基盤モデルを組み合わせたビデオの理解に向けた新しいアプローチを提示しています。

このシステムは、Atkinson-Shiffrinモデルに触発されたメモリプロセスを含むことで、長い映画の分析に関する困難を解決します。このメモリプロセスは、トランスフォーマー内のトークンで表される短期記憶と長期記憶で構成されています。提案されたシステムであるMovieChatは、わずかなフレームしか処理できない以前のアルゴリズムに比べて、長いビデオ理解において最先端のパフォーマンスを達成することで優れた結果を出しています。この方法は、長期的な時間的関係を扱いながら、メモリ使用量と計算の複雑さを低下させます。この研究は、ビデオ理解におけるメモリプロセスの役割を強調し、モデルが重要な情報を長期間保存し、呼び出すことができるようにします。MovieChatの人気は、コンテンツ分析、ビデオ推奨システム、ビデオモニタリングなどの産業に実用的な影響を与えます。将来の研究では、メモリシステムを強化し、音声などの追加のモダリティを使用してビデオ理解を向上させる方法について検討することができます。この研究は、視覚データの徹底的な理解を必要とするアプリケーションの可能性を創出します。彼らのウェブサイトには複数のデモがあります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

ジャーナリズムでのAIの受容 - ニュースカルーセル

最近のジャーナリズムAIの調査によると、LSEのポリスシンクタンクのプロジェクトによると、調査対象の世界のニュース機関の75...

機械学習

「NVIDIA、ワシントンのAIの安全性確保の取り組みを支援」

本日、ホワイトハウスで開催されたイベントで、NVIDIAはバイデン政権が策定した自発的な取り組みを支持することを発表し、高...

AI研究

ストリートビューが救いの手を差し伸べる:ディープラーニングが安全な建物への道を開拓

Googleストリートビューなどで使用される画像は、フロリダ大学の人工知能助教授Chaofeng Wang氏の手によって新たな目的を持つ...

機械学習

トランスフォーマーにおけるセルフアテンション

「初心者にやさしいセルフアテンションガイドセルフアテンションは、AIの現在の進歩の中で鍵となる「トランスフォーマー」の...

人工知能

2023年に使用するための10の最高のAI画像生成ツール

2023年、最高のAI画像生成ツールは非常に複雑で高度であり、ユニークなデザインを育んでいます。デザイナーは時間制約やクリ...

機械学習

画像認識におけるディープラーニング:技術と課題

「人工知能の広大な領域において、特に画像認識の分野において、ディープラーニングはゲームチェンジャーとして登場しました」