シンガポール国立大学の研究者が提案するMind-Video:脳のfMRIデータを使用してビデオイメージを再現する新しいAIツール

Mind-Video New AI tool proposed by researchers at the National University of Singapore that recreates video images using fMRI data.

人間の認知を理解することは、特に非侵襲的な技術である機能的磁気共鳴画像法(fMRI)を用いた場合、脳プロセスから人間の視覚を再構築することが興味深いものとなっています。非侵襲的な技術を用いた脳の記録から、静止画像の復元には多くの進展がありましたが、映画のような連続的な視覚体験にはあまり進展がありません。

非侵襲的な技術は、外部のノイズなどの外部の影響に対してより堅牢ではなく、データをあまり収集することができません。さらに、神経画像データを収集することは、時間のかかる高コストのプロセスです。

これらの課題にもかかわらず、非侵襲的なfMRI注釈ペアを用いた有用なfMRI特徴の学習においては、進展がありました。静止画像とは異なり、人間の視覚体験は連続的で絶えず変化する風景、動き、物体の流れです。fMRIは血液酸素化レベル依存性(BOLD)信号を測定し、数秒ごとに脳活動の画像を撮影するため、動的な視覚体験を復元することは困難です。各fMRIの読み出しは、スキャン中の脳の活動の「平均」と考えることができます。対照的に、標準的なビデオのフレームレートは1秒あたり30フレーム(FPS)です。1つのfMRIフレームを取得するのにかかる時間には、60のビデオフレームが視覚的な刺激として表示されるため、被験者は多様な物体、アクション、設定にさらされる可能性があります。したがって、fMRIの時間分解能よりも大幅に高いFPSで映画をfMRIデコーディングによって取得することは、困難です。

シンガポール国立大学と香港中文大学の研究者は、MinD-Videoというモジュラーな脳デコーディングパイプラインを紹介しました。このパイプラインは、独立してトレーニングされたfMRIエンコーダと拡張された安定拡散モデルから構成されています。提案されたモデルは、脳のデータを段階的に取り込みながら、意味領域の知識を拡大します。

まず、研究チームは大規模な無監督学習とマスクされた脳モデリングを使用して一般的な視覚fMRI特徴をトレーニングします。次に、注釈付きデータセットの多様性を使用して意味関連の特徴を抽出し、コントラスティブ学習を使用してfMRIエンコーダをContrastive Language-Image Pre-Training(CLIP)空間でトレーニングします。その後、fMRI入力を使用したビデオ制作用に設計された拡張された安定拡散モデルを、学習された特徴と共に共同トレーニングして洗練させます。

研究者たちはシーンダイナミックビデオの生成に安定拡散モデルにフレーム近接焦点を追加しました。また、特定の目的のためにfMRIスキャンを条件づけるための敵対的なガイダンスシステムを開発しました。高品質のビデオが取得され、それらの意味、動き、シーンのダイナミクスなどが正確でした。

研究チームは、ビデオとフレームレベルの意味的およびピクセルメトリクスを使用して結果を評価しました。意味的なメトリクスでは85%の精度を達成し、SSIMでは0.19であり、この方法は従来の最先端の方法よりも49%効果的です。また、注意研究の結果に基づいて、このモデルは視覚皮質と高次の認知ネットワークにマッピングされることを示しており、生物学的な妥当性と解釈性を持っている可能性があります。

被験者間での一貫性に関しては、提案手法の一般化能力はまだ研究中です。この手法では脳の全データの潜在能力を活用するために、全体の脳データのわずか10%未満のコルティカルボクセルが使用されています。研究者は、より複雑なモデルが構築されるにつれて、この領域が神経科学やBCIなどで利用される可能性が高いと考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more