「MindGPTとは、fMRI信号から察知された視覚刺激を自然言語に解釈する非侵襲的な神経デコーダーです」

『MindGPT』:脳神経デコーダーが描き出す視覚刺激を自然な言葉に変換

他の人とコミュニケーションを取るために、人間は外界で見たことを説明するために限られた量の言葉しか使うことができません。この適応性のある認知能力は、言語を介して伝達される意味情報が、特に視覚に関する異なる形態の感覚入力と複雑に絡み合っていることを示しています。神経科学の研究によると、アモーダルな意味表現は視覚と言語の経験の間で共有されています。例えば、単語「猫」は猫のイメージに匹敵する概念情報を生成します。ただし、概念的なカテゴリとV&Lモダリティ間の意味関係や滑らかな遷移は、時には計算モデルを使用して数量化または実現されることがあります。

最近の神経デコーダの研究では、機能的磁気共鳴イメージングで捉えられた視覚皮質の表現から視覚コンテンツを再構築することができることが示されています。しかし、再構築された画像のぼやけや意味のなさや不一致は依然として存在します。一方、神経科学のコミュニティは、脳の視覚野がV&L形式の意味的なアイデアにアクセスできるという主張を裏付ける強力な証拠を提供しています。その結果、私たちはあなたが口頭で知覚することを翻訳するための新しい「心の読み取り」装置の開発を推進する必要があります。このような取り組みは、クロスモーダルな意味統合メカニズムを明らかにする上で相当な科学的価値を持ち、補完的または修復的な脳-コンピュータインタフェースに有用な情報を提供するかもしれません。

浙江大学の著者らは、MindGPTという非侵襲的な神経言語デコーダを紹介しています。これは、静的な視覚刺激によって生成される血液酸素レベル依存パターンを適切な単語の列に変換するものです(図1参照)。彼らの知識によれば、Tangらは非侵襲的言語デコーダの作成を試みた最初の研究者であり、非侵襲的言語デコーダに沈黙の映画の意味を回復する能力すらも備えています。しかし、fMRIの時間的解像度が低いため、候補の単語と誘発された脳の反応との間の微細な意味的意義を予測するためには、多くのfMRIデータを収集する必要があります。

図1: 左:MindGPTの非侵襲的言語デコーダの全体的なパイプライン。右:私たちのMindGPT再構築、SMALLCAP画像キャプションモデル、VQ-fMRI、MinD-Vis視覚デコーディング手法の結果。

この研究では、単一の画像などの静的な視覚感覚体験によってアモーダルな言語マップがどの程度意味的にラベル付けされるかに焦点を当てています。彼らのMindGPTは2つの重要な要件を満たすために構築されています:(i) 脳活動から視覚的な意味表現を抽出できる必要があり、(ii) 学習されたVSRを適切に構築された単語の列に変換する方法を含まなければなりません。彼らはまず、大規模な言語モデルであるGPT-2をテキスト生成器として使用することを決定しました。このモデルはWebTextと呼ばれる数百万のウェブサイトのデータセットで事前学習されており、文のパターンを適切な形式の自然な英語に似せることができます。

その後、脳-視覚言語表現間の意味のギャップを閉じるために、彼らはシンプルで効果的なCLIPガイドのfMRIエンコーダと交差注意層を採用しました。このニューラルデコーディングの形式は、学習可能なパラメータ数が非常に少なく、軽量かつ効率的です。この研究では、MindGPTが信頼性の高いV&L意味変換のための脳の視覚野と機械の間のリンクとして機能する可能性を示しています。彼らの技術は一般化可能な脳の意味的表現とB & V & Lモダリティの包括的な理解を学習し、観察された入力の視覚的な意味を正確に捉えた言語を生成します。

さらに、彼らは非常に少量のfMRI画像トレーニングデータでも、熟練したMindGPTが刺激画像の視覚的な手がかりを記録する能力を持つように見えることを発見しました。これにより、視覚特徴が言語の意味にどのように貢献するかを調査することが容易になりました。また、視覚化ツールの助けを借りて、MindGPTによって教えられた潜在的な脳の表現が、低レベルの視覚的側面と高レベルの意味的アイデアの両方で有益な局所性特性を持っていることがわかり、神経科学の一部の研究結果と一致しています。全体として、MindGPTは以前の研究とは対照的に、fMRIの時間的解像度を考慮せずに脳のVC内のV&L表現間の意味的な関係を推測することが可能であることが明らかになりました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

マルチモーダル言語モデルの解説:ビジュアル指示の調整

「LLMは、多くの自然言語タスクでゼロショット学習とフューショット学習の両方で有望な結果を示していますしかし、LLMは視覚...

データサイエンス

「解釈力を高めたk-Meansクラスタリングの改善」

「クラスタリングは、一組のオブジェクトをグループ化する非監督学習のタスクであり、同じグループ内のオブジェクトには他の...

機械学習

「IoT企業のインテリジェントビデオアナリティクスプラットフォームを搭載したAIがベンガルール空港に到着」

毎年、約3200万人がベンガルール空港、またはBLRを通過し、世界で最も人口の多い国の中で最も忙しい空港の一つです。 このよ...

人工知能

「人工知能対応IoTシステムのための継続的インテグレーションと継続的デプロイメント(CI/CD)」

CI/CDは、IoTにおけるAIにとって重要ですバージョン管理、テスト、コンテナ、モニタリング、セキュリティは、信頼性のある展...

データサイエンス

説明可能なAI:ブラックボックスモデルの解明

イントロダクション 現代のデータ駆動型の世界では、機械学習はさまざまな産業でますます重要な役割を果たしています。説明可...

AI研究

デューク大学の研究者たちは、ポリシーステッチングを提案していますこれは、ロボットとタスクの新しい組み合わせにおけるロボットの転送学習を容易にする、画期的なAIフレームワークです

ロボット工学では、環境の変化やロボット構造の変更に敏感なスキルをロボットに教えるために、強化学習(RL)を使用する際に...