マルチモーダルニューロンの秘密を明らかにする:モリヌーからトランスフォーマーへの旅
マルチモーダルニューロンの秘密を解明!モリヌーからトランスフォーマーへの旅
トランスフォーマーは人工知能領域において最も重要なイノベーションの一つとなるかもしれません。これらのニューラルネットワークアーキテクチャは、2017年に導入され、機械が人間の言語を理解し生成する方法を革新しました。
これまでの方法とは異なり、トランスフォーマーは入力データを並列で処理するための自己注意機構に依存しており、情報のシーケンス内の隠れた関係や依存関係を捉えることができます。この並列処理能力は、トレーニング時間の短縮だけでなく、有名なChatGPTのような洗練されたモデルの開発への道を開きました。
最近の数年間は、人工ニューラルネットワークがさまざまなタスクにおいてどれだけ能力を発揮できるかを示してくれました。言語タスクや視覚タスクなどを変えました。しかし、真の可能性は、ビジョンとテキストなど、さまざまな感覚モーダリティを統合するクロスモーダルタスクにあります。これらのモデルは追加の感覚入力で補完され、異なるソースからの情報の理解と処理を必要とするタスクで印象的な性能を発揮しました。
- コンピュータビジョンの進歩:画像認識のためのディープラーニング
- 実験、モデルのトレーニングおよび評価:AWS SageMakerを使用して6つの主要なMLOpsの質問を探求する
- 「Amazon EUデザインと建設のためにAmazon SageMakerで動作する生成AIソリューション」
1688年、ウィリアム・モリナクスという哲学者が、ジョン・ロックに対して長い間学者たちの心を捉え続ける魅力的な謎を提案しました。彼が提起した質問は簡単ですが、深遠です。生まれつき盲目だった人が突然視力を取り戻した場合、以前に触覚や他の視覚以外の感覚だけで知っていた物体を認識することができるでしょうか?この興味深い問い合わせは、モリナクスの問題として知られ、哲学の領域に深く関わるだけでなく、視覚科学にも重要な意味を持っています。
2011年に、視覚神経科学者たちはこの古代の問いに答えるためのミッションを開始しました。彼らは、以前は触覚のみで知っていたオブジェクトの直ちに視覚的な認識は不可能であることを見つけました。しかし、重要な発見は、私たちの脳が驚くほど適応性があることでした。視力を取り戻す手術の数日後には、個人は迅速に視覚的にオブジェクトを認識することができるようになり、異なる感覚モーダリティの間のギャップを埋めることができました。
この現象は、マルチモーダルニューロンにも当てはまるのでしょうか?答えに出会う時間です。
私たちは技術革新の真っただ中にいます。特に言語タスクで訓練された人工ニューラルネットワークは、視覚とテキストなど、さまざまな感覚モーダリティを統合するクロスモーダルタスクにおいて驚異的な能力を発揮しています。これらのモデルは、追加の感覚入力で補完され、異なるソースからの情報の理解と処理を必要とするタスクで印象的な性能を発揮しました。
これらのビジョン-言語モデルにおける一般的なアプローチの一つは、画像に応じたプレフィックス調整の形態を使用することです。このセットアップでは、別の画像エンコーダがテキストデコーダと整合し、しばしば学習済みのアダプタレイヤーの助けを借りています。このような戦略を採用している方法はいくつかありますが、通常はCLIPなどの画像エンコーダを言語モデルと一緒に訓練しています。
しかし、最近の研究であるLiMBeRは、機械においてモリナクスの問題に似たユニークなシナリオを提示しました。彼らは、一切の言語データを見たことがない自己教育画像ネットワーク「BEIT」を使用し、線形射影層で画像からテキストへのタスクでトレーニングされた言語モデル「GPT-J」と接続しました。この興味深いセットアップは、基本的な疑問を呼び起こします。モーダリティ間の意味の翻訳は射影層内で行われるのか、それともビジョンと言語の表現の整合が言語モデル内で起こるのでしょうか?
MITの著者によって発表された研究は、この400年以上の謎の解明と、これらの多様なモデルがどのように機能するのかを明らかにすることを目的としています。
まず、彼らは画像プロンプトが変換器の埋め込み空間に変換されても解釈可能な意味をエンコードしないことを発見しました。代わりに、異なるモダリティ間の翻訳は変換器内で行われます。
第二に、同じ意味を持つ画像とテキスト情報の両方を処理できる多モダルニューロンが、テキスト専用の変換器MLP内で発見されました。これらのニューロンは、視覚表現を言語に変換する上で重要な役割を果たしています。
最後に、そしておそらく最も重要な発見は、これらの多モダルニューロンがモデルの出力に因果的な影響を与えるということです。これらのニューロンを制御することで、画像のキャプションから特定の概念を除去することができ、コンテンツの多モダル理解における重要性が強調されます。
深層ネットワーク内の個々のユニットの内部構造に対するこの調査は、多くの情報を明らかにします。画像分類器の畳み込みユニットが色やパターンを検出し、後のユニットがオブジェクトのカテゴリを認識できるのと同様に、変換器でも多モダルニューロンが現れることがわかりました。これらのニューロンは、同じ意味を持つ画像とテキストに対して選択的です。
さらに、ビジョンと言語が別々に学習されている場合でも、多モダルニューロンが現れることがあります。彼らは効果的に視覚表現を統一されたテキストに変換することができます。異なるモダリティ間で表現を整列させるこの能力は、言語モデルがゲーム戦略の予測からタンパク質の設計に至るまで、さまざまな順序モデリングを必要とするさまざまなタスクにおいて、強力なツールとなります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles