中国からの新しいAI研究、「Meta-Transformer マルチモーダル学習のための統一されたAIフレームワーク」を提案する

中国からの新しいAI研究を提案する:Meta-Transformer マルチモーダル学習のための統一されたAIフレームワーク

人間の脳は、視覚、聴覚、触覚の信号など、さまざまな感覚入力からの情報を同時に処理する神経ネットワーク理論の典型とされています。さらに、ある情報源からの理解が別の情報源の知識に役立つこともあります。しかし、深層学習におけるモダリティの隔たりの大きさのため、さまざまな入力形式を処理できる統合ネットワークを構築するには多くの作業が必要です。あるデータモダリティでトレーニングされたモデルは、各データモダリティの異なるデータパターンと連携するために調整する必要があります。口述言語とは対照的に、写真は画像中のピクセルが密集しているため、かなりの情報冗長性を持っています。

一方、点群は3D空間でのまばらな分布とノイズへの感受性の増加のため、記述が困難です。オーディオスペクトログラムは、異なる周波数領域の波の組み合わせから成る時間変動する非定常データパターンです。ビデオデータは、一連の画像フレームから成るため、空間情報と時間的ダイナミクスを記録する特有の能力を持っています。グラフデータは、アイテムをノード、関係をエッジとしてグラフ内で複雑な多対多の相互作用をモデル化します。異なるデータモダリティ間の大きな不均衡のため、各データモダリティを独立にエンコードするために他のネットワークトポロジーを使用することが一般的な手法です。

たとえば、Point Transformerは、3D座標から構造情報を抽出するためにベクトルレベルの位置注意を使用しますが、写真や自然言語の文章、オーディオスペクトログラムのスライスをエンコードすることはできません。したがって、さまざまなデータタイプをエンコードするために複数のモダリティで共有されるパラメータ空間を使用できる単一のフレームワークを作成するには、時間と努力がかかります。最近開発されたVLMO、OFA、BEiT-3などの統合フレームワークは、対になったデータで広範なマルチモーダルプリトレーニングを通じて、ネットワークのマルチモーダル理解能力を向上させました。ただし、ビジョンと言語に重点を置いているため、完全なエンコーダをモダリティ間で共有することはできません。ディープラーニングは、自然言語処理(NLP)のために他の研究者が提案したトランスフォーマーアーキテクチャと注意メカニズムから大いに恩恵を受けています。

これらの進展により、2Dビジョン(ViTやSwin Transformerを含む)、3Dビジョン(Point TransformerやPoint-ViTを含む)、音響信号処理(AST)など、さまざまなモダリティでの知覚が大幅に向上しました。これらの研究は、トランスフォーマーベースの設計の適応性を示し、いくつかのモダリティを組み合わせるための基礎モデルが作成できるかどうかを研究するための学術界の動機を提供し、最終的にはすべてのモダリティでの人間レベルの知覚を実現する可能性を追求しています。図1は、トランスフォーマーデザインの潜在能力を調査するために、画像、自然言語、点群、オーディオスペクトログラム、ビデオ、赤外線、高分光、X線、IMU、表形式、グラフ、時系列データなど、12のモダリティを扱うMeta-Transformerを使用している様子を示しています。

図1: Meta-Transformerを使用して、自然言語、画像、点群、オーディオ、ビデオ、赤外線、高分光、X線、時系列、表形式、慣性計測ユニット(IMU)、グラフデータをすべて同じバックボーンを使用してエンコードする方法を示しています。トランスフォーマーシステムが統合されたマルチモーダルインテリジェンスを提供する可能性を示しています。

彼らは、トランスフォーマーを使用した各モダリティの学習プロセスについて説明し、それらを統合フレームワークに組み合わせる際の困難について取り組んでいます。その結果、香港中文大学と上海AIラボの研究者は、Meta-Transformerという新しい統合型マルチモーダル学習フレームワークを提案しています。最初のフレームワークであるMeta-Transformerは、12の異なるモダリティからの入力を同時にエンコードするために同じセットのパラメータを使用し、より統合されたアプローチのマルチモーダル学習を実現します。データからシーケンスへのトークン化のためのモダリティ専門家、モダリティ共有エンコーダ、ダウンストリームタスクのためのタスク固有のヘッドという、3つのシンプルで貴重な構成要素がMeta-Transformerにあります。より具体的には、Meta-Transformerはまず、マルチモーダルデータから共有の多様体空間を持つトークンシーケンスを作成します。

その後、凍結されたパラメータを持つモダリティ共有エンコーダを使用して表現が抽出されます。個々のタスクは、軽量なトークナイザと更新されたダウンストリームタスクヘッドのパラメータを使用してさらにカスタマイズされます。最終的に、この簡単なアプローチによってタスク固有およびモダリティ一般の表現を効率的に学習することができます。彼らは12のモダリティからいくつかの標準を使用して重要な研究を行います。Meta-Transformerは、LAION-2Bデータセットの画像のみを使用して事前学習を行い、さまざまな多モーダル学習タスクで最先端の技術を常に上回る優れた処理能力を発揮します。

まとめると、彼らの貢献は以下の通りです:

• 彼らはMeta-Transformerと呼ばれるユニークなフレームワークを提供し、単一のエンコーダを使用して同じパラメータセットを使用して複数のモダリティから表現を同時に抽出することが可能になります。

• 彼らはTransformerの構成要素である埋め込み、トークナイゼーション、およびエンコーダが多モーダルネットワークアーキテクチャの処理に果たす役割について徹底的に調査しました。

• 実験的に、Meta-Transformerは12のモダリティに関するさまざまなデータセットで優れたパフォーマンスを達成し、統一された多モーダル学習のさらなる可能性を検証します。

• Meta-Transformerは、すべてのモダリティを統合するモダリティ非依存のフレームワークの開発における有望な新しい方向性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Google DeepMindが、7100万件の「ミスセンス」変異の効果を分類する新しいAIツールを発表」

人類遺伝学における最大の課題は、おそらく人間のゲノムの複雑さと、健康と病気に寄与する遺伝要因の広範な多様性です。人間...

AIニュース

A.I.はいつか医療の奇跡を起こすかもしれませんしかし今のところ、役立つのは書類作業です

医師たちは、健康管理における生成的AIの最適な活用法は、彼らが毎日数時間を費やしている文書作業の負担を軽減することだと...

AI研究

SalesForce AI研究所によって開発されたProGen:人工知能を使用したタンパク質エンジニアリングの飛躍的進歩

機能性タンパク質の開発は、医療、バイオテクノロジー、環境持続性など、さまざまな科学分野で重要な追求となっています。し...

機械学習

RPDiffと出会ってください:3Dシーン内の6自由度オブジェクト再配置のための拡散モデル

日常のタスクを実行するためのロボットの設計と構築は、コンピュータサイエンスエンジニアリングの最も刺激的で挑戦的な分野...

AI研究

Meta AIとSamsungの研究者が、学習率適応のための2つの新しいAI手法、ProdigyとResettingを導入し、最先端のD-Adaptation手法の適応率を改善しました

現代の機械学習は、コンピュータビジョン、自然言語処理、強化学習など、さまざまな分野で難しい問題に効果的な解答を提供す...

人工知能

SalesforceのLive Call Analyticsによる統合でエージェントの生産性を向上させる

コンタクトセンターエージェントとして、生産的な顧客との会話に集中することが好きですか?それとも、さまざまなシステムに...