「EPFLとAppleの研究者が4Mをオープンソース化:数十のモダリティとタスクにわたるマルチモーダルな基盤モデルの訓練のための人工知能フレームワーク」

「EPFLとAppleの研究者が4Mをオープンソース化:マルチモーダルな基盤モデルの訓練に役立つ人工知能フレームワーク」

大量の自然言語処理(NLP)タスクを広範に扱える大型言語モデル(LLM)をトレーニングすることは、より人気があります。NLPでこれらのモデルが優れた成功を示しているにもかかわらず、ビジョンのために同様に柔軟でスケーラブルなモデルを作成する必要があります。ビジョンのスケーラビリティと多機能性には、多くの入力モダリティと出力タスクを管理する能力が不可欠です。

ビジョンモデルは、写真、3D、テキストを含むさまざまな感覚入力を処理し、さまざまなタスクを実行する必要があります。ビジョンに関しては、単一の目的でRGB画像でのトレーニングは、生のテキストに対する言語モデリングと同じ結果を生みませんでした。その結果、トレーニングではさまざまなモダリティとタスクを活用する必要があります。

データ、アーキテクチャ、トレーニングの目的は、望ましいビジョン基盤モデルの属性を持つモデルを構築する際に考慮すべき3つの重要なスケーラビリティ要素です。データのスケーラビリティは、性能を向上させるためにより多くのトレーニングサンプルを活用できる能力を指します。アーキテクチャの観点では、性能が増加するにつれてモデルサイズを大きくし、トレーニング時に安定性を保つことを意味します。最後に、スケーラブルなトレーニング目標は、計算コストが急増することなく、増加するモダリティの数に効率的に対応できる必要があります。

スイス連邦工科大学ローザンヌ校(EPFL)とAppleの新しい研究は、これらの3つの領域すべてでスケーラビリティを目指し、さまざまな入力タイプと互換性のある方法を提案しています。

これらの障壁を乗り越えるため、チームは、マルチモーダルなマスクされたモデリングのゴールを持つ単一の統合トランスフォーマーエンコーダーデコーダーをトレーニングする戦略を提案しています。4Mは「Massively Multimodal Masked Modeling」の略で、このアプローチの様々なモダリティに拡張可能な能力を強調しています。このアプローチは、マスクされたモデリングとマルチモーダル学習の最良の特徴を組み合わせています。

  1. 強力なクロスモーダル予測コーディング能力と共有シーン表現
  2. 反復サンプリングにより、モデルを生成タスクに使用できる
  3. 事前トレーニングの目的は、効果的に豊かな表現を学ぶことです

重要なのは、4Mがこれらの利点を保ちながら、多くのプロセスを通じて効率を保つことです。モダリティ固有のトークナイザーを使用することで、モダリティをさまざまな形式でセットや連続の離散トークンに変換し、テキスト、境界ボックス、画像、ニューラルネットワークの特徴など、さまざまなモダリティで単一のトランスフォーマーをトレーニングできます。これにより、表現領域が統一されます。タスク固有のエンコーダーやヘッドはもはや必要ないため、このトークナイゼーションアプローチにより、パラメータ共有が可能になり、互換性、スケーラビリティ、共有性が向上します。

また、4Mは、多くのモダリティで作業するにもかかわらず、入力と目標のマスキングを活用して効率的にトレーニングすることができます。これには、トークンの小さなサブセットをランダムに選択してモデルの入力として使用し、別の小さなサブセットを目標として使用する必要があります。スケーラブルなトレーニング目標を達成するためには、入力トークンと目標トークンの数をモダリティの数から切り離す必要があります。これにより、モダリティの数が増えても計算コストが急速に増加することを防げます。CC12Mや他の利用可能な単一モーダルまたはテキスト-画像ペアデータセットを使用して、強力な擬似ラベリングネットワークを使用してモーダルに整合したバインディングデータを作成します。

この擬似ラベリング手法により、異なる大規模データセットでのトレーニングが可能になります。4Mモデルは、出発点でさまざまな重要な視覚タスクで優れた結果を出すだけでなく、未知のダウンストリームタスクや入力モダリティでも注目すべき結果を達成するために微調整することができます。

さらに、どのモダリティでも条件付きで操作可能な操作可能な生成モデルをトレーニングするために、マルチモーダルなマスクされたモデリングゴールを利用する必要があります。これにより、ユーザーの意図やさまざまなマルチモーダルな編集タスクの多様な表現が可能になります。その後、4Mのパフォーマンスに影響を与えるパラメータを徹底的に分析します。この包括的な分析と、この手法の容易さと汎用性により、4Mは多くのビジョンタスクと今後の開発に大いに期待されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AIにおける意識の可能性の評価:神経科学理論に基づく指標特性の科学的探求

AIシステムが意識を持つ可能性は現在の注目のトピックです。トップの研究者たちは、人間の意識に関連する脳のプロセスからイ...

データサイエンス

「LLMの評価にLLMを使用する」

ChatGPTには何百万もの異なる方法で行動するように頼むことができます栄養士や言語講師、医者などとしての役割も果たしますOp...

データサイエンス

線形回帰と勾配降下法

線形回帰は機械学習に存在する基本アルゴリズムの1つですその内部ワークフローを理解することは、データサイエンスの他のアル...

AIニュース

「Amazon SageMaker StudioでAmazon SageMaker JumpStartを使用して安定したDiffusion XLを利用する」

「今日、私たちはお知らせすることを喜んでいますStable Diffusion XL 1.0(SDXL 1.0)がAmazon SageMaker JumpStartを通じて...

AI研究

「INDIAaiとMetaが連携:AIイノベーションと共同作業の道を開く」

有望な展開として、INDIAaiとMetaが人工知能(AI)と新興技術の領域で強力な協力関係を築いています。両組織は覚書(MoU)に...

機械学習

「時間差学習と探索の重要性:図解ガイド」

最近、強化学習(RL)アルゴリズムは、タンパク質の折りたたみやドローンレースの超人レベルの到達、さらには統合などの研究...