「EPFLとAppleの研究者が4Mをオープンソース化:数十のモダリティとタスクにわたるマルチモーダルな基盤モデルの訓練のための人工知能フレームワーク」

「EPFLとAppleの研究者が4Mをオープンソース化:マルチモーダルな基盤モデルの訓練に役立つ人工知能フレームワーク」

大量の自然言語処理(NLP)タスクを広範に扱える大型言語モデル(LLM)をトレーニングすることは、より人気があります。NLPでこれらのモデルが優れた成功を示しているにもかかわらず、ビジョンのために同様に柔軟でスケーラブルなモデルを作成する必要があります。ビジョンのスケーラビリティと多機能性には、多くの入力モダリティと出力タスクを管理する能力が不可欠です。

ビジョンモデルは、写真、3D、テキストを含むさまざまな感覚入力を処理し、さまざまなタスクを実行する必要があります。ビジョンに関しては、単一の目的でRGB画像でのトレーニングは、生のテキストに対する言語モデリングと同じ結果を生みませんでした。その結果、トレーニングではさまざまなモダリティとタスクを活用する必要があります。

データ、アーキテクチャ、トレーニングの目的は、望ましいビジョン基盤モデルの属性を持つモデルを構築する際に考慮すべき3つの重要なスケーラビリティ要素です。データのスケーラビリティは、性能を向上させるためにより多くのトレーニングサンプルを活用できる能力を指します。アーキテクチャの観点では、性能が増加するにつれてモデルサイズを大きくし、トレーニング時に安定性を保つことを意味します。最後に、スケーラブルなトレーニング目標は、計算コストが急増することなく、増加するモダリティの数に効率的に対応できる必要があります。

スイス連邦工科大学ローザンヌ校(EPFL)とAppleの新しい研究は、これらの3つの領域すべてでスケーラビリティを目指し、さまざまな入力タイプと互換性のある方法を提案しています。

これらの障壁を乗り越えるため、チームは、マルチモーダルなマスクされたモデリングのゴールを持つ単一の統合トランスフォーマーエンコーダーデコーダーをトレーニングする戦略を提案しています。4Mは「Massively Multimodal Masked Modeling」の略で、このアプローチの様々なモダリティに拡張可能な能力を強調しています。このアプローチは、マスクされたモデリングとマルチモーダル学習の最良の特徴を組み合わせています。

  1. 強力なクロスモーダル予測コーディング能力と共有シーン表現
  2. 反復サンプリングにより、モデルを生成タスクに使用できる
  3. 事前トレーニングの目的は、効果的に豊かな表現を学ぶことです

重要なのは、4Mがこれらの利点を保ちながら、多くのプロセスを通じて効率を保つことです。モダリティ固有のトークナイザーを使用することで、モダリティをさまざまな形式でセットや連続の離散トークンに変換し、テキスト、境界ボックス、画像、ニューラルネットワークの特徴など、さまざまなモダリティで単一のトランスフォーマーをトレーニングできます。これにより、表現領域が統一されます。タスク固有のエンコーダーやヘッドはもはや必要ないため、このトークナイゼーションアプローチにより、パラメータ共有が可能になり、互換性、スケーラビリティ、共有性が向上します。

また、4Mは、多くのモダリティで作業するにもかかわらず、入力と目標のマスキングを活用して効率的にトレーニングすることができます。これには、トークンの小さなサブセットをランダムに選択してモデルの入力として使用し、別の小さなサブセットを目標として使用する必要があります。スケーラブルなトレーニング目標を達成するためには、入力トークンと目標トークンの数をモダリティの数から切り離す必要があります。これにより、モダリティの数が増えても計算コストが急速に増加することを防げます。CC12Mや他の利用可能な単一モーダルまたはテキスト-画像ペアデータセットを使用して、強力な擬似ラベリングネットワークを使用してモーダルに整合したバインディングデータを作成します。

この擬似ラベリング手法により、異なる大規模データセットでのトレーニングが可能になります。4Mモデルは、出発点でさまざまな重要な視覚タスクで優れた結果を出すだけでなく、未知のダウンストリームタスクや入力モダリティでも注目すべき結果を達成するために微調整することができます。

さらに、どのモダリティでも条件付きで操作可能な操作可能な生成モデルをトレーニングするために、マルチモーダルなマスクされたモデリングゴールを利用する必要があります。これにより、ユーザーの意図やさまざまなマルチモーダルな編集タスクの多様な表現が可能になります。その後、4Mのパフォーマンスに影響を与えるパラメータを徹底的に分析します。この包括的な分析と、この手法の容易さと汎用性により、4Mは多くのビジョンタスクと今後の開発に大いに期待されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

ドライバーレスへの推進

シンディ・アレハンドラ・ヘレディアは、テキサス州ラレドからの道のりを経て、MITの自律走行車チームのリーダーシップを担当...

機械学習

画像処理におけるノイズとは何ですか? - 簡易解説

「画像処理におけるノイズの種類、原因、モデル、および応用を探究してください」

機械学習

CapPaに会ってください:DeepMindの画像キャプション戦略は、ビジョンプレトレーニングを革新し、スケーラビリティと学習性能でCLIPに匹敵しています

「Image Captioners Are Scalable Vision Learners Too」という最近の論文は、CapPaと呼ばれる興味深い手法を提示しています...

データサイエンス

マイクロソフト アジュール:クラウドコンピューティングの未来を支える

Microsoft Azureの現代のビジネスやテクノロジー環境への影響を発見してください主な特徴、利点、使用例を探索しましょう

AI研究

MONAI 生成モデル:医療画像の進歩に向けたオープンソースプラットフォーム

最近の生成型人工知能のブレークスルーにより、特に医療画像処理の分野で重要な進展が見られています。しかし、これらの生成...

AIニュース

2023年のYouTuberに最適なAIツール

VidIQ VidIQは、YouTubeのビデオメーカーに知恵を絞ったツールのアーセナルを提供するオンラインサービスです。VidIQのYouTub...