「MatFormerをご紹介します:プラットフォーム間で柔軟なモデル展開を可能にする、汎用なネストされたTransformerアーキテクチャ」

「MatFormer 柔軟なモデル展開を可能にする汎用なネストされたTransformerアーキテクチャをご紹介」

Transformerモデルは、強力なマルチアクセラレータクラスタから個々のモバイルデバイスまで、さまざまなアプリケーションで使用されます。これらの設定での推論のさまざまな要件により、開発者はPaLM 2、Llama、ViTsなどの基本モデルを異なるサイズでトレーニングします。ただし、トレーニングに関連する高いコストにより、サポートされるモデルサイズの範囲が制限されます。

大規模な基本モデルは、モバイル電話での迅速な応答や大規模なWebアプリケーションのマルチクラスタGPUでのバッチ処理など、さまざまな状況で使用されます。各モデルは、さまざまな状況に対応するために、異なるサイズで独立にトレーニングされたモデルの選択肢を提供します。これらのモデルサイズは、通常、対数スケールでおおよそ線形にグループ化されます。

そのため、Google Research、テキサス大学オースティン校、ワシントン大学、ハーバード大学の研究者グループは、最新の論文「MatFormer:Elastic InferenceのためのネストされたTransformer」で明らかにしたように、アダプタビリティのために明示的に作成されたTransformerアーキテクチャであるMatFormerを導入しました。MatFormerを使用すると、追加のトレーニングなしで多数の小さなサブモデルを生成できる統合モデルを構築することが容易になります。

彼らは、標準のTransformer内にネストされたサブ構造を組み込み、すべての粒度を共同で最適化して、単一の汎用弾性モデルを生成しています。

研究者たちは、意図的にさまざまなサイズの情報をユニバーサルなMatFormerモデルのさまざまなレイヤーに混在させることで、追加のトレーニングコストを負担せずに多くの正確なサブモデルを生成したと強調しています。MatFormerアーキテクチャの各Feed Forward Network(FFN)ブロックは、より小さなネストされたFFNブロックのコレクションで最適化されています。このトレーニングアプローチにより、異なるレイヤー間でモデルの複雑さを組み合わせて調整しました。

ネスト構造は、Feed Forward Network(FFN)ブロックの非表示表現上に実装されており、注意ヘッドが重要度の順に配置されることでモデルの能力が拡大されます。最も重要なものから最も重要でないものまで、注意ヘッド内のサブ構造が作成されます。より重要なヘッドがより多くのサブモデルに分散されるため、独立してトレーニングされた同等のTransformerベースのサブモデルに比べてトレーニングが15%加速されます。さらに、この方法は特に最適化されたサブモデルカーブと整合し、精度を維持しながら複数の小さなサブモデルの抽出を許可します。

研究者たちは、MatFormerの各レイヤーに対して異なる詳細レベルを選択することで、さまざまな正確な小さいモデルをさらなる最適化なしに生成できることを発見しました。

研究チームは、モデルの種類(デコーダとエンコーダ)、モダリティ(言語とビジョン)、およびスケール(最大26億パラメータまで)の効果を研究しました。研究者たちは、これらの小さなモデルを独立にトレーニングされた対応するモデルと比較することで、類似の検証損失とワンショットのダウンストリームパフォーマンスを実証しました。また、MatFormerは堅牢な汎化性を示し、ビジョンエンコーダ(MatViT)およびデコーダのみの言語モデル(MatLM)として優れた動作をします。精度と信頼性の面では、従来のTransformerに類似したスケーリングを実現しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「PandasAIの包括的ガイド」

イントロダクション 生成AIと大規模言語モデル(LLM)は、人工知能(AI)と機械学習(ML)に新たな時代をもたらしました。こ...

AIニュース

検索で創発的AIにインスピレーションを受ける新たな方法

「私たちは、アイデアを具現化するイメージを作るための新しい方法や、出発点となる文章の下書きのようなものを作成するため...

機械学習

Concrete MLと出会ってください:プライバシーの保護と安全な機械学習を可能にするオープンソースのFHEベースのツールキット

人工知能と機械学習は、過去数年間で驚異的な生産性の向上を示しています。機械学習は、すべてのプライバシーと機密性の手段...

機械学習

NLPとAIを利用したPythonにおけるテンプレートベースの文書生成の力

Pythonを利用したテンプレートベースの文書生成の機能をNLPやAIの機能と融合させ、その力を活用してください文書生成の作業フ...

機械学習

AIベースのアプリケーションテストのトップトレンドを知る必要があります

「AIアプリケーションのテストにおける最新のトレンドを把握しましょうこれらの必須のテスト方法で、AIアプリケーションの精...

AIニュース

「英国初のAIカメラ、わずか3日で300人の犯罪者を摘発」

イギリスの道路安全の風景は、フリースタンディングの人工知能(AI)道路安全カメラの登場によって革命的な変革を遂げていま...