「MatFormerをご紹介します：プラットフォーム間で柔軟なモデル展開を可能にする、汎用なネストされたTransformerアーキテクチャ」

「MatFormer 柔軟なモデル展開を可能にする汎用なネストされたTransformerアーキテクチャをご紹介」

Transformerモデルは、強力なマルチアクセラレータクラスタから個々のモバイルデバイスまで、さまざまなアプリケーションで使用されます。これらの設定での推論のさまざまな要件により、開発者はPaLM 2、Llama、ViTsなどの基本モデルを異なるサイズでトレーニングします。ただし、トレーニングに関連する高いコストにより、サポートされるモデルサイズの範囲が制限されます。

大規模な基本モデルは、モバイル電話での迅速な応答や大規模なWebアプリケーションのマルチクラスタGPUでのバッチ処理など、さまざまな状況で使用されます。各モデルは、さまざまな状況に対応するために、異なるサイズで独立にトレーニングされたモデルの選択肢を提供します。これらのモデルサイズは、通常、対数スケールでおおよそ線形にグループ化されます。

そのため、Google Research、テキサス大学オースティン校、ワシントン大学、ハーバード大学の研究者グループは、最新の論文「MatFormer：Elastic InferenceのためのネストされたTransformer」で明らかにしたように、アダプタビリティのために明示的に作成されたTransformerアーキテクチャであるMatFormerを導入しました。MatFormerを使用すると、追加のトレーニングなしで多数の小さなサブモデルを生成できる統合モデルを構築することが容易になります。

彼らは、標準のTransformer内にネストされたサブ構造を組み込み、すべての粒度を共同で最適化して、単一の汎用弾性モデルを生成しています。

研究者たちは、意図的にさまざまなサイズの情報をユニバーサルなMatFormerモデルのさまざまなレイヤーに混在させることで、追加のトレーニングコストを負担せずに多くの正確なサブモデルを生成したと強調しています。MatFormerアーキテクチャの各Feed Forward Network（FFN）ブロックは、より小さなネストされたFFNブロックのコレクションで最適化されています。このトレーニングアプローチにより、異なるレイヤー間でモデルの複雑さを組み合わせて調整しました。

ネスト構造は、Feed Forward Network（FFN）ブロックの非表示表現上に実装されており、注意ヘッドが重要度の順に配置されることでモデルの能力が拡大されます。最も重要なものから最も重要でないものまで、注意ヘッド内のサブ構造が作成されます。より重要なヘッドがより多くのサブモデルに分散されるため、独立してトレーニングされた同等のTransformerベースのサブモデルに比べてトレーニングが15％加速されます。さらに、この方法は特に最適化されたサブモデルカーブと整合し、精度を維持しながら複数の小さなサブモデルの抽出を許可します。

研究者たちは、MatFormerの各レイヤーに対して異なる詳細レベルを選択することで、さまざまな正確な小さいモデルをさらなる最適化なしに生成できることを発見しました。

研究チームは、モデルの種類（デコーダとエンコーダ）、モダリティ（言語とビジョン）、およびスケール（最大26億パラメータまで）の効果を研究しました。研究者たちは、これらの小さなモデルを独立にトレーニングされた対応するモデルと比較することで、類似の検証損失とワンショットのダウンストリームパフォーマンスを実証しました。また、MatFormerは堅牢な汎化性を示し、ビジョンエンコーダ（MatViT）およびデコーダのみの言語モデル（MatLM）として優れた動作をします。精度と信頼性の面では、従来のTransformerに類似したスケーリングを実現しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickMachine learningStaff

Was this article helpful?

93 out of 132 found this helpful

「MatFormerをご紹介します：プラットフォーム間で柔軟なモデル展開を可能にする、汎用なネストされたTransformerアーキテクチャ」

Was this article helpful?

In Japanese, the title would be written as 「プロのようにChatGPT 4Visionを活用する7つの方法」(Puro no you ni ChatGPT 4Vision o katsuyou suru nanatsu no houhou).

「今日使用されているAIoTの応用」

機械学習

Rows AI：エクセルスプレッドシートの終焉か？

「企業がGoogle Cloud AIを利用する7つの方法」

PyTorchモデルのパフォーマンス分析と最適化—Part2

元アップル社員が生成型AIをデスクトップにもたらす方法

LLM幻覚を軽減する方法

「メタに立ち向かい、開発者を強力にサポートするために、アリババがAIモデルをオープンソース化」