「MatFormerをご紹介します:プラットフォーム間で柔軟なモデル展開を可能にする、汎用なネストされたTransformerアーキテクチャ」

「MatFormer 柔軟なモデル展開を可能にする汎用なネストされたTransformerアーキテクチャをご紹介」

Transformerモデルは、強力なマルチアクセラレータクラスタから個々のモバイルデバイスまで、さまざまなアプリケーションで使用されます。これらの設定での推論のさまざまな要件により、開発者はPaLM 2、Llama、ViTsなどの基本モデルを異なるサイズでトレーニングします。ただし、トレーニングに関連する高いコストにより、サポートされるモデルサイズの範囲が制限されます。

大規模な基本モデルは、モバイル電話での迅速な応答や大規模なWebアプリケーションのマルチクラスタGPUでのバッチ処理など、さまざまな状況で使用されます。各モデルは、さまざまな状況に対応するために、異なるサイズで独立にトレーニングされたモデルの選択肢を提供します。これらのモデルサイズは、通常、対数スケールでおおよそ線形にグループ化されます。

そのため、Google Research、テキサス大学オースティン校、ワシントン大学、ハーバード大学の研究者グループは、最新の論文「MatFormer:Elastic InferenceのためのネストされたTransformer」で明らかにしたように、アダプタビリティのために明示的に作成されたTransformerアーキテクチャであるMatFormerを導入しました。MatFormerを使用すると、追加のトレーニングなしで多数の小さなサブモデルを生成できる統合モデルを構築することが容易になります。

彼らは、標準のTransformer内にネストされたサブ構造を組み込み、すべての粒度を共同で最適化して、単一の汎用弾性モデルを生成しています。

研究者たちは、意図的にさまざまなサイズの情報をユニバーサルなMatFormerモデルのさまざまなレイヤーに混在させることで、追加のトレーニングコストを負担せずに多くの正確なサブモデルを生成したと強調しています。MatFormerアーキテクチャの各Feed Forward Network(FFN)ブロックは、より小さなネストされたFFNブロックのコレクションで最適化されています。このトレーニングアプローチにより、異なるレイヤー間でモデルの複雑さを組み合わせて調整しました。

ネスト構造は、Feed Forward Network(FFN)ブロックの非表示表現上に実装されており、注意ヘッドが重要度の順に配置されることでモデルの能力が拡大されます。最も重要なものから最も重要でないものまで、注意ヘッド内のサブ構造が作成されます。より重要なヘッドがより多くのサブモデルに分散されるため、独立してトレーニングされた同等のTransformerベースのサブモデルに比べてトレーニングが15%加速されます。さらに、この方法は特に最適化されたサブモデルカーブと整合し、精度を維持しながら複数の小さなサブモデルの抽出を許可します。

研究者たちは、MatFormerの各レイヤーに対して異なる詳細レベルを選択することで、さまざまな正確な小さいモデルをさらなる最適化なしに生成できることを発見しました。

研究チームは、モデルの種類(デコーダとエンコーダ)、モダリティ(言語とビジョン)、およびスケール(最大26億パラメータまで)の効果を研究しました。研究者たちは、これらの小さなモデルを独立にトレーニングされた対応するモデルと比較することで、類似の検証損失とワンショットのダウンストリームパフォーマンスを実証しました。また、MatFormerは堅牢な汎化性を示し、ビジョンエンコーダ(MatViT)およびデコーダのみの言語モデル(MatLM)として優れた動作をします。精度と信頼性の面では、従来のTransformerに類似したスケーリングを実現しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「React開発者にとってのAI言語モデルの力包括的なガイド」

このブログでは、AI言語モデルとReactのシナジーについて探求し、このコラボレーションが開発者の能力を向上させる方法を探り...

人工知能

「今日の市場においてAIパワードモバイルアプリが際立っているのは何か?」

AIはモバイルアプリを革命し、個人の経験を提供します最新技術を駆使したアプリ開発の利点、成功、そして将来を探求してください

AIニュース

「AIによる気候変動対策の加速」

「ボストン・コンサルティング・グループとの新しいレポートによると、AIは世界の温室効果ガス排出量の5〜10%を軽減する可能...

データサイエンス

AIはETLの再発明に時間を浪費する必要はない

「AIコミュニティはデータ統合を再発明しようとしていますが、現在のETLプラットフォームは既にこの問題を解決していますなぜ...

AI研究

新しい人工知能(AI)の研究アプローチは、統計的な視点からアルゴリズム学習の問題として、プロンプトベースのコンテキスト学習を提示します

インコンテキスト学習は、最近のパラダイムであり、大規模言語モデル(LLM)がテストインスタンスと数少ないトレーニング例を...

人工知能

「キャリアを将来に備えるための最高の無料AIコース」

今日から受講できる最高の無料AIコースのうち、8つをご紹介します