「MatFormerをご紹介します:プラットフォーム間で柔軟なモデル展開を可能にする、汎用なネストされたTransformerアーキテクチャ」

「MatFormer 柔軟なモデル展開を可能にする汎用なネストされたTransformerアーキテクチャをご紹介」

Transformerモデルは、強力なマルチアクセラレータクラスタから個々のモバイルデバイスまで、さまざまなアプリケーションで使用されます。これらの設定での推論のさまざまな要件により、開発者はPaLM 2、Llama、ViTsなどの基本モデルを異なるサイズでトレーニングします。ただし、トレーニングに関連する高いコストにより、サポートされるモデルサイズの範囲が制限されます。

大規模な基本モデルは、モバイル電話での迅速な応答や大規模なWebアプリケーションのマルチクラスタGPUでのバッチ処理など、さまざまな状況で使用されます。各モデルは、さまざまな状況に対応するために、異なるサイズで独立にトレーニングされたモデルの選択肢を提供します。これらのモデルサイズは、通常、対数スケールでおおよそ線形にグループ化されます。

そのため、Google Research、テキサス大学オースティン校、ワシントン大学、ハーバード大学の研究者グループは、最新の論文「MatFormer:Elastic InferenceのためのネストされたTransformer」で明らかにしたように、アダプタビリティのために明示的に作成されたTransformerアーキテクチャであるMatFormerを導入しました。MatFormerを使用すると、追加のトレーニングなしで多数の小さなサブモデルを生成できる統合モデルを構築することが容易になります。

彼らは、標準のTransformer内にネストされたサブ構造を組み込み、すべての粒度を共同で最適化して、単一の汎用弾性モデルを生成しています。

研究者たちは、意図的にさまざまなサイズの情報をユニバーサルなMatFormerモデルのさまざまなレイヤーに混在させることで、追加のトレーニングコストを負担せずに多くの正確なサブモデルを生成したと強調しています。MatFormerアーキテクチャの各Feed Forward Network(FFN)ブロックは、より小さなネストされたFFNブロックのコレクションで最適化されています。このトレーニングアプローチにより、異なるレイヤー間でモデルの複雑さを組み合わせて調整しました。

ネスト構造は、Feed Forward Network(FFN)ブロックの非表示表現上に実装されており、注意ヘッドが重要度の順に配置されることでモデルの能力が拡大されます。最も重要なものから最も重要でないものまで、注意ヘッド内のサブ構造が作成されます。より重要なヘッドがより多くのサブモデルに分散されるため、独立してトレーニングされた同等のTransformerベースのサブモデルに比べてトレーニングが15%加速されます。さらに、この方法は特に最適化されたサブモデルカーブと整合し、精度を維持しながら複数の小さなサブモデルの抽出を許可します。

研究者たちは、MatFormerの各レイヤーに対して異なる詳細レベルを選択することで、さまざまな正確な小さいモデルをさらなる最適化なしに生成できることを発見しました。

研究チームは、モデルの種類(デコーダとエンコーダ)、モダリティ(言語とビジョン)、およびスケール(最大26億パラメータまで)の効果を研究しました。研究者たちは、これらの小さなモデルを独立にトレーニングされた対応するモデルと比較することで、類似の検証損失とワンショットのダウンストリームパフォーマンスを実証しました。また、MatFormerは堅牢な汎化性を示し、ビジョンエンコーダ(MatViT)およびデコーダのみの言語モデル(MatLM)として優れた動作をします。精度と信頼性の面では、従来のTransformerに類似したスケーリングを実現しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIとML開発言語としてのPythonの利点」

「AIやMLなどのツールを使用して、ウェブ開発会社が業界を征服するためにPythonがますます使用されている理由を発見してくだ...

機械学習

「研究:社会的に意識した時間的因果関係デコーダー推薦システム」

エルタイエブ・アフメド(リサーチエンジニア)とサブラジット・ロイ(シニアリサーチサイエンティスト)によるGoogle Resear...

データサイエンス

ジェネラティブAIを活用したシフトレフトテストの推進

「ジェネラティブAIがシフトレフトテストを向上させ、優れたソフトウェア開発のためのテストケースの自動生成と予測的なバグ...

人工知能

「ゲームからAIへ:NvidiaのAI革命における重要な役割」

Nvidiaは現在、Facebook、Tesla、Netflixよりも価値が高くなっていますロイターによると、株価は過去8ヶ月で3倍に増加しまし...

人工知能

「ウェブ開発の未来:予測と可能性」

「ウェブ開発の未来を発見しましょう!AI、PWA、VRなどを探求しましょう可能性やウェブ開発者の役割についての洞察を得ましょ...

機械学習

「RNNにおける誤差逆伝播法と勾配消失問題(パート2)」

このシリーズの第1部では、RNNモデルのバックプロパゲーションを解説し、数式と数値を用いてRNNにおける勾配消失問題を説明し...